ZÍSKAJTE JEDINEČNÉ HODNOTY ZO STĹPCA V PANDAS DATAFRAME

Funkcia unique() odstráni všetky duplicitné hodnoty v stĺpci a vráti jednu hodnotu pre viacero rovnakých hodnôt. V tomto článku budeme diskutovať o tom, ako môžeme získať jedinečné hodnoty zo stĺpca v Pandas DataFrame .

Vytvorenie dátového rámca Pandas s duplicitnými prvkami

Vytvorte vzorový dátový rámec Pandas so slovníkom zoznamov, povedzme, že názvy stĺpcov sú A, B, C, D a E s duplicitnými prvkami.

Python3

# Import pandas package> import> pandas as pd> # create a dictionary with five fields each> data>=> {> >'A'>: [>'A1'>,>'A2'>,>'A3'>,>'A4'>,>'A5'>],> >'B'>: [>'B1'>,>'B2'>,>'B3'>,>'B4'>,>'B4'>],> >'C'>: [>'C1'>,>'C2'>,>'C3'>,>'C3'>,>'C3'>],> >'D'>: [>'D1'>,>'D2'>,>'D2'>,>'D2'>,>'D2'>],> >'E'>: [>'E1'>,>'E1'>,>'E1'>,>'E1'>,>'E1'>]}> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)>

Nižšie je uvedených niekoľko príkladov, pomocou ktorých môžeme získať jedinečné hodnoty stĺpca v tomto dátovom rámci.

Získajte jedinečné hodnoty stĺpca „B“.
Získajte jedinečné hodnoty stĺpca „E“.
Získajte počet jedinečných hodnôt v stĺpci
Použitie set() na odstránenie duplicitných hodnôt zo stĺpca
Použitie metód pandas.concat() a Unique().
Použitie Series.drop_duplicates()

Získajte jedinečné hodnoty stĺpca „B“.

V tomto príklade získavame a tlačíme jedinečné hodnoty zo stĺpca „B“ pomocou unique()> metóda. Výsledné jedinečné hodnoty sú['B1', 'B2', 'B3', 'B4']>.

Python3

interné fungovanie hashmap

# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Get the unique values of 'B' column> df.B.unique()>

Výkon

array(['B1', 'B2', 'B3', 'B4'], dtype=object)>

Získajte jedinečné hodnoty Pandy v stĺpci „E“.

V tomto príklade vytvoríme dátový rámec pandy zo slovníka a potom získame jedinečné hodnoty zo stĺpca „E“ pomocouunique()>metóda. Výsledné jedinečné hodnoty sú['E1']>.

Python3

# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Get the unique values of 'E' column> df.E.unique()>

Výkon

array(['E1'], dtype=object)>

Získajte počet jedinečných hodnôt v stĺpci

V tomto príklade vytvoríme dátový rámec pandas zo slovníka a potom vypočítame a vytlačíme počet jedinečných hodnôt v stĺpci „C“ s výnimkou hodnôt NaN. Výsledok je 3, čo znamená, že v stĺpci „C“ sú tri jedinečné hodnoty.

Python3

# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Get number of unique values in column 'C'> df.C.nunique(dropna>=>True>)>

Výkon

js načítať

3>

Odstránenie duplicitných hodnôt zo stĺpca pomocou set()

V tomto príklade vytvoríme pandas DataFrame zo slovníka a potom použijeme set()>funkciu extrahovať jedinečné hodnoty zo stĺpca „C“, čím sa eliminujú duplikáty. Výsledný súbor,{'C1', 'C2', 'C3'}>, predstavuje jedinečné hodnoty v stĺpci „C“.

Python3

# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Use set() to eliminate duplicate values in column 'C'> unique_values_set>=> set>(df[>'C'>])> # Print the unique values> print>(unique_values_set)>

Výkon

{'C1', 'C2', 'C3'}>

Použitie metód pandas.concat() a Unique().

V tomto príklade vytvoríme dátový rámec pandy zo slovníka a potom zreťazí jedinečné hodnoty zo všetkých stĺpcov pomocou pd.concat()> . Výsledné pole NumPy po vytlačení zobrazuje všetky jedinečné hodnoty zo stĺpcov „A“ až „E“.

Python3

# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Use pd.concat() to concatenate all columns and then apply unique()> unique_values_all_columns>=> pd.concat([df[col].unique()>for> col>in> df.columns])> # Print the unique values> print>(unique_values_all_columns)>

Výkon

['A1' 'A2' 'A3' 'A4' 'A5' 'B1' 'B2' 'B3' 'B4' 'C1' 'C2' 'C3' 'D1' 'D2' 'E1']>

Použitie Series.drop_duplicates()

V tomto príklade vytvoríme dátový rámec pandy zo slovníka a odstránime duplikáty zo stĺpcov „A“ a „D“ pomocou drop_duplicates()>metóda . Výsledný DataFrame po vytlačení zobrazuje jedinečné hodnoty v stĺpcoch „A“ a „D“ s hodnotami NaN, kde boli duplikáty odstránené z „D“.

Python3

# Import pandas package> import> pandas as pd> # Convert the dictionary into DataFrame> df>=> pd.DataFrame(data)> # Use drop_duplicates() to remove duplicates from columns 'A' and 'D'> df[>'A'>]>=> df[>'A'>].drop_duplicates()> df[>'D'>]>=> df[>'D'>].drop_duplicates()> # Print the DataFrame after removing duplicates from columns 'A' and 'D'> print>(df)>

Výkon

   A B C D E   0 A1 B1 C1 D1 E1 1 A2 B2 C2 D2 E1 2 A3 B3 C3 NaN E1 3 A4 B4 C3 NaN E1 4 A5 B4 C3 NaN E1>