Come estrarre valori univoci dalla colonna Panda?
Diversi modi possono essere usati per trovare valori unici nei panda. Il modo più comune per estrarre valori univoci da una colonna è l'uso della funzione univoca () e la funzione drop_duplicates (). Prima di usare queste funzioni, vediamo prima la loro sintassi.
Sintassi della funzione unica (): serie.unico( )
Ritorna: NdArray o ExtensionArray
Sintassi della funzione Drop_Duplicate ()
DataFrame.Drop_Duplicates (sottoinsieme = nessuno, Keep = 'First', inplace = false)
Parametri:
sottoinsieme: Un elenco di etichette di colonne o una colonna è richiesto dal sottoinsieme. Nessuno è il valore predefinito per questo. Dopo aver superato le colonne, tiene conto solo dei duplicati.
Mantenere: Per controllare come vengono considerati i valori duplicati. Possiamo usare tre valori distinti; è "primo" per impostazione predefinita.
a posto: Valore booleano. Se vero, rimuove le righe duplicate.
Ritorna: A seconda degli argomenti, il tipo di ritorno sarà un telaio di dati con righe duplicate eliminate.
Come abbiamo visto la sintassi, ci muoviamo verso gli esempi per imparare a estrarre valori unici dalla colonna Panda.
Esempio # 01: Ottieni valori univoci dalle colonne Pandas utilizzando il metodo univoco ()
Quando si lavora con un'unica colonna di un telaio di dati, i "panda.DataFrame.Viene utilizzato un metodo unico () ". Restituisce tutti i componenti unici di una colonna. Il metodo genera un telaio di dati che include gli elementi di colonna distinti e le loro etichette dell'indice di accompagnamento come output. Creiamo prima un frame dati, in modo da poter utilizzare la funzione univoca () per estrarre valori univoci dalle sue colonne.
Dopo aver importato il modulo Pandas, abbiamo creato il nostro telaio di dati utilizzando un dizionario Pandas. Abbiamo definito le chiavi del nostro dizionario come "nome" e "corsi" e assegnato questo dizionario alla variabile "DIC". La variabile "DIC" viene quindi passata nel parametro del PD.Metodo DataFrame () come argomento per creare DataFrame "DF". Possiamo visualizzare il nostro frame dati utilizzando la funzione print ().
Supponiamo che il nostro telaio di dati sia composto da nomi degli studenti e corsi in cui sono iscritti. In tale situazione, è piuttosto difficile contare ogni riga del telaio di dati per identificare la categoria del corso specifico per determinare il numero complessivo di corsi studiati. Nel frame dati precedente la colonna "Corsi" contenente il nome dei corsi ("inglese", "matematica", "chimica", "matematica", "statistica", "matematica", "inglese", "datascience"). Più di uno studente studia alcuni corsi. Quindi, per ottenere i corsi unici dalla colonna "Corsi", useremo la funzione unica ().
Nell'output, otteniamo una serie di elementi contenenti i corsi unici nel nostro telaio di dati. Supponiamo di voler contare il numero totale di elementi distinti piuttosto che cercare i nomi di valori univoci nelle colonne del frame dati. A tale scopo, possiamo usare la funzione NUnique (). Il numero totale di valori distinti per ciascuna colonna viene restituito con il metodo Nune ().
La funzione Nune () ha restituito "5", il che significa che ci sono un totale di 5 valori univoci nella colonna "Corsi" del frame dati "DF".
Esempio # 02: Utilizzo del metodo univoco () Ottieni valori univoci dalle colonne numeriche
Per creare un frame dati, importeremo prima il modulo Pandas. Quindi, creeremo il nostro telaio di dati utilizzando il PD.Funzione dataframe ().
Come visto sopra, abbiamo creato il data frame passando un dizionario all'interno della funzione dataframe (). Per visualizzare il data frame di nuova creazione, useremo la funzione print ().
In questo frame dati, abbiamo due etichette, "età" e "stipendio", con dati numerici. Nella colonna "Age", abbiamo l'età degli individui come ("20", "24", "20", "22", "21", "28", "31", "25"), mentre il La colonna "Stipendio" sta immagazzinando gli stipendi degli individui ("1000", "1000", "1300", "1100", "1400", "1000", "1100", "1400"). Ora utilizzeremo la funzione unica () per ottenere i valori distinti dalle colonne del frame dati.
Come mostra lo script precedente, abbiamo usato la funzione unica () per ottenere valori distinti dalla colonna "stipendio". La funzione ha restituito l'output sotto forma di un array ["1000", "1300", "1100", "1400"] contenente tutti i valori univoci dalla colonna "stipendio" nel frame dati. Possiamo anche usare la funzione Ordine () per ordinare i dati dei risultati in ordine crescente.
Per ordinare l'array di output (con valori univoci dalla colonna salariale), abbiamo assegnato l'array a una variabile 'u'. La funzione Ordine () viene applicata all'array per ordinare i valori dell'array di output in ordine crescente.
Esempio # 03: Ottieni valori univoci da più colonne utilizzando il metodo univoco ()
Abbiamo imparato come estrarre un insieme di valori distinti da una singola colonna di dati di dati. Ma in alcune situazioni. Potrebbe essere necessario trovare valori distinti in più colonne. In tali circostanze, prima di utilizzare la funzione unica () sull'oggetto serie (colonna), combineremo i valori delle colonne da cui vogliamo ottenere i valori univoci. Utilizzeremo lo stesso frame dati, che abbiamo creato nell'esempio n. 2.
Supponiamo di voler ottenere i valori distinti dalle colonne "età" e "stipendio". Innanzitutto, uniremo i dati di entrambe le colonne utilizzando il seguente script.
Nel codice precedente, abbiamo selezionato i dati dalla colonna "età" e quindi abbiamo usato l'append ("stipendio") per unire i dati della colonna "stipendio" con i dati della colonna "età". Dopo aver unito i dati, abbiamo usato la funzione unica () per ottenere i valori distinti da entrambe le colonne.
Come si può vedere, abbiamo estratto con successo i valori unici da entrambe le colonne.
Esempio # 04: Utilizzo della funzione Drop_Duplicates () per ottenere valori univoci dalle colonne Panda
La funzione Drop_Duplicates è una funzione integrata della libreria Pandas. Può essere utilizzato per rimuovere i valori di ripetizione o duplicare i dati dalla colonna di dati. Le righe con valori duplicati vengono rimosse mentre il tipo di dati dell'oggetto o il suo sottoinsieme rimane conservato. Il metodo Drop_Duplicate () è l'opzione più veloce per eliminare i valori duplicati quando si lavora con un grande gruppo di dati.
Ora useremo la funzione Drop_Duplicate () per eliminare le colonne con valori duplicati.
Come puoi vedere, tutte le righe sono state eliminate considerando i dati duplicati nella colonna "stipendio". Solo la prima istanza di valori duplicati è lasciata nel frame dati.
Conclusione
In questo articolo, abbiamo discusso di come ottenere valori univoci dalle colonne del frame dati in Panda. Dopo aver attraversato questo tutorial, potresti essere in grado di estrarre valori unici dalla colonna Panda da solo. Abbiamo implementato alcuni esempi per insegnarti come ottenere valori univoci dalle colonne di Panda e dalle colonne numeriche dei panda usando la funzione univoca () e drop_duplicates ().