I panda filtrano per valore

I panda filtrano per valore
Una struttura tabulare con colonne e righe è un frame di dati in panda. I dati possono essere puliti, filtrati, aggregati e raggruppati utilizzando questa libreria. Ci consente di dividere il set di dati originale in gruppi più piccoli. Dividendo il set di dati in frame di dati più piccoli, ci consente di estrarre sottoinsiemi dal set di dati dato. Ciò rende più semplice esaminare, visualizzare e analizzare particolari sezioni di dati. È necessario capire questi comandi per usarli efficacemente. Impareremo diversi modi per filtrare un Frame di dati Panda in questo tutorial Python.

Come filtrare i dati di dati per valori in panda?

Fortunatamente, ci sono diverse tecniche per filtrare i dati da dati e serie in panda. I valori di un telaio di dati possono essere filtrati utilizzando una varietà di funzioni come dimostrato negli esempi seguenti.

Esempio # 01: Filtratura delle righe di dati con l'aiuto del valore della colonna

In un telaio di dati, è spesso necessario individuare istanze di un valore particolare. IL .La funzione di indicizzazione LOC rende semplice filtrare le righe in base al fatto che il valore esista o no. Innanzitutto, importeremo la biblioteca Pandas. Quindi, creeremo il frame dati utilizzando il PD.Funzione dataframe ().

Abbiamo creato sei righe e tre colonne. La colonna "Person" consiste nei nomi di alcuni individui ("Jason", "Arya", "Kim", "Ryan", "Sana", "Mark"). La colonna "Peso" è i valori dei dati che rappresentano i pesi degli individui in kg (80, 56, 60, 72, 63, 90). La colonna "Sex" ha i valori delle stringhe che rappresentano i sessi degli individui ('M', 'f', 'f', 'm', 'f', 'm'). Estraiamo le righe in cui il valore nella colonna "sesso" è 'f'. Per questo, verrà utilizzata la funzione loc []. Le righe possono essere recuperate utilizzando la funzione LOC [] che offre Pandas. Solo le etichette dell'indice possono essere passate come input nel frame dati.Loc [] Metodo. Restituisce un frame di dati o una riga se l'etichetta dell'indice esiste nel frame di dati chiamato.

L'espressione logica è presa come argomento dal .Loc [] Metodo. Specificando la funzione df ['sex'] == 'f' all'interno della funzione loc [], la funzione ha restituito tre righe in cui il valore della colonna 'sex' è 'f'.

Esempio # 02: Filtratura delle file di dati con l'aiuto di condizioni logiche o relazionali

In alcuni scenari, potresti preferire trovare dati raggruppati in base a modelli anziché a righe con un singolo valore. Le espressioni logiche possono essere utilizzate per definire i modelli. Creiamo prima un frame dati.

Il frame dati sopra è costituito da tre colonne "ginnasta" con valori ("roxy", "Alan", "eva", "Marcus", "Jim", "Zack", "Lana", "Robin"), altezza della colonna Memorizza altezze delle ginnaste in piedi (6.2, 6.0, 5.8, 6.2, 6.4, 5.9, 5.7, 6.0) e la colonna contenente i sessi delle ginnaste ("femmina", "maschio", "femmina", "maschio", "maschio", "maschio", "femmina", "femmina"). La logica verrà definita nell'operatore di indicizzazione ([]) come un argomento.

Simile all'ultimo esempio, stiamo filtrando le righe dei telai di dati solo per estrarre quelli in cui i valori di dati nella colonna "altezza" sono superiori a 6.0.

Come visto, abbiamo tre righe in cui il valore è maggiore di 6.0 nella colonna 'altezza'. Possiamo anche definire più condizioni utilizzando e operatore. Ripuciamo le righe in cui l'altezza è inferiore a 6.2 e il valore nella colonna "genere" è "femmina".

Abbiamo specificato due condizioni all'interno dell'operatore di indicizzazione ([]), df ['altezza'] < 6.2) and (df['gender'] == 'female'). The function has extracted the rows where the height is less than 6.2 and gender is equal to 'female'.

Esempio # 03: Filtratura del telaio di dati con l'aiuto dell'operatore di slitta

Ci sono situazioni in cui è necessario filtrare i dati in base alla posizione dell'indice anziché ai valori. È possibile specificare rapidamente un intervallo di indice della riga di dati, della colonna o di entrambi per estrarre usando il .Metodo ILoc. Creiamo un frame di dati con più colonne e per comprendere praticamente l'uso della funzione ILOoc [].

Il frame dati richiesto è stato creato utilizzando un dizionario Python all'interno delle parentesi del PD.Funzione dataframe (). La colonna DataFrame "Player" consiste nel nome dei giocatori ("Alex", "Brock", "Riley", "Anna", "Jia", "Henry", "Tom", "Ron"), il punteggio "SCOPO 'La colonna contiene il punteggio di un gioco recente (9, 9, 6, 7, 8, 10, 4, 5), la colonna "Ranks" rappresenta i ranghi dei giocatori (3, 2, 6, 5, 4, 1, 8, 7) e la colonna "Grado" che memorizza i gradi ("A", "A", "C", "B", "B", "A", "D", "C"). Usiamo la funzione ILOC [] per filtrare i dati.

Il primo argomento restituisce cinque righe di dati come abbiamo specificato 0: 5. Significa le righe che iniziano all'indice 0 e termina prima dell'indice 5. Vengono restituite due colonne di dati come abbiamo specificato 1: 3 nel secondo argomento, indicando le colonne che iniziano all'indice 1 e terminano prima dell'indice 3. Se vuoi recuperare tutte le righe o tutte le colonne, puoi lasciare quel luogo di argomento (primo o secondo) con un colon ":".

Esempio # 04: Filtratura delle file di dati con la funzione di aiuto ()

È possibile specificare una condizione o più nei panda.Metodo query () come stringa. Elimina inoltre il requisito di recuperare le righe dei frame dati utilizzando gli operatori di indicizzazione ([],.loc,.ILoc, ecc.). Dobbiamo prima creare un frame dati da cui filtreremo le righe.

Ci sono due colonne nel nostro frame dati: "Studenti" con valori di dati ("Ryan", "Wanda", "Bob", "Drew", "Natalia", "Maya", "Adam", "Nick") e "Marks 'Con valori (48, 35, 46, 20, 28, 30, 43, 36). Per la funzione query () per recuperare i dati dal frame dati, possiamo specificare una singola condizione o più condizioni come stringa.

Abbiamo specificato una condizione per recuperare le righe in cui il valore nella colonna dei segni è inferiore a 48 e maggiore di 30. Vengono recuperate quattro righe dal gesto di dati che soddisfano la condizione specificata all'interno della funzione query ().

Esempio # 05: Filtratura delle righe dei frame dati dai valori null

In alcuni casi, i valori null possono essere presenti in un set di dati. Usando i panda.funzione notnull (), è semplice eliminare le righe con valori mancanti dal frame dati. Creiamo un frame dati con valori null o valori mancanti in almeno una delle sue colonne.

Come si può vedere nella colonna "Col2" (11, nessuno, 36, nessuno, nessuno, 21, 46, 60), ci sono alcuni valori mancanti. Con l'uso dell'operatore di indicizzazione e la funzione notnull (), questi valori null possono essere filtrati dal frame dati.

La funzione di cui sopra ha eliminato tutte le righe con valori nulli.

Esempio # 06: Filtratura delle righe di dati con l'aiuto dei metodi di stringa

Gli esempi di questo tutorial si sono concentrati principalmente sul filtro numerico. Tuttavia, è possibile utilizzare anche i dati di stringa. Per filtrare i dati ancora più precisamente, è possibile utilizzare alcune funzioni di stringa. Usiamo il frame dati che abbiamo creato nell'esempio n. 5.

È possibile filtrare le righe del frame dati utilizzando la funzione Proprietà STR e contiene () in base a una parte particolare di un valore stringa o del valore della stringa nel suo insieme. Recupera le righe con la stringa specifica "Tiger" nei valori delle colonne "Col3".

Possiamo anche recuperare le righe del frame dati mediante la lettera di avvio dei valori della stringa utilizzando la proprietà STR e StartSwith (). La lettera di avvio della stringa verrà specificata nella funzione startWith (). Recupera le righe in cui i valori della stringa iniziano con la colonna "A" nella lettera "a" Col1 ".

Conclusione

In questo tutorial, abbiamo discusso di come filtrare il frame dati dai valori in Panda. Abbiamo visto che i valori di un frame dati possono essere filtrati utilizzando diverse funzioni. Abbiamo implementato più esempi in questo tutorial per insegnarti come filtrare le righe dei dati di dati con l'aiuto di dati.Metodo LOC [], condizioni logiche o relazionali, operatore di fetta, funzione query (), funzione notnull () e metodi di stringa.