I panda contano le file con condizione

I panda contano le file con condizione
I panda sono tra gli strumenti di scienza dei dati e di apprendimento automatico più ampiamente adottati per la pulizia e l'elaborazione dei dati. Potrebbe essere necessario acquisire diverse righe presenti nel frame dati utilizzando il Frame dati Pandas per archiviare e analizzare i dati. Per il processo di gestione dei dati, potrebbe essere necessario contare rapidamente le occorrenze delle stesse o diverse voci nell'intero set di dati o in determinati righe che soddisfano una determinata condizione.

Panda ci consente di determinare la forma di un telaio di dati contando il numero di righe e le colonne nel frame dati. È possibile utilizzare una varietà di metodi per comprendere il concetto per contare il numero di righe e colonne nei panda. Questi includono "len ()", "df.Shape [0] "," DF [DF.colonne [0]].count () "," df.count () "e" df.Metodi di dimensione () ". Il più veloce di questi metodi è len (), che vedremo in questo tutorial.

Iniziamo a impararlo implementando praticamente i codici di esempio.

Utilizzo del metodo Pandas len ()

La tecnica che implementeremo in questa illustrazione è il metodo "Len ()". Esploriamo come funziona.

Tutti i codici di esempio che useremo in questo tutorial sono implementati ed eseguiti in Python utilizzando lo strumento "Spyder". La prima attività è installare ed eseguire lo strumento "Spyder" sul computer desktop o laptop. Una volta terminato il processo di installazione, apriamo lo strumento e apriamo un nuovo file che ha un “.Py ”estensione. Qui, "Py" rappresenta "Python". Prima di iniziare a scrivere il nostro codice, dobbiamo aggiungere alcuni prerequisiti. Come il titolo del nostro articolo ci dice brevemente che qualsiasi tecnica che useremo deve essere supportata dalla Biblioteca "Panda".

Pertanto, dobbiamo aggiungere una libreria Pandas scrivendo lo script "Importa panda come PD". Ora abbiamo importato la Biblioteca Pandas e dichiarato che ora è possibile accedere ai panda scrivendo "PD" anziché in forma completa "Panda" durante il programma. Andando avanti, creiamo un telaio di dati Panda in cui esercitiamo la tecnica Panda prescelta. Per la costruzione di un telaio di dati, i panda ci forniscono un metodo molto semplice e utile “PD.DataFrame () "in cui" PD "si riferisce a" Pandas "e" DataFrame "è la parola chiave utilizzata per creare DataFrame.

Abbiamo impiegato questo metodo nel nostro script. Tra le sue parentesi, abbiamo inizializzato tre colonne. Il titolo della nostra prima colonna è "Gruppo" che memorizza otto valori di stringa che sono "X", "X", "X", "X", "Y", "Y", "Y" e "Y". La seconda colonna nel frame dati è "POS" che memorizza anche 8 valori di stringa. Questi valori sono "Au", "Bo", "Bo", "Bo", "Au", "Au" e "BU". L'ultima colonna qui è "punteggi" e contiene otto valori interi, i.e. "19", "23", "18", "15", "15", "12", "21" e "28". Quando generiamo un frame dati, dobbiamo anche creare una variabile o un oggetto di dati per archiviare questo frame dati.

Qui, la variabile che abbiamo creato per detto scopo è "res". Quindi, assegniamo questa funzione all'output generato dall'invocazione del "PD.Metodo DataFrame () ". Ora, per vedere questo frame dati, abbiamo creato sul terminale che abbiamo utilizzato la funzione "print ()" che visualizza l'uscita. Eseguiamo questo script Python:

Per visualizzare l'output sul terminale, fare clic sul pulsante "Esegui file" sullo strumento "Spyder". Ecco il nostro telaio di dati iniziali:

Utilizzo del metodo Len () con una condizione

Ora, dobbiamo contare le righe della colonna specificata nel frame dati che soddisfano la condizione fornita. Applicheremo prima la condizione su una singola colonna per recuperare il numero di righe che corrispondono alla condizione. Quindi, lo applichiamo alle più colonne del frame dati. Per entrambe le tecniche, abbiamo utilizzato il metodo "Len ()" di Panda. La sintassi per questo metodo per applicare le condizioni su una singola colonna è fornita nel seguente:

Secondo la sintassi, abbiamo invocato il metodo "len ()" che conta il numero di righe. All'interno delle sue parentesi graffe, abbiamo specificato una condizione con il nome di DataFrame e il nome della colonna DataFrame. Abbiamo selezionato la colonna "Gruppo" dal nostro Frame Data e specificato una condizione per essa. La condizione dice di verificare se qualsiasi valore della colonna "Gruppo" è uguale a "X". Ogni volta che la condizione è abbinata, il metodo "len ()" conta la riga che la contiene.

Ora, per archiviare questo valore conteggiato delle righe che soddisfacevano la condizione, abbiamo creato un "conteggio" variabile. Abbiamo utilizzato il metodo "Print ()" per mostrare un testo sul terminale prima delle righe conteggiate. Allo scopo di vedere l'output delle righe conteggiate visualizzate, abbiamo nuovamente impiegato la funzione "Print ()" e fornito la variabile "Count" come parametro.

Abbiamo sia il nostro telaio di dati che le righe conteggiate corrispondenti alla condizione visualizzata sul terminale. Possiamo notare che il frame dati ha righe "4" che corrispondono alla condizione. È inoltre possibile verificarlo confrontandolo con il frame dati precedente. La colonna "Gruppo" ha 4 valori "x", quindi viene calcolata con il metodo Panda "Len ()".

Utilizzo del metodo Len () con più condizioni

Abbiamo contato il numero di righe con la condizione per una singola colonna nell'esempio precedente. Ora impareremo come contare le righe per due colonne. La sintassi che segue è:

Spiegando questa sintassi, la funzione "len ()" è chiamata per contare il numero di righe che soddisfano le condizioni. Quindi, abbiamo menzionato il nome del frame dati di cui vogliamo contare le righe. Ora, il nome della prima colonna con la condizione particolare, quindi il nome della seconda colonna del frame dati con la condizione specificata. Tra le due condizioni c'è l'operatore "&". Questo operatore è chiamato operatore "e". Quando si arriva tra due dichiarazioni condizionali, ciò significa che le righe verranno contate solo se entrambe le condizioni sono soddisfatte.

Nella nostra illustrazione, abbiamo selezionato la colonna "Gruppo" e la colonna "POS". Abbiamo applicato le condizioni a entrambe queste colonne. La condizione sulla colonna "Gruppo" controlla i valori in questa particolare colonna che sono uguali a "y". Considerando che la condizione su "POS" controlla i valori uguali a "Bo". L'operatore "&" controlla i valori dall'output di entrambi i valori e verifica la condizione. Quindi, abbiamo bisogno del numero di righe che ha il valore "gruppo" "X" e "POS" uguale a "Bo".

Abbiamo creato un'altra variabile "cal". Quando le condizioni vengono controllate, la funzione "len ()" conta il numero di righe e la memorizza nella variabile "risultato". Infine, abbiamo impiegato due metodi "print ()", uno per visualizzare un testo mentre l'altro per stampare le righe conteggiate dalla funzione "len ()" memorizzata nella variabile "cal".

La seguente immagine di output allegata ci mostra che ci sono solo 3 righe nel frame dati che soddisfano la condizione specificata. Dalla colonna "Gruppo" e "POS", vengono recuperate solo tre righe che hanno "X" "gruppo" e "POS" è "Bo". Dagli qualche secondo da verificare da solo se l'output generato è corretto esaminando il telaio di dati visualizzato nella seguente istantanea:

Hai imparato come applicare le condizioni su due colonne. Ora, applicarli su più colonne non ti metteranno nei guai. Ora applichiamo le condizioni su tutte e tre le colonne nel frame dati e otteniamo solo il conteggio di quelle righe che soddisfano tutte le tre condizioni.

La prima condizione viene applicata sulla colonna "Gruppo" per verificare i valori uguali a "y". Quindi, i valori di "gruppo" che sono "y" e "pos" sono "bo". E l'ultima condizione che include le condizioni complete afferma che il "gruppo" uguale a "y" e il "POS" è "bo" e i "punteggi" sono maggiori di "15". Recupera quei record dal frame dati. Il "len ()" conta le file e le memorizza nella variabile "risultato". Utilizzare il metodo "Print ()" per visualizzare l'output.

L'output ci dice che ci sono 2 righe nel frame dati che soddisfano tutte e tre le condizioni.

Conclusione

Pandas ci fornisce una varietà di caratteristiche molto utili e importanti. Questo tutorial si basa sul metodo fornito da panda. Questa è la funzione "len ()" per contare il numero di righe in un determinato telaio di dati. In questo apprendimento, il nostro obiettivo e l'obiettivo è farti capire come puoi contare il numero di righe che soddisfano una condizione definita. Abbiamo spiegato ogni fase di questa tecnica esplicitamente verbalmente e con l'aiuto di codici di esempio implementati sullo strumento "Spyder". Mettiamo un sincero tentativo di rendere questo pezzo di scrittura il più facile e utile possibile per capire il concetto.