Pandas Regex

Pandas Regex

Possiamo creare una serie o un telaio di dati in "panda" e svolgere molte altre attività utilizzando le funzioni o i metodi di "Panda". Come sappiamo, archiviamo molti dati in telai e serie "Panda". Possiamo anche cercare i modelli nei panda utilizzando il regex. Per identificare il modello in una stringa all'interno di una serie o di dati, sono disponibili molte funzioni di "panda" che il regex accetta. Possiamo facilmente estrarre, filtrare o pulire i dati applicando vari metodi che il regex ci consente. Utilizzeremo i diversi metodi di "panda" che il regex ci consente di utilizzare nel codice "panda" e spiegheremo in dettaglio il "regex" in "panda" in questo articolo.

Esempio 1:

Ora eseguiamo i codici "panda" nello strumento "Spyder". Importiamo la libreria "Panda" qui come "PD" poiché stiamo lavorando con la libreria "Panda". Quindi, sviluppiamo "Update_DF" qui che è il frame dati. Il metodo "Pandas" "DataFrame ()" aiuta nella creazione di DataFrame. Quindi, posizioniamo il "dict" e aggiungiamo i nomi nel "nome" che sono "Zane, Santiago, Silas, Roman, Milo, Samuel e Hayes". Dopo questo, abbiamo i "Guardiani" in cui posizioniamo "Leif, Jasper, Julian, Laken, Jude, Ezra e Briar". I "segni" arrivano dopo che contiene "89, 23, 33, 99, 56, 90 e 66". Quindi, i "soggetti" contengono "biologia, zoologia, chimica, etica, botanica, GK e silvicoltura".

Ridiamo anche il metodo "update_df" usando il metodo "print ()". Innanzitutto, visualizziamo questo frame dati e poi andiamo avanti.

Se stai lavorando all'app "Spyder", devi premere i tasti "Shift+Enter" o l'icona "Esegui" di questa app. Dopo averlo fatto, l'output è mostrato sul terminale. Qui, otteniamo solo il telaio di dati che abbiamo generato in precedenza. Il frame dati è anche mostrato nel seguente che appare sul terminale dopo l'esecuzione dei codici.

Ora usiamo il "STR.Match () "Metodo qui. Questo "str.Il metodo Match () "aiuta a filtrare le righe nel frame dati" panda ". In primo luogo posizioniamo la variabile "regex1" e regoliamo la "s.*" Là. Dopo questo, utilizziamo il "STR.incontro()". Per questo, aggiungiamo prima il nome del Frame Data e poi mettiamo la fascia quadrata. All'interno di questa fascia quadrata, posizioniamo il nome del frame dati "aggiornato_df" insieme al nome della colonna "nome". Quindi, abbiamo messo il "STR.match () "in cui aggiungiamo il nome variabile che abbiamo precedentemente inizializzato.

Ora, controlla tutti i valori presenti nella colonna "Nome" e filtra quelle righe in cui il nome inizia da "S". Dopo questo, inizializziamo la variabile "regex2". Questa volta, lo inizializziamo con "j.*". Usiamo questa variabile nel "STR.funzione match () "per estrarre le righe. Applichiamo il "STR.Metodo Match () "sulla colonna" Guardians "e estrae quelle file in cui i nomi dei Guardian iniziano con" J ". Aggiungiamo entrambi i metodi nella "stampa", quindi entrambi i risultati vengono visualizzati sul terminale.

La colonna "Nome" in cui il nome inizia con "S" viene estratta dal frame dati e viene visualizzata. Dopo questo, quelle righe vengono filtrate dove i nomi dei Guardian iniziano con "J" e sono anche resi nel risultato. Filtriamo queste file utilizzando il "STR.match () "metodo.

Esempio 2:

Creiamo qui "Frequency_df". Questo "frequenza_df" contiene "dimensioni, fre_1, fre_2, fre_3, fre_4 e fre_5". Nella "dimensione", aggiungiamo "FF_1, FF_2, FF_3, FF_4, FF_5, FF_6 e FF_7". Quindi, nel "FRE_1", abbiamo messo "$ 21, $ 22, $ 23, $ 24, $ 25, $ 26 e $ 27". Ora abbiamo "FRE_2", in cui inseriamo "$ 31, $ 32, $ 33, $ 34, $ 35, $ ​​36 e $ 37". Aggiungiamo anche "$ 21, $ 42, $ 43, $ 44, $ 45, $ 46 e $ 47" nel "FRE_3". Ora abbiamo "FRE_4" e posizioniamo "$ 51, $ 52, $ 23, $ 54, $ 55, $ 56 e $ 57". Dopo questo, abbiamo messo "$ 21, $ 81, $ 82, $ 83, $ 84, $ 85 e $ 86" nel "FRE_5".

Ora aggiungiamo la "print ()" in cui posizioniamo "Frequency_df". Utilizziamo qui il metodo "Sostituisci ()" per sostituire i dati del frame dati. In primo luogo posizioniamo la variabile "Frequency_df1" che memorizza i dati che otteniamo dopo aver applicato il metodo "Sostituisci ()" perché utilizziamo questa variabile "Frequency_df1" qui e inizializziamo con il metodo "Sostituisci ()". Citiamo il "Frequency_df" che è il nome del frame dati e quindi posizioniamo il metodo "Sostituisci ()" con il nome di questo frame dati. Aggiungiamo il parametro "ff_" nel parametro "to_replace" di questa funzione. Regoggiamo il valore che è "fre_" nel secondo parametro che è il parametro "valore".

Quindi, aggiungiamo il "regex" in questo metodo che è il terzo parametro. Regoggiamo il "vero". Ora passiamo "Frequency_df1" a "Print ()". I dati che otteniamo dopo la sostituzione vengono visualizzati sul terminale.

Questo risultato mostra il primo frame dati con il valore "ff_" presente nella colonna "size". Tutti i valori "FF_" di questo frame dati vengono sostituiti con "FRE_". Viene anche mostrato nel secondo frame dati che è il telaio di dati aggiornato che otteniamo dopo aver applicato la funzione "Sostituisci ()".

Esempio 3:

Ora creiamo una serie in questo esempio usando il "PD.Serie () "e aggiungere il" Francia, Colombia, Canada, Cina, Porto Rico, Canada e Los Angeles ". Salviamo questa serie nella variabile "My_Series" e aggiungiamo questa variabile in "Print ()". Ora applichiamo il "STR.Findall () "Metodo di questa serie per trovare ed estrarre la stringa dalla serie. Posizioniamo "Itm [0]". Quindi, usiamo il "per" e poi scriviamo "ITM" dopo il "per". Quindi, posiziona la parola chiave "in" e il nome della serie insieme a "STR.Metodo findAll () ". Funziona come loop e controlla tutti i valori della serie.

Nel "str.Metodo findAll () ", posizioniamo il" CC "che controlla i dati della serie e restituisce quei valore che inizia con la lettera" C "o" C ". Inizializziamo la variabile "dati" con questo "STR.Metodo findAll () ". I valori che otteniamo dopo aver applicato il "STR.findall () "su" My_Series "viene salvato nella variabile" Data ". Quindi, abbiamo utilizzato la "print ()" in cui vengono aggiunti i "dati" variabili. I valori che otteniamo dopo aver utilizzato il "STR.Findall () ”della serie viene visualizzata.

La serie completa viene visualizzata qui. I valori della serie che iniziano con il carattere "C" o "C" vengono estratti da questa serie e visualizzati nel seguente:

Esempio 4:

Importiamo i "panda" e il "re" in questo esempio. Dopo aver importato entrambi, generiamo un frame dati con il nome "data_dataframe". In questo frame dati, le colonne che abbiamo aggiunto sono "column_1, column_2, column_3 e column_4". La "colonna_1" contiene "15, 11, 19, 10, 18, 19, 20, 21". La "colonna_2" contiene "A, B C, D, E, F, G e H". Quindi abbiamo la "colonna_3" e aggiungiamo anche i dati che sono "A, B, C, D, E, F, G e H". L'ultima colonna, la "colonna_4" contiene "ABC (capitale), ABB, AAA (capitale), YHN, ABC, PLM (capitale), Qaz e YGV (capitale)".

Quindi, rendiamo questo "data_dataframe". Ora posizioniamo la parola chiave "def" e definiamo la funzione "pulite_names ()" in cui aggiungiamo "column_4". Quindi, utilizziamo il "if" sotto in cui utilizziamo il metodo "Search ()" di "Re" e mettiamo "(((.*"Come primo parametro e" column_4 "come secondo parametro. Cerca la "(" staffa nei dati "column_4".

Dopo questo, posizioniamo la "nuova" variabile e la inizializziamo con lo stesso metodo che è il "re.Search () "Metodo e passare gli stessi parametri. Aggiungiamo anche "start ()" con questo metodo. Quindi, abbiamo la parola chiave "return" in cui otteniamo i valori che sono archiviati nella variabile "nuova" e la restituiamo qui. Inoltre, aggiungiamo il "altro". Successivamente, aggiungiamo una nuova "colonna_4" e aggiungiamo la funzione "Clean_names" con questa "colonna_4". Rimuove tutti i nomi presenti nella "(" staffa in "column_4". Quindi, usiamo di nuovo la "stampa".

Nel primo frame dati, la colonna_4 contiene i nomi presenti nella staffa. Nel seguente frame dati, questi nomi che vengono aggiunti tra parentesi vengono rimossi e vengono visualizzati solo i valori di "colonna_4":

Conclusione

Abbiamo scritto questo articolo per spiegare in dettaglio il concetto di "panda regex". Abbiamo discusso che il "regex" ci consente di utilizzare molte funzioni per filtrare i dati dal telaio di dati o serie in "panda". Abbiamo applicato il "STR.Metodi Match () e "Sostituisci ()" sui dati di dati "Pandas". Abbiamo anche applicato il "STR.Findall () "Metodo sulla serie nei nostri codici. Abbiamo importato il pacchetto "RE" nell'ultimo esempio e utilizzato il suo metodo che è il "re.Metodo Search () "per cercare i dati in questo tutorial.