Pandas rimodella

Pandas rimodella
“I dati esistono in una varietà di dimensioni e forme. Spesso richiediamo di rimodellare i dati quando ci occupiamo in modo che siano idealmente assimilati per l'attività corrente. Esamineremo 2 semplici metodi per il rimodellamento di un telaio di dati in questo articolo."

Possiamo utilizzare il "PD.PIVOT () "FUNZIONE Per rimodellare il frame dati dal formato lungo esistente a uno lungo. Un nuovo telaio di dati può essere prodotto utilizzando la funzione pivot da uno esistente. Il "PD.Pivot () "accetta tre argomenti. Per utilizzare questo metodo, dobbiamo utilizzare la seguente sintassi:

Il "PD.Il metodo Melt () ”può essere utilizzato per convertire il telaio da dati da un formato ampio a lungo. Quando è necessario utilizzare una colonna particolare come identificatore, questa funzione potrebbe essere impiegata. La sintassi per l'uso di questo metodo è riportata qui:

L'implementazione pratica di queste due tecniche sarà appresa in questo tutorial con l'aiuto dei programmi Python.

Esempio 1: utilizzo del metodo Pandas Pivot () per rimodellare il frame dati da lungo a ampio

La prima illustrazione implementerà il concetto di utilizzo del pdas "PD.Pivot () "Metodo per rimodellare il telaio di dati da un lungo formato in uno ampio. Vediamo come funziona.

Lo strumento "Spyder" viene lanciato per la compilazione del programma Python utilizzando il suo ambiente. Il codice è iniziato importando la libreria Pandas. Inoltre, abbiamo reso "PD" l'alias per "Panda".

Per costruire un telaio di dati, utilizzeremo il metodo Pandas “PD.DataFrame () ". Questo metodo crea un telaio di dati con valori forniti. Il "PD.Il metodo DataFrame () "è invocato per creare un Frame Data con 3 colonne" Gruppo "," Attività "e" Punteggio ". Le colonne potrebbero conservare valori con diversi dati, ma la lunghezza dei valori rimarrà uguale per tutte le colonne. La prima colonna, "Group", contiene tipi di stringa di valori che sono "X", "X", "X", "Y", "Y", "Y", "Z", "Z" e "Z ". La seconda colonna, "Task", ha valori interi; "4", "5", "6", "4", "5", "6", "4", "5" e "6". Per l'ultima colonna, "Score", abbiamo specificato i valori come "13", "18", "3", "9", "11", "15", "5", "14" e "21".

Il "PD.Il metodo DataFrame () ”genererà un frame dati con questi valori forniti. Per archiviare il contenuto di questo frame dati, abbiamo creato un oggetto DataFrame, "Concorrenza". Questo oggetto resisterà il telaio da utilizzare in seguito. Quindi per vederlo, viene impiegato il metodo di Python, che è "Print ()". Il metodo "Print ()" prenderà l'oggetto dati "competizione" come input e mostrerà il suo contenuto sulla finestra di output.

Per eseguire lo script, dobbiamo solo premere l'opzione "Esegui file" e l'uscita verrà visualizzata. Qui abbiamo un frame dati con 3 colonne che tengono 9 righe. Possiamo vedere che la colonna "Gruppo" ha tre valori univoci, che sono "X", "Y" e "Z". E la colonna "Task" contiene anche tre valori distinti "4", "5" e "6".

Quindi, per rimodellare questo lungo frame di dati a un ampio, impiegheremo la funzione fornita da panda “PD.perno()". Abbiamo invocato il "PD.Pivot () "e hanno superato 4 parametri che sono" df "," indice "," colonne "e" valori ". Il "DF" è il nome del frame dati che abbiamo fornito come "concorrenza". L '"indice" prenderà la colonna, che deve essere utilizzata come colonna indice. Qui abbiamo specificato la colonna "Gruppo" come "indice". L'attributo "colonne" ottiene una colonna i cui dati utilizzerà come etichette della colonna. Abbiamo fornito la colonna "attività" per l'attributo "colonne". Prenderà i valori distinti dal "compito" e li farà colonne. I "valori" estraggono i valori dalla colonna fornita, i.e., la colonna "punteggio" e metterle nelle colonne create corrispondenti all'indice per quei valori. Il risultato verrà presentato chiamando la funzione "Print ()".

Qui possiamo vedere che i valori distinti della colonna "gruppo" sono impostati come colonna indice, i valori univoci dalla colonna "task" sono usati come titoli di colonna e i valori sono prelevati dalla colonna "punteggio". Il telaio di dati è compreso in un ampio formato rompendolo da una lunga disposizione.

Esempio 2: utilizzo del metodo Panda Melt () per rimodellare il telaio di dati da largo a lungo

La tecnica di cui sopra ha rimodellato il telaio di dati da lungo a ampio; Vedremo il suo contrario, che sta trasformando il telaio da dati da un ampio formato a uno lungo. Questa istanza impiegherà il Pandas "PD.Funzione melt () "per rimodellare il nostro frame dati fornito in un formato lungo.

Per implementare questo metodo, inizialmente dobbiamo costruire il frame dati. Poiché i panda ci offrono un metodo integrato “PD.DataFrame () "per generare un dati dati. Quindi, abbiamo invocato questa funzione e avviata con 5 colonne. Le colonne sono "token" con tipo di dati di stringa, "auto", "camion", "bus" e "moto" con tipo di dati interi. I valori per la colonna "token" sono "p01", "p02", "p03" e "p04". Per la colonna "auto", i valori sono "18", "41", "39" e "24". L'elenco dei valori "11", "33", "17" e "25" sono archiviati nella colonna "Truck". Il "bus" ha questi valori "42", "38", "10" e "21". L'ultima colonna, "Motorbike", contiene le voci "16", "34", "21" e "45".

Per preservare il frame dati, abbiamo generato un oggetto DataFrame, "Transport". Per mettere a vista questo contenuto, il metodo "Print ()" viene invocato con l'oggetto dati come input.

Il nostro telaio di dati con un'ampia disposizione di valori è mostrato sulla console Python con 5 colonne e 4 righe.

In questa dimostrazione, eserciteremo il "PD.Metodo Melt () "per ottenere il risultato previsto.

Il "PD.la funzione melt () "è chiamata. Qui l'attributo che possiede è "df_name", che abbiamo fornito come "trasporto", e il "id_vars" prende la colonna, che verrà utilizzata come identificatore attorno al quale scioglieremo il telaio dati. Abbiamo selezionato la colonna "token" per "id_var". Il "valori_var" ottiene colonne che deve non aprire; Se non specifichiamo le colonne, impiegherà tutte le colonne tranne quella set come identificatore. Quindi, le colonne che abbiamo fornito per modificare un'auto "," camion "," bus "e" moto ". Abbiamo creato un "trasporto" variabile e assegnato l'output generato invocando il "PD.Funzione melt () ". Infine, il risultato viene presentato alla visualizzazione utilizzando il metodo "Print ()".

Il telaio di dati trasformato che otteniamo è stato visualizzato rimodellandolo in un formato lungo. Il frame di dati lungo ha 3 colonne "token", "variabile" e "valori". Il "token" viene usato come identificatore per il resto dei valori della colonna. La "variabile" memorizza le etichette della colonna in corrispondenza all'identificatore. e il "valore" ha i valori per ogni voce.

Conclusione

Potrebbe esserci una situazione in cui la forma del telaio potrebbe non adattarsi al tuo compito. Il telaio di dati può essere in formato lungo o in un ampio formato. L'ampio telaio di dati formattato può essere rimodellato in un lungo e il telaio di dati formattato lungo può essere modificato in una disposizione lunga utilizzando i metodi PANDAS. Per convertire il telaio dati in un ampio formato, abbiamo utilizzato il "PD.PIVOT () "Funzione implementandola praticamente sullo strumento Spyder. Allo stesso modo, per rimodellare il telaio di dati a forma di ampia a lungo, abbiamo impiegato il "PD.Funzione melt () "nella 2nd esempio. Entrambi questi metodi sono eseguibili e molto utili ogni volta che trovi la necessità di rimodellare il tuo frame dati.