Pandas si fondono per indice

La procedura di combinazione di due set di dati in uno e allineare le righe in base a attributi o colonne condivise è nota come "Panda Merge ()". Utilizzando un'operazione di join in stile database, due oggetti Frame Data vengono combinati utilizzando la funzione PANDAS DataFrame "Merge ()". Una struttura di dati bidimensionali chiamata Frame di dati Pandas è allineata in un formato tabulare. Esistono numerosi modi per integrare questi gesti di dati, tra cui "Join ()" e "Merge ()". Le procedure di join a pieno titolo di Pandas e le prestazioni eccezionali sono paragonabili a quelle di un database relazionale SQL. Le operazioni di join tra gli oggetti di dati di dati possono essere realizzati utilizzando la funzione "unione ()". Su colonne o indici, il giunzione viene eseguito. Gli indici non vengono presi in considerazione quando si uniscono le colonne. Gli oggetti Forte DataFrame non sono toccati e un nuovo frame dati viene restituito da questa funzione.

Sebbene siano usati in situazioni distinte, i panda "join" e "unione" vengono utilizzati per condurre join su Panda DataFrames. Mentre la procedura "Merge ()" è più flessibile e consente di unire i dati di dati sia su indici e colonne, la funzione join () viene generalmente utilizzata per unire i dati di dati sull'indice. Il "left_index" viene utilizzato come chiave di join e "destra _index", che utilizza l'indice dal "frame dati destro", viene utilizzato come un altro tasto di collegamento. La tecnica "join ()" può essere impiegata per unirsi al telaio di dati sinistro in una colonna ma il frame dati giusto richiede che sia allegato al suo indice.

La sintassi per la combinazione di due frame dati per indice utilizzando il metodo Merge ()

Utilizzando questa sintassi, due frame di dati possono essere combinati in base ai loro indici.

La sintassi per l'adesione a due frame dati per indice utilizzando il metodo join ()

Esempio 1: utilizzando il loro indice, la funzione Merge () può essere utilizzata per unire due frame dati.

Panda è un modulo per l'elaborazione dei dati. I dati tabulari possono essere archiviati in Python utilizzando un telaio di dati. È possibile archiviare e lavorare rapidamente con dati tabulari, come righe e colonne, utilizzando DataFrame. I panda offrono una varietà di strutture per combinare serie o dati di dati con vari tipi di ragionamento fisso per gli indici e le capacità di matematica strutturale in caso di operazioni di join o di unione.

In questo esempio, utilizzeremo la funzione "Merge ()" per unire due frame dati abbinando i loro valori indicizzati. In questo esempio, vengono creati due frame di dati. Il primo dati di dati ha due colonne ed è denominato "data1". "Age" e "Names" sono le colonne di "Data1". Abbiamo un elenco di valori in ogni colonna. I valori per "Age" abbiamo "28", "37", "29" e "32" e per la colonna "Nome" We have "George", "James", "Arthur" e "Henry". In questo frame dati, la dimensione dell'indice è "4". L'indice "ID" è "1", "2", "3" e "4". Le informazioni sull'indice del Frame Data vengono restituite tramite la proprietà dell'indice. Le etichette per le righe sono contenute nelle informazioni sull'indice. La proprietà indice produce un oggetto indice di intervallo con i valori di avvio, fine e fase se le righe non hanno indici nominati.

Successivamente, creiamo un altro frame dati "data2". Ha due colonne "id" e "professione". In queste due colonne, abbiamo un elenco di valori. Nella colonna "Id" abbiamo "1", "2", "3" e "4" . La colonna "Profession" ha "Doctor" e "Insegnante" e "Ingegnere". Quindi, menzioniamo l'indice qui che è "1", "2", "3", "6" e "7".

Ora utilizziamo la funzione "Merge ()" per unire i due frame di dati, "data1" e "data2". Vengono utilizzati due parametri della funzione di unione: “Left_Index = true” e “Right_Index = true. Alcune righe e colonne di dati devono essere scelte da un frame dati. Come chiave combinata, l '"indice sinistro" viene utilizzato dal telaio dati sinistro e da altri tasti di connessione. Il "destro _index" utilizza l'indice dal frame dati giusto.

L'indicizzazione è il processo di scelta di tutte le righe e alcune colonne, alcune righe e tutte le colonne, o un pezzo di ogni riga e ogni colonna. Un altro nome per l'indicizzazione è la selezione del sottoinsieme. "Merge ()" è la funzione necessaria quando si desidera unire elementi di dati in base a una o più chiavi, proprio come faresti in un database relazionale. La fusione delle righe, in particolare con dati simili, è meglio realizzare con la funzione "unione ()". Ora, concatenerà i due frame dati abbinando il loro indirizzo indice e visualizzerà sullo schermo utilizzando la funzione "print ()".

Un frame di dati è mostrato nell'immagine di output in questo esempio. Quindi, quando la funzione di unione si unisce ai due frame di dati, possiamo vedere che sono stati visualizzati solo i valori i cui indirizzi di indice abbinati. Non è stato possibile mostrare le ultime due righe del secondo frame dati e la quarta riga del primo frame dati perché i loro indirizzi indici non corrispondono. La dimensione del frame di dati che abbiamo ora è tre dopo aver usato unione sull'indice.

Esempio 2: per combinare due telai dati a seconda dei loro indici, utilizzare la funzione join ().

Esistono situazioni quando la fonda due frame di dati produce un frame dati con un modello di indice che non soddisfa i nostri requisiti. Vogliamo modificare l'indice che risulta dall'imposta. Quando si uniscono i gesti di dati, ripristineremo l'indice per questo motivo. La minima quantità di controllo è possibile con questa funzione basata su una colonna o un indice condiviso, le righe delle due tabelle verranno unite.

Per il nostro secondo esempio, che è simile al primo, questo programma ha due frame di dati "DF1" e "DF2". Abbiamo due colonne "nomi" e "marchi" nel primo frame dati. I valori che abbiamo nella prima colonna sono "Emma", "Watson", "Jhon", "Lilly", "Edward", "Noah", "Smith" ed "Enna" e i valori nella colonna "Marks" sono "25", "20", "14", "16", "27", "20", "12" e "15". In seguito, avevamo un elenco di indici "A", "B", "C", "D", "E", "F", "G" e "H". Allo stesso modo, ci sono due colonne nel secondo frame dati "soggetto" e "osservazioni". Nella colonna "Oggetto" abbiamo un elenco di soggetti che includono "OOP", "PF", "Python", "Java", "Php" e "Calcolo" e abbiamo un elenco di commenti nella colonna "Osservazioni" che sono o "pass" o "falliscono". L'elenco dell'indice per il secondo frame dati è "A" "C", "D", "G", "M" e "N".

Quindi, in base agli indici dei due frame dati, li uniamo utilizzando la tecnica "join ()". La strategia di join funziona meglio quando si collega i gesti di dati sui loro indici, anche se possiamo scegliere un'altra colonna per far parte del telaio di dati sinistro. Oltre a permetterci di fornire colonne diverse dall'indice su cui partecipare a entrambi i gesti di dati, la tecnica di unione è più flessibile. Usterà DF1 e DF2 dopo aver abbinato l'indice di DF2 con l'indice di DF1 mostra il "NAN" su quella riga di DF2 per coloro i cui indici non corrispondono.

Si possono vedere tre frame di dati nell'immagine risultante. I primi due frame dati "df1" e "df2" sono quelli che abbiamo creato. Possiamo vedere che il terzo frame dati utilizza la funzione "join ()" per combinare i frame dati superiore e inferiore in base ai loro indici. Coloro il cui indice non corrispondeva furono mostrati "nan" lì.

Conclusione

Il frame dati viene combinato utilizzando la tecnica PANDAS “Merge ()”. Le colonne di entrambi i frame dati sono combinate durante il processo di giunzione noto come fusione. Unendo gli indici o una combinazione dei due è anche supportata dalla fusione. Questo articolo ha coperto il funzionamento delle funzioni "JOININS ()" e "Merge ()" nella Biblioteca Pandas Python. È possibile unirsi facilmente a due frame dati utilizzando le loro posizioni indici utilizzando i metodi sopra menzionati e hai anche imparato a implementare le procedure di join.

Pitone

Python non tutti gli argomenti convertiti durante la formattazione della stringa

Questo errore può essere risolto correggendo la sintassi dell'operatore %, utilizzando la funzione f...

Dr. Ursula Marini

Pitone

Python Chmod

Il sistema operativo.La funzione chmod () del modulo OS viene utilizzata per modificare la proprietà...

Dr. Evita Damico

Docker

Qual è la differenza tra Docker e Podman?

Docker utilizza un'architettura client-server mentre Podman è un motore a container demone meno. Pod...

Dr. Evita Damico