Pandas concatena due telai di dati

Pandas concatena due telai di dati
Le informazioni di cui abbiamo bisogno appaiono spesso in numerose fonti in scenari del mondo reale. Per valutare le statistiche, richiediamo spesso l'integrazione di più file in un frame di dati uniforme. Con l'aiuto di Panda, è possibile combinare rapidamente la serie e il frame dati con i diversi tipi di logica predefinita per gli indici più funzionalità di algebra relazionale per le funzioni di tipo e unione. Inoltre, i panda dispongono di strumenti che consentono di confrontare due serie o frame di dati ed elencare eventuali variazioni. Potresti richiedere la combinazione dei dati utilizzando una varietà di approcci. Ad esempio, è possibile concatenare i set di dati per unire. La concatenazione dei set di dati può essere eseguita in vari metodi.

Le azioni di concatenazione attraverso l'asse sono gestite con il metodo Concat () e viene eseguita anche la logica di impostazione aggiuntiva per gli indici sui piani adiacenti. Dobbiamo prendere in considerazione alcune selezioni durante la concateniamo o l'avvio dei gesti di dati. Tali scelte potrebbero coinvolgere cose come se vogliamo mantenere gli indici originali, aggiungere chiavi più benefiche e altro ancora.

L'utilizzo del metodo di concatenato Pandas richiede la seguente sintassi:

Abbiamo un carico di numerose impostazioni a nostra disposizione con questo metodo per personalizzare ulteriormente la concatenazione dei dati. Non dovrai necessariamente comprendere del tutto ciascuno di questi per navigare. Tuttavia, è importante essere consapevoli della loro esistenza e di tutto ciò che eseguono se il tuo caso d'uso li richiede.

Esempio 1: concatenare colonne simili di due frame di dati utilizzando la funzione concatenata di panda

L'esempio più semplice e più semplice per cominciare è concatenare le stesse colonne dei due diversi frame di dati.

Come sappiamo, lavorare con il modulo Pandas di Python richiede l'importazione della Biblioteca Pandas. Quindi, iniziamo la nostra pratica implementazione dei codici di esempio importando la libreria Pandas in Python come PD.

Una volta fatto, ora siamo pronti per iniziare a lavorare sul nostro script principale poiché le funzionalità Panda sono attualmente accessibili a noi.

Creiamo quindi i nostri frame di dati di base. Abbiamo bisogno di due telai di dati qui perché dobbiamo eseguire la concatenazione.

Le variabili "D1" e "D2" sono state generate e sono mostrate nell'esempio dato. Abbiamo utilizzato la funzione Panda DataFrame per costruire i dati dei dati. Il PD.Il metodo DataFrame () viene invocato. All'interno delle sue parentesi graffe, gli abbiamo dato 2 valori - id e nome. Vengono assegnati i valori per entrambe le colonne dei frame dati. Abbiamo utilizzato il metodo Print () per visualizzare sia i dati di dati D1 che D2.

La seguente immagine di output mostra 2 frame dati con le stesse colonne:

Abbiamo creato correttamente i nostri frame dati. Il prossimo passo è concatenarli. A tale scopo, impieghiamo il metodo di concatenate Pandas - PD.Concate (). Questo metodo unisce i dati delle stesse colonne di entrambi i frame dati D1 e D2.

Abbiamo costruito una variabile "con_output" che memorizza il risultato di invocare il PD.funzione Concat (). Hai solo bisogno di fornire il PD.Concat () funzione con gli oggetti che si desidera concaterare in modo che l'elenco delle variabili possa essere semplicemente passato. Considerando questo, possiamo entrare nel [D1, D2]. Assicurati che se stai inserendo direttamente l'elenco all'interno del PD.funzione concica (), devi usare le staffe "[]". Altrimenti, fornisce un prompt degli errori. We Hen Invochy il metodo Print () e Passe It la variabile "Con_output" per visualizzare tutto ciò che abbiamo archiviato in esso.

I frame dati concatenati contenenti le colonne simili sono ottenuti eseguendo il programma di cui sopra.

I dati dei dati vengono uniti come lo erano poiché non abbiamo inserito alcun parametro. A causa di questi fattori, sono incluse le impostazioni degli indici effettivi. L'indice può occasionalmente richiedere un aggiustamento. Ignore Index = True Parameter può essere utilizzato per farlo.

Come risultato, gli indici vengono modificati a partire da 0 andando fino all'endpoint della dimensione. I valori dell'indice modificato sono mostrati nella seguente istantanea:

Esempio 2: concatenare diverse colonne di due frame di dati utilizzando la funzione Pandas concatena con parametro

Aggiungiamo i nostri telai di dati l'uno all'altro, in verticale, per concatenarli. Utilizzare le colonne da ciascun set di dati che hanno valori simili come un ID univoco condiviso è un ulteriore metodo per combinare i frame dati. "Unioning" è il processo di unire i gesti di dati utilizzando un campo condiviso. Il "Key (s)" si riferisce alle colonne che includono i dati condivisi. Questo metodo di combinazione dei gesti di dati è spesso vantaggioso in cui un frame dati funge da "tabella di ricerca" per il contenuto supplementare che intendiamo integrare nella seconda tabella. Identico a come colleghiamo le tabelle in un database relazionale, questo metodo si unisce a molti set di dati insieme.

Possiedi flessibilità in modi per trattare gli assi aggiuntivi ogni volta che legiamo del tutto numerosi frame di dati, escludendo quello che viene combinato.

Ci sono due approcci per raggiungere questo obiettivo. Il primo approccio è entrare in join = "esterno" per ottenere la combinazione di tutti questi. L'impostazione detta è l'impostazione predefinita perché nessun dato è compromesso. L'altra strategia è quella di tenere conto dell'incrocio con il join = "interno".

Consideriamo la seguente illustrazione:

Qui, abbiamo creato due frame dati con colonne diverse. Il primo frame dati "D1" è composto da 2 colonne - ID e nome. Mentre il secondo frame dati "D3" ha 2 colonne: città ed età. Abbiamo creato un "risultato" variabile per archiviare l'output di chiamare il PD.funzione Concat ().

Tra le parentesi della funzione di concatenata Pandas, abbiamo specificato il nome dei dati di dati come D1 e D3. La riga finale dello script chiama il metodo Print ().

Questo ci produce il seguente output:

I due frame dati nell'istanza precedentemente menzionati vengono uniti. Tuttavia, poiché alcune colonne erano assenti da entrambi i gesti di dati, sono state fornite utilizzando le voci vuote. Queste voci sono inserite poiché il valore predefinito dell'argomento "join =" è "esterno", il che spiega la loro inclusione. Di conseguenza, tutti i dati tra le entità vengono mantenuti.

"Inner" è un argomento praticabile diverso per il metodo.

In questo caso abbiamo utilizzato gli argomenti "join" e "axis". Per l'argomento "join", mettiamo il valore "interno" mentre, per l'argomento "asse", è impostato su "1". L '"asse" è l'asse lungo il quale concateniamo i nostri telai di dati. È impostato su 0 per impostazione predefinita. Le colonne aggiuntive vengono introdotte se è necessario aumentare il numero di oggetti attraverso l'asse = 1. Il PD.Concat () esegue un join esterno attraverso le righe per impostazione predefinita. Ora, abbiamo modificato i valori predefiniti in modo che esegui il punto interno di colonna sui frame dati per la concatenazione.

L'output che otteniamo dal codice precedentemente eseguito è mostrato nel seguente:

Conclusione

Questa discussione si è concentrata sulla funzione di concatenato di panda. Abbiamo fornito un'introduzione dettagliata alla funzione di concatenata di Pandas e la necessità di utilizzare questo metodo. La sintassi per l'utilizzo di questa tecnica viene fornita all'inizio e vengono identificati tutti i parametri che è possibile utilizzare all'interno di questa funzione. Abbiamo elaborato la concatenazione dei due telai di dati con una dimostrazione pratica dei codici di esempio. La combinazione delle stesse colonne dei diversi temi di dati e combinare il frame dati con colonne diverse è spiegata in questa scrittura. Imparare a lavorare con i panda.La funzione Concat () ti consente di gestire e analizzare i dati.