Metodo di correlazione di Pandas

Metodo di correlazione di Pandas
"Pandas" è una libreria Python che utilizziamo per analizzare i dati. È uno strumento rapido, potente, adattabile e intuitivo di analisi e di elaborazione open source. I valori sono mantenuti in un formato di riga e colonna utilizzando un modello di dati bidimensionale noto come "Panda DataFrame".

Ora, i panda possono aiutare nella produzione di una varietà di mappe di analisi dei dati. La correlazione è una tecnica. La correlazione è una statistica molto utile che indica come due set di dati sono correlati tra loro. I Pandas “DataFrame.Il metodo Corr () "può essere utilizzato per trovare la correlazione tra due o ancora più colonne in un telaio di dati. Una correlazione positiva significa che i valori in un gruppo continuano ad aumentare con un aumento nell'altro, mentre una correlazione negativa implica che i valori in un gruppo continuano a diminuire con un aumento nell'altro.

Pandas DataFrame.funzione cor ()

Possiamo usare i panda "DataFrame.funzione corr () "seguendo la sintassi fornita di seguito:


Quando si utilizza il metodo "Corr ()" per calcolare la correlazione di Pearson tra due colonne Panda, produce una singola figura che rappresenta la correlazione di Pearson tra le due colonne. È inoltre possibile utilizzare il metodo esplicitamente su un frame dati per generare una matrice di correlazioni a coppie tra varie colonne.

Esempio 1

In questo esempio, troveremo la correlazione tra tre colonne di un frame di dati. Per l'implementazione pratica di questo metodo in Python, abbiamo usato lo strumento "Spyder". Apri un nuovo file Python nello strumento "Spyder". Il requisito più importante quando si inizia a scrivere lo script è importare librerie pertinenti. Dato che dobbiamo implementare un metodo "panda", quindi abbiamo "Panda import come PD" per accedere alle caratteristiche di "Panda".

Quindi iniziamo il nostro codice Python principale. Abbiamo creato un frame dati utilizzando il "PD.Metodo DataFrame () ". Il frame dati è inizializzato da tre colonne "computer", "chimica" e "matematica". Tutte le colonne di DataFrame archiviano la stessa lunghezza dei valori. La prima colonna, "Computer", ha otto valori interi, che sono "80", "75", "62", "89", "63", "41", "73" e "54". La seconda colonna, "Chimica", memorizza anche otto valori int che sono "87", "67", "53", "54", "66", "82", "58" e "66". L'ultima colonna, "Math", ha valori "93", "75", "65", "47", "83", "78", "83" e "98".

Per visualizzare il nostro Frame dati iniziale, abbiamo utilizzato il metodo "Print ()" con il nome di DataFrame "Data" come parametro nella riga finale dello script.


Per visualizzare l'output sul terminale, utilizzare il pulsante "Esegui file" sullo strumento "Spyder" o premere i tasti "Shift+Enter". L'output visualizzato sul terminale mostra un frame dati con tre colonne create correttamente.


Abbiamo creato il nostro frame di dati fondamentali. Ora, dobbiamo trovare la correlazione tra due colonne del nostro telaio di dati "dati". Per detto scopo, abbiamo usato i panda “DataFrame.funzione corr () ", che calcolerà la correlazione tra le due colonne specificate dal frame dati. Dobbiamo prima fornire il titolo del Frame Data con il primo nome di colonna, quindi il ".funzione corr () "con il nome della seconda colonna tra le sue parentesi.

Qui, abbiamo usato la colonna "computer" e la colonna "matematica" per trovare la correlazione tra loro come "data [" computer "].corr (data ['matematica']) ". Abbiamo creato un "risultato" variabile e gli abbiamo assegnato l'output di chiamare ".corr () "metodo. Quindi la funzione "print ()" viene chiamata per visualizzare la correzione di entrambe le colonne.


Nell'immagine di output, è possibile vedere che la correlazione calcolata tra le colonne "computer" e "matematica" è in una figura negativa che mostra la correlazione tra queste due colonne è negativa o debole.


Allo stesso modo, possiamo controllare la correlazione tra una delle due colonne. Per tua comodità, abbiamo trovato la correlazione tra altre due colonne qui. Questa volta abbiamo scelto la prima colonna "Math" e la seconda colonna "Chimica" e invocato il ".corr () ". Abbiamo archiviato l'output che verrà generato dalla chiamata di questa funzione, i.e., La correlazione di "matematica" e "chimica". Ora possiamo accedere a questo output utilizzando la variabile "risultato". La funzione "Print ()" stampare semplicemente l'uscita.


Il risultato generato da questo script può essere visualizzato nell'immagine seguente. Qui, la correlazione calcolata tra le colonne "matematica" e "chimica" è in un valore positivo, il che significa che la loro correlazione è positiva o forte.

Esempio n. 2

Possiamo anche trovare correlazioni tra tutte le colonne di un frame di dati utilizzando i Pandas “DataFrame.corr () "metodo. In questo esempio, imparerai attraverso la sua pratica implementazione.

Per dimostrazione, abbiamo usato lo strumento "Spyder", che abbiamo già installato nel nostro sistema. Dobbiamo prima importare la libreria essenziale per questo metodo che è panda. Abbiamo usato lo script "Importa panda come PD" per importare panda nel nostro file Python nello strumento "Spyder", che ci consentirà di accedere ai moduli Panda usando il "PD". Abbiamo quindi usato il "PD.Funzione DataFrame () ”per costruire un frame dati. Questo frame dati ha quattro colonne "nome", "punti", "assist" e "tasse".

Ogni colonna memorizza sei valori. La colonna "Nome" ha valori di stringa che sono "A", "B", "C", "X", "Y" e "Z". La colonna "Points" ha sei valori interi che sono "17", "22", "15", "14", "24" e "21". La colonna "Assist" ha sei valori interi "2", "13", "9", "4", "12" e "10". L'ultima colonna, "Tax", ha valori "12", "4", "6", "11", "13" e "20". Abbiamo creato un oggetto DataFrame "Info" e gli abbiamo assegnato l'output di invocare il "PD.Metodo DataFrame () ". Quindi il frame di dati risultante generato dal "PD.DataFrame () "verrà archiviato in" Informazioni ".

Ora possiamo accedere al frame dati utilizzando questo oggetto. Per visualizzare questo frame dati, abbiamo utilizzato il metodo "Print ()" con l'oggetto DataFrame "Info" come parametro.


Nel precedente programma Python, un telaio di dati con quattro colonne verrebbe visualizzato sul terminale. Come puoi vedere nella seguente immagine:


Ora, dobbiamo trovare la correlazione tra tutte le colonne del frame dati utilizzando i Pandas “DataFrame.corr () "metodo. Il nostro obiettivo è calcolare la correlazione tra tutte le colonne, quindi dobbiamo solo scrivere il nome del frame dati, che è "informazioni", con il ".corr () "metodo. Abbiamo creato una "R" variabile per archiviare il risultato, che otterremo chiamando le informazioni ".corr () "metodo. Abbiamo finalmente stampato il contenuto memorizzato nella variabile "R" invocando la funzione "print ()".


Qui, abbiamo ottenuto la nostra correlazione di output tra tutte e tre le colonne numeriche del telaio di dati "Info". Possiamo vedere nell'istantanea di output che esiste una correlazione negativa tra "punti" e "tassa". Gli "assist" e "tasse" condividono anche una correlazione negativa, mentre tutte le altre coppie condividono una correlazione positiva tra loro. Potresti aver osservato che le diagonali hanno il valore "1". Ciò significa che ogni colonna è accoppiata con se stessa.

Conclusione

Abbiamo fatto un'introduzione ai panda "DataFrame.corr () "metodo. Questo metodo è molto importante nel processo di calcolo della relazione tra le diverse colonne. Abbiamo eseguito due esempi pratici sullo strumento "Spyder". Nel primo esempio, abbiamo elaborato e spiegato il concetto di trovare la correlazione tra due colonne del telaio di dati, mentre l'altro esempio si basa sul calcolo della correlazione tra tutte le colonne del frame dati. Assicurati di seguire tutti i passaggi effettuati nel processo pratico di implementazione per comprendere il metodo di correlazione dei panda.