Covarianza di Pandas

Covarianza di Pandas
Il metodo Pandas cov () calcola la covarianza accoppiata tra la serie di un frame dati. Il frame dati restituito è la matrice di covarianza delle colonne del frame dati. Il calcolo esclude automaticamente le voci NA e NULL. Questa tecnica è comunemente usata per valutare i dati delle serie temporali per determinare l'associazione tra varie misurazioni nel tempo.

La sintassi per questo metodo è la seguente:

Qui, i "periodi min" determinano il minor numero di occorrenze necessarie per ogni coppia di colonne per fornire un risultato valido.

Imparerai e comprenderai questo metodo attraverso la dimostrazione pratica dei codici in questo articolo.

Esempio 1

Questa illustrazione riguarda la ricerca della covarianza tra le colonne di un telaio di dati. Iniziamo a imparare la sua pratica implementazione.

Il primo e più necessario attività è trovare uno strumento compatibile con la macchina e supporta il linguaggio Python. Per le nostre esigenze, lo strumento "Spyder" si trova il più appropriato. Quindi, dobbiamo scaricare, installare e infine avviare lo strumento. Una volta visualizzata l'interfaccia, apriamo un nuovo file facendo clic sul pulsante "File" e scegliendo l'opzione "Nuovo file". Un nuovo file con il ".L'estensione Py ”è aperta. IL ".PY "si riferisce al file" Python ".

Ora inizia a scrivere il codice Python. Prima di iniziare con il nostro codice principale, dobbiamo ottenere alcune librerie necessarie su questo file Python. Per l'argomento attuale, non abbiamo bisogno di molte biblioteche ma solo un singolo pacchetto che è "Panda". Quindi, scriviamo il codice "Importa panda come PD" che importa tutte le caratteristiche dei panda nel nostro file Python. Possiamo accedervi usando il "PD" anziché "Panda" in tutta la sceneggiatura.

Dato che dobbiamo calcolare la covarianza tra le colonne di un telaio di dati, dobbiamo avere un telaio di dati Panda in cui esercitiamo questo metodo. Per costruire un telaio di dati, Panda ci fornisce un "PD.Funzione DataFrame () ". Come già sappiamo che "PD" è il "panda", accediamo al metodo Panda. Il "DataFrame ()" è la parola chiave di questa funzione che, se invocata, crea un Frame Data. Generiamo un telaio di dati utilizzando questo "PD.Metodo DataFrame () "e inizializzarlo con tre colonne:" Alpha "," Beta "e" Gamma ".

La nostra prima colonna "Alpha" memorizza sei valori che sono "3", "4", "1", "10", "5" e "7". La seconda colonna "Beta" contiene sei valori che sono "12", "2", "8", "13", "4" e "5". La terza e l'ultima colonna "Gamma" hanno i valori "4", "6", "12", "9", "3" e "10". Tutte queste colonne memorizzano il tipo di valori interi e hanno la stessa lunghezza che è 6.

Ora, per archiviare questo frame dati, creiamo un oggetto DataFrame o una variabile "Grado". Questa variabile "Grade" assegna l'output generato dal chiamare il Pandas "PD.Metodo DataFrame () ". Quindi, quando chiamiamo il "PD.Metodo DataFrame () ", viene creato e archiviato un frame Data Pandas in" Grado ". Possiamo accedere al frame dati con questo oggetto. Abbiamo generato il frame dati e archiviato. Ora, che ne dici di mostrarlo? Per visualizzare il telaio dati sul terminale, abbiamo un metodo "print ()" molto semplice e utile ". Questo metodo prende la variabile, la funzione o l'istruzione come parametro e lo visualizza semplicemente sul terminale. Lo scriviamo come "Print (Grade)" e visualizzerà il frame dati.

Quando facciamo clic sul pulsante "Esegui file" sullo strumento "Spyder" o premi i tasti "Shift+Enter", sul terminale viene visualizzato un frame dati con tre colonne e sei righe.

Ora, dobbiamo eseguire il nostro compito principale in cui abbiamo creato questo frame dati che calcola la covarianza. Per calcolare la covarianza tra tutte le colonne di questo telaio di dati, abbiamo un metodo fornito da panda "cov ()". Per utilizzare questo metodo, abbiamo chiamato ".Metodo cov () "con il nome di dati" Grado.cov () ". Questo calcola la covarianza sul telaio di dati fornito. Quindi, mettiamo questo metodo tra le parentesi del metodo "Print ()" per visualizzare il frame dati con covarianza calcolata su tutte le sue colonne. Altrimenti, è possibile creare una variabile e archiviare la covarianza calcolata in essa e visualizzarla usando il metodo "print ()".

L'esecuzione dello script ha spiegato in precedenza una matrice con covarianza calcolata tra tutte le colonne del "grado". Puoi vedere che tutti i valori di covarianza sono positivi.

Esempio 2

Ora vedremo cosa succede quando abbiamo alcuni valori "nan" (non un numero) nel nostro frame dati e dobbiamo calcolare la covarianza su quel telaio dati. Quando il frame dati ha dei valori "nan", la funzione "cov ()" ignora questi valori "nan" e calcola la covarianza tra il resto dei valori.

A tale scopo, abbiamo utilizzato il telaio dati precedentemente creato e modificato in base ai nostri requisiti. Abbiamo modificato un valore da ciascuna colonna del frame dati in un valore "nessuno". Il secondo valore della colonna "Alpha" viene modificato in "Nessuno", il secondo valore della colonna "beta" viene modificato in "nessuno" e anche il quinto valore della colonna "gamma" viene modificato in "nessuno". Quindi, abbiamo semplicemente visualizzato il frame dati modificato con la funzione "print ()".

Questo è l'aspetto del nostro telaio dati aggiornato con i valori NAN.

Calcoliamo la sua covarianza ora. Abbiamo semplicemente invocato la funzione "cov ()" con il nome del frame dati e abbiamo superato questa funzione come parametro al metodo "print ()" per visualizzare la covarianza calcolata con i valori "nan".

Quando eseguiamo lo script precedentemente menzionato, ci viene visualizzato la covarianza calcolata per tutte le colonne nel frame dati in cui, dopo aver ignorato i valori "nan", la covarianza tra quelle colonne con valori "nan" è negativa.

Esempio 3

Hai imparato come calcolare la covarianza tra tutte le colonne del frame dati con o senza alcun valori "nan". Qui, ti faremo familiarità con un'altra tecnica di utilizzo della funzione "cov ()". Questa tecnica sta calcolando la covarianza tra due serie Pandas. Utilizziamo il frame dati che abbiamo creato nella prima illustrazione di questa guida. Da questo frame dati, creiamo due serie Pandas.

Per creare una serie, impieghiamo il "PD.Serie () "funzione". Tra le sue parentesi graffe, è possibile definire manualmente i valori ma, nella nostra illustrazione, creiamo le serie dal "grado" di dati precedentemente creato. Quindi, forniamo al nome della colonna il nome di dati tra il "PD.Serie () "funzione come" PD.Serie (grado ['alpha']) ". Quindi, archiviamo questa serie in una variabile "V1". Creiamo un'altra serie con gli stessi passaggi utilizzando la colonna di dati "Grade" "Gamma" questa volta come "PD.Serie (grado ['gamma']) ”e memorizzalo in variabile“ V2 ”.

Utilizziamo il metodo "Print ()" per stampare entrambe le serie "V1" e "V2". Nell'ultimo passaggio, calcoliamo la covarianza invocando il metodo "Cov ()". Scrivi il titolo della prima serie con ".funzione cov () "e quindi la seconda serie all'interno delle sue parentesi.Cov (V2) ". Passa questo come parametro al metodo "Print ()" per visualizzarlo.

Questo ci produce il seguente output con la covarianza calcolata tra le due serie Pandas.

Conclusione

Il calcolo della covarianza tra tutte le colonne del frame dati o tra le due serie create dal telaio di dati può essere eseguita con una funzione panda semplice ed efficace - "cov ()". Questo articolo ti ha fornito l'implementazione pratica dei codici Python eseguiti sullo strumento "Spyder". La prima illustrazione è stata spiegata per stimare la covarianza tra le colonne di Panda DataFrame. Il secondo esempio si basava sull'apprendimento del calcolo della covaria con i valori "nan". E l'ultimo esempio si è concentrato sulla ricerca della covarianza tra due serie Pandas. Abbiamo elaborato ogni minore ai dettagli importanti in questo articolo per rendere l'apprendimento divertente per te.