Mappa dei cluster di Seaborn

Mappa dei cluster di Seaborn

Seaborn è un notevole modulo di visualizzazione per Python che ti consente di tracciare gli elementi visivi statistici. Si basa sul software MatplotLib ed è strettamente connesso alle strutture di dati di Pandas. In un apprendimento non supervisionato, le tecniche di clustering aiutano nell'acquisizione di dati strutturati. In questo articolo, vedremo cos'è una mappa dei cluster e come costruirlo e usarla per una varietà di scopi.

Sintassi della mappa dei cluster in Seaborn

Abbiamo una semplice sintassi per la mappa dei cluster di Seaborn qui:

1
Seaborn.clustermap (data ,, standard_scale = nessuno, figsize = (6, 8), ** kwargs)

Di seguito, abbiamo spiegato il parametro passato all'interno della funzione del cluster Seaborn insieme ad alcuni parametri opzionali.

dati: Per il clustering, vengono utilizzati dati rettangolari. NAS non è permesso.

pivot_kws: Se i dati sono in un frame dati ordinato, è possibile utilizzare i parametri della parola chiave per creare un telaio rettangolare con un perno.

metodo: Per calcolare i cluster, applicare l'approccio di collegamento. Per ulteriori dettagli, consultare la documentazione per Scipy.grappolo.gerarchia.Linkage ().

metrica: I dati devono essere misurati in termini di distanza. Altri parametri possono essere trovati nel Scipy.spaziale.distanza.Documentazione Pdist (). Puoi creare ogni matrice di collegamento manualmente e fornirla come una riga. Il collegamento Col utilizza le metriche (o metodologie) per righe e colonne.

Z_SCORE: Se i punteggi z debbano essere calcolati per le colonne o le righe. I punteggi Z sono calcolati come z = (x - media)/std, il che significa che i valori di ogni riga (colonna) verranno detratti dalla media della riga (colonna), quindi divisa dalla deviazione standard della riga (colonna). Ciò garantisce una media di 0 e una variazione di 1 per ogni riga (colonna).

Standard_scale: Se normalizzare o meno tale dimensione, significa sottrarre il minimo e dividere ogni riga o colonna per il suo massimo.

figsi: La dimensione complessiva della figura che include la larghezza e l'altezza.

riga, col _cluster: Se vero, le righe e le colonne saranno raggruppate insieme.

riga, col _colors: I colori per etichettare le righe o le colonne. Può essere usato per vedere se i dati all'interno di una raccolta sono raggruppati collettivamente. Per diversi livelli di colore di etichettatura, è possibile utilizzare gli elenchi impilati o un frame dati se consegnato sotto forma di panda. DataFrame o Panda sono entrambe buone opzioni. Le etichette di colore sono derivate dai nomi dei campi di dati di dati o dal nome della serie. I colori nel frame/serie sono anche correlati al set di dati per indice, garantendo che i colori siano presentati nella sequenza corretta.

dendrogramma, colori _Ratio: La percentuale della dimensione grafica è dedicata alle due sezioni del bordo. Quando viene specificata una coppia, si riferisce ai rapporti di riga e Col.

cbar_pos: Nel diagramma, gli assi colorbar sono nelle posizioni corrette. Il colorbar è disattivato se non lo imposti su nessuno.

Kwargs: HeatMap riceve tutti gli altri parametri delle parole chiave ().

Costruiremo una mappa di calore usando i cluster gerarchici attraverso la funzione clustermap di Seaborn. Il clustermap di Seaborn è una funzione davvero utile. Ti mostreremo come utilizzarlo con alcuni esempi:

Esempio 1:

La mappa del cluster di Seaborn è una grafica a matrice che consente di visualizzare gli elementi della matrice come mappa di calore mentre si visualizza contemporaneamente un clustering di righe e colonne. Nell'esempio successivo, abbiamo portato le biblioteche richieste. Quindi, abbiamo creato un frame di dati dei dipendenti che include i loro nomi, ID, età e stipendio. Abbiamo quindi convertito questo frame di dati nei panda usando il PD.Funzione DataFrame. Impostiamo l'indice del campo dipendente tramite il campo tramite la funzione set.

Successivamente, abbiamo creato una mappa del cluster di questo frame di dati chiamando la funzione del cluster Seaborn e trasmettendo il dipendente_data in quella funzione. Un altro argomento di parole chiave, annot, viene utilizzato ed è impostato su True. Questo parametro ci consente di vedere i numeri reali visualizzati sulla mappa di calore della mappa del cluster.

L'uscita della mappa del cluster è nella figura seguente. Si noti che le nostre file e colonne sono riorganizzate da Seaborn:

Esempio 2:

Utilizziamo il set di dati di esempio "mpg" per creare una mappa del cluster. Dobbiamo filtrare i dati che inviamo a queste mappe del cluster fino al numero di colonne nella cornice dei dati.

Inizia con l'importazione delle librerie necessarie. Abbiamo caricato il set di dati di "mpg" all'interno della variabile "dataframe_mpg". Inoltre, abbiamo usato la funzione Dropna per rimuovere le righe nulle all'interno della cornice di dati. Abbiamo stampato il nome della colonna all'interno del frame dati "MPG" insieme alla dimensione della colonna. Quindi, abbiamo una funzione mappa del cluster in cui l'intero telaio di dati "MPG" viene passato con le colonne specificate.

Le tre colonne sono mostrate nella console.

Quando abbiamo eseguito il codice precedente, vediamo una mappa del cluster con una sola colonna con un colore chiaro. Questo perché le scale per queste diverse colonne sono diverse.

Esempio 3:

Esistono diverse opzioni per ridimensionare i dati all'interno della funzione della mappa del cluster. Ma un semplice metodo è utilizzare l'argomento della scala standard. Se vogliamo ridimensionare ogni riga, allora dobbiamo passare un valore zero come argomento. Se vogliamo ridimensionare ogni colonna, il valore sarà 1. Ora abbiamo un valore di scala di 1. Inoltre, abbiamo superato un argomento del metodo all'interno della funzione cluster che ha assegnato un valore come singolo. La stringa può essere passata come un singolo valore, che è un collegamento minimo.

La mappa del cluster "iris" del frame di dati è leggermente diversa nella figura mentre abbiamo superato i parametri di scala e metodo.

Esempio 4:

Qui, abbiamo aggiunto il parametro row_color all'interno della funzione mappa del cluster di Seaborn. Abbiamo assegnato ogni colore alle specie di campo e estratto le informazioni dalla colonna delle specie dei pinguini della cornice di dati.

Conclusione

Ora, puoi stabilire la mappa dei cluster di Seaborn poiché l'abbiamo spiegata con alcuni esempi dei diversi parametri passati. Il clustermap di Seaborn ha anche molte alternative per il calcolo di una griglia di lunghezza o somiglianza dai dati per creare una mappa di calore.