Gli istogrammi sono rappresentazioni visive di una raccolta di distribuzione dei dati continua. Un istogramma divide i dati in intervalli o bin (in genere sull'asse x), con il numero di punti dati che cadono in ciascun cestino pari all'altezza della barra oltre quel bidone. Questi bidoni non sono tutti delle stesse dimensioni, ma sono vicini (senza lacune). Inoltre, le larghezze di questi bidoni non sono necessariamente uguali, ma sono vicini (senza lacune).
Esamineremo la spiegazione del diagramma dell'istogramma di Seaborn in questo articolo, che ti aiuterà a visualizzare la distribuzione dei dati nelle applicazioni di scienza dei dati e di apprendimento automatico. Questo articolo ti mostrerà come usare il mare.Metodo HistPlot () per creare una varietà di vari tipi di display istogramma. Spiegheremo anche cosa significhi ciascuno degli argomenti dell'istogramma di Seaborn.
Un altro strumento per esaminare le distribuzioni dei dati è un diagramma di densità e il diagramma della densità del kernel è un altro nome per questo. È un istogramma levigato. I picchi di una trama di densità mostrano dove vengono accumulati i valori nel tempo. I metodi di levigatura sono disponibili in una varietà di dimensioni e forme. Uno dei metodi per levigare un istogramma è la stima della densità del kernel (KDE).
Sintassi della diagramma di Histborn
Il metodo HistPlot di Seaborn ha una sintassi molto semplice. Il Seaborn.Il metodo HistPlot () è una funzione specializzata per la produzione di istogrammi in Seaborn.
SNS.Hisplot (data = dataFrame_name, x = x-asse)Normalmente utilizziamo l'argomento dati all'interno della parentesi per identificare il frame di dati su cui vogliamo lavorare e l'argomento X per specificare la specifica la variabile che vogliamo tracciare. Ci sono alcuni altri argomenti che potremmo usare per alterare il comportamento della funzione HistPlot ().
KDE: È possibile inserire una linea di "stima della densità del kernel" sopra l'istogramma usando l'opzione KDE. Una linea KDE è una linea continua che raffigura la densità dei dati. Le linee KDE sono una rappresentazione visiva di come sono distribuiti i dati che possono essere utilizzati anziché istogrammi. Tuttavia, le linee KDE vengono talvolta usate in combinazione con gli istogrammi. Come argomento, questa opzione prende un'espressione booleana (i.e., Vero o falso).
tinta: Questo parametro aiuta nella mappatura dei colori delle variabili per i grafici.
pesi: I pesi aiutano a determinare l'influenza di ogni set di dati sul conteggio di ciascun cestino.
statistica: Le quattro categorie di metodi statistici impiegati per calcolare i valori del contenitore sono "conta", "frequenza", "densità" e "probabilità".
Bins: Il parametro bin che specifica il numero di bin da utilizzare.
binwidth: La larghezza del cestino può essere regolata qui.
binrange: I valori più bassi e migliori per i bordi possono essere impostati utilizzando questa opzione.
tavolozza: Per la mappatura semantica della tonalità, possiamo scegliere le nostre sfumature.
colore: Se non è disponibile alcuna mappatura delle tonalità, questo argomento ci consente di scegliere un singolo colore da matplotlib.
Esempio 1:
Qui, abbiamo creato un semplice istogramma utilizzando i parametri predefiniti. Abbiamo importato le biblioteche che ci aiutano a generare la trama. Successivamente, abbiamo impostato lo stile per Seaborn usando il parametro di stile come DarkGrid nella funzione SET. Per HistPlot, abbiamo caricato un set di dati "MPG". La funzione HistPlot di Seaborn viene quindi invocata in cui vengono passati i dati e i parametri X e assegnati un valore. Il parametro X prende l'accelerazione del nome campo dal set di dati "MPG".
La semplice rappresentazione del diagramma dell'istogramma è la seguente:
Esempio 2:
Stiamo usando la funzione Randn per la visualizzazione del diagramma dell'istogramma. Per questo, abbiamo incluso le librerie necessarie per l'implementazione del codice. Quindi, abbiamo creato un set di dati per il numero casuale e la funzione Randn genera numeri casuali nell'intervallo specificato. La funzione HistPlot di Seaborn prende il parametro dati come "numero" che è il set di dati creato con la funzione Randn e il valore del parametro KDE a TRUE.
Quanto segue è la visualizzazione dell'istogramma con la linea della curva KDE:
Esempio 3:
Il set di dati di esempio "iris" dal pacchetto Seaborn viene utilizzato in questo esempio. Abbiamo aggiunto le biblioteche Matplotlib, Seaborn, Panda e Numpy Essential per creare il diagramma dell'istogramma. Quindi, abbiamo creato una variabile DF_IRIS in cui viene caricato il set di dati di esempio iris. Il seaborn histplot prende il set di dati Iris al suo interno e imposta il parametro x come sepal_length dal set di dati Iris, il valore KDE a true e la specie variabile semantica viene mappata usando il parametro HUE.
Distribuzioni di lunghezza del sepal di più specie sono osservate nel seguente diagramma a singolo istogramma:
Esempio 4:
In questo esempio, l'istogramma è normalizzato in modo che l'altezza di ciascuna barra rappresenti una probabilità piuttosto che un conteggio dei punti dati. Qui, abbiamo caricato un set di dati di esempio "punti" che ha alcune caratteristiche diverse. Tra queste caratteristiche, impostiamo il parametro X come Firing_Rate nella funzione HistPlot dai punti del set di dati. Abbiamo anche specificato il parametro STAT come probabilità e il valore discreto a vero che combina le pause del contenitore con le barre centrate sul rispettivo valore per rappresentare i valori distinti in un set di dati. Finalmente, il parametro di colore è impostato sul colore verde.
La rappresentazione del diagramma dell'istogramma con la probabilità è nella seguente istantanea:
Esempio 5:
Possiamo costruire la seconda forma di un istogramma. L'istogramma bivariato mostra due variabili usando gli assi x e y. Questo esempio illustra un istogramma bivariato con vaso bidone con una barra di colore per indicare i valori. Il Colormap viene utilizzato per visualizzare la barra dei colori. Abbiamo inserito il frame di dati dei pinguini come set di dati. Le variabili xey, così come i bidoni, i parametri della scala discreti e di log, vengono quindi specificate nella funzione HistPlot. Per collegare la barra dei colori alla trama, abbiamo inoltre dato l'opzione CBAR. Il parametro discreto viene utilizzato per gestire gli spazi vuoti dell'istogramma e la scala del registro viene utilizzata per impostare una scala di registro sull'asse dei dati.
La visualizzazione del diagramma dell'istogramma bivariato è mostrata nella figura seguente:
Conclusione
Abbiamo spiegato il diagramma di Hist in Seaborn. Abbiamo usato la funzione HistPlot () in questo post per ripassare la Guida al diagramma dell'istogramma di Seaborn. Abbiamo esaminato una varietà di casi di creazione dell'istogramma per circostanze statistiche multivariate, nonché le strategie di binning.