Panda bidoni

Panda bidoni
In questo tutorial, imparerai le funzioni Cut () e QCut (), i due diversi metodi Panda per ammirare i dati. È possibile limitare i dati in bin di dimensioni uguali e personalizzate. Mentre inserire i dati in contenitori personalizzati può aiutarti a ottenere un'idea delle classificazioni di categorizzazione logica, i bidoni di dimensioni uguali rendono semplice capire la distribuzione. Il binning dei dati può essere eseguito utilizzando le funzioni Cut () e QCut ().

Funzione Cut ()

Quando è necessario ordinare e segmentare i valori dei dati nei bin, si utilizza il metodo Cut (). Il metodo Cut () funziona solo con gli oggetti come array monodimensionali. Il metodo Cut () esegue analisi statistiche su un ampio set di dati scalari/numerici. Questa funzione può anche convertire gli elementi di un array in vari contenitori.

Sintassi:

panda.Cut (dati, bidoni, a destra, etichette, retbins)

Parametri:

  1. X: Array unidimensionale; l'array che vogliamo bidone.
  2. BIIN: I bordi del cestino sono definiti per la segmentazione.
  3. Giusto: Questo è impostato su True per impostazione predefinita. Indica se il bordo più a destra dei bidoni è incluso o meno
  4. Etichette: Può essere un bool o un array ed è facoltativo. Sono specificate le etichette per i contenitori riempiti. La lunghezza deve corrispondere ai bidoni prodotti. Se è falso, vengono restituiti solo gli indicatori del contenitore intero.
  5. Retbins: Bool, false per impostazione predefinita. Se i bidoni vengono restituiti o meno. Quando i bidoni sono forniti come scalare, è utile.

Esempio 1: con il parametro bins
Abbiamo un frame dati che contiene 12 numeri interi nella colonna "valori1". Crea 8 bidoni nell'intervallo di 15 ciascuno e memorizza i bidoni nella colonna "Bins".

Panda di importazione
numerico = panda.DataFrame ('Values1': [12,34,56,44,45,34,45,32,67,89,100,34])
Stampa (numerico)
# Crea 8 bidoni
numerico ['bids'] = panda.Cut (numerico ['valori1'], bin = [1,15,30,45,60,75,90,105])
stampa()
Stampa (numerico)
stampa()
Stampa (Numeric ['Bins'].unico())

Produzione:

Spiegazione:
I bidoni sono creati per tutti i valori. Visualizziamo anche le dimensioni del contenitore usando la funzione unica (). Ora, puoi vedere che un cestino è allocato per ogni valore.

Esempio 2: con il parametro delle etichette
Crea 5 contenitori nell'intervallo di 10 ciascuno e memorizza i bidoni nella colonna "Bins" per il frame dati con 7 righe.

Panda di importazione
numerico = panda.DataFrame ('Values1': [2,5,12,32,20,3,10])
# Crea 5 bidoni e specifica etichette per ogni cestino.
numerico ['bids'] = panda.Cut (numerico ['valori1'], bin = [1,10,20,30,40], etichette = ['primo', 'secondo', 'terzo', 'ultimo'])
stampa()
Stampa (numerico)

Produzione:

Spiegazione:
I bidoni sono creati per tutti i valori.

  1. Per il cestino [1-10], l'etichetta è "prima". I valori 2, 5, 3 e 10 rientrano sotto il primo cestino.
  2. Per il cestino [11-20], l'etichetta è "seconda". I valori 12 e 20 rientrano nel secondo cestino.
  3. Per il bin [21-30], l'etichetta è "terza". Nessun valori è in questo intervallo.
  4. Per il cestino [31-40], l'etichetta è "ultima". Il valore 32 cade sotto questo cestino.

Funzione qcut ()

La funzione QCUT () è nota come metodo di "discretizzazione basata sul quantile". Ciò significa che QCut () viene utilizzato per creare i bin di dimensioni uguali dividendo i dati sottostanti. La funzione QCUT () è anche nota come "funzione di discretizzazione basata sul quantile". Ciò significa che il QCut () viene utilizzato per dividere i dati sottostanti nei contenitori di uguale dimensione.

Sintassi:

panda.Cut (dati, q, destra, etichette, retbins)

Parametri:

  1. X: Array unidimensionale, l'array che vogliamo bidone.
  2. Q: Numero di quantili.
  3. Giusto: Questo è impostato su True per impostazione predefinita. Indica se il bordo più a destra dei bidoni è incluso o meno.
  4. Etichette: Può essere un bool o un array ed è facoltativo. Sono specificate le etichette per i contenitori riempiti. La lunghezza deve corrispondere ai bidoni prodotti. Se è falso, vengono restituiti solo gli indicatori del contenitore intero.
  5. Retbins: Bool, false per impostazione predefinita. Se i bidoni vengono restituiti o meno. Quando i bidoni sono forniti come scalare, è utile.

Esempio 1:
Abbiamo un frame dati che contiene 12 numeri interi nelle colonne "valori1" e "valori2". Crea 2 quantili per entrambe le colonne.

Panda di importazione
numerico = panda.DataFrame ('Values1': [12,34,56,44,45,34,45,32,67,89,100,34],
'Values2': [11,22,33,44,55,66,77,88,99,100,12,12])
Stampa (numerico)
# Crea 2 quantili per valori1 colonna
numerico ['bin valori 1'] = panda.QCut (numerico ['valori1'], 2)
# Crea 2 bin per la colonna VALORI1
numerico ['bin valori 2'] = panda.QCut (numerico ['valori2'], 2)
stampa()
Stampa (numerico)

Produzione:

Spiegazione:
Abbiamo creato 2 quantili per ogni colonna. Ora, puoi vedere che ogni quantile ha un numero uguale di valori.

  1. Nella colonna "valori1", i quantili sono (11.999, 44.5] e (44.5, 100.0]. Ce ne sono 6 per entrambi i quantili.
  2. Nella colonna "valori2", i quantili sono (10.999, 49.5] e (49.5, 100.0]. Ce ne sono 6 per entrambi i quantili.

Esempio 2: QCut () vs Cut ()
Abbiamo un frame dati che contiene 12 numeri interi nelle colonne "valori1" e "valori2". Ora, usando Cut (), crea due bidoni. E usando QCut (), crea 2 quantili per la colonna "valori2".

Panda di importazione
numerico = panda.DataFrame ('Values1': [12,34,56,44,45,34,45,32,67,89,100,34],
'Values2': [11,22,33,44,55,66,77,88,99,100,12,12])
# Crea 2 quantili per valori2 colonna
numerico ['qcut ()'] = panda.QCut (numerico ['valori2'], q = 2)
# Crea 2 bin per valori2 colonna
numerico ['cut ()'] = panda.Cut (numerico ['valori2'], bin = 2)
print (numerico ['qcut ()'])
stampa()
print (numerico ['cut ()'])

Produzione:

Spiegazione:
Ora vedi la differenza reale:

Il QCut () raggruppa i dati in parti uguali. Sei (6) valori rientrano (10.999, 49.5] e un altro 6 sotto (49.5, 100.0]. Mentre in Cut (), 7 valori sono sotto (10.911, 55.5] e altri 5 valori sono sottoposti a (10.911, 55.5].

Conclusione

Abbiamo discusso delle funzioni Cut () e QCut () per ammirare i dati in Pandas Python. Abbiamo visto la sintassi di entrambe le funzioni e descritto i loro parametri per aiutarti durante l'utilizzo di quelle funzioni. Negli esempi di questo tutorial, ti abbiamo mostrato come segmentare i dati in bin, etichettare i bidoni e come utilizzare i dati di binning di dimensioni uguali usando le funzioni Cut () e QCut (). Ora, potresti essere in grado di limitare i dati da soli utilizzando queste funzioni.