Funzione di taglio panda

Funzione di taglio panda
Nell'analisi dei dati, i dati numerici sono onnipresenti. Spesso, è possibile incontrare dati numerici che sono continui su dimensioni estremamente vaste o gravemente distorte. Potrebbe generalmente essere preferibile disporre i dati in periodi distinti. Una volta che i dati vengono suddivisi in utili divisioni, le statistiche descrittive possono essere eseguite in modo più efficace.

Trasformare i dati statistici in set di dati è un gioco da ragazzi con la funzione Cut-in () di Pandas Cut-in. Solo gli elementi a forma di array monodimensionale sono compatibili con il metodo Cut (). Quando abbiamo un sacco di dati numerici e deve eseguire alcune valutazioni statistiche, il metodo Cut () è utile.

Immaginiamo, per illustrazione, che otteniamo una gamma di valori da 5 a 15. Quindi, dividiamo questi numeri in 2 categorie e li classifichiamo. Ci riferiamo a queste collezioni come bidoni. Di conseguenza, separare questi dati nei bin 1 e 2, che sono rispettivamente da 5 a 10 e 10 a 15. Avendo entrambi i bidoni, possiamo valutare quali numeri sono più grandi e quali sono piccoli. Pertanto, da 10 a 15 sono più grandi di 5 a 10 e viceversa. Questo porta ai termini "bassi" e "alti" che si riferiscono ai valori più bassi e quelli più grandi, rispettivamente.

Questo approccio è noto come segnare i dati con la tecnica Cut () di Pandas. Utilizzare la funzione Cut () se hai mai bisogno di dividere i dati in segmenti e immettere i numeri nei bin. Il suddetto metodo è anche vantaggioso per la conversione di un valore infinito in dati categorici.

Sintassi del metodo Pandas Cut ()

L'array unidimensionale che deve essere inserito nel cestino è rappresentato dal "X"Simbolo. Per la classificazione, "Bidone"Definisce i confini del cestino. IL "Giusto"Specifica se il confine più a destra deve essere mantenuto o meno; L'impostazione predefinita è vera. IL "Etichette"Aiutate a rappresentare e classificare i bidoni o alti o bassi. Fornisce istruzioni per l'etichettatura sui contenitori di ritorno e dovrebbe avere la dimensione esatta come quella dei contenitori risultanti. Booleano o array sono entrambi accettabili nelle etichette. IL "Retbins"Determina se i bidoni devono essere restituiti o meno. Il termine "precisione"Descrive il livello di accuratezza utilizzata mentre si preserva e presenta le etichette per i bidoni. IL "includere il più basso"Determina se l'intervallo iniziale viene lasciato completo o no. Ogni volta che i confini dei bidoni non sono distintivi, "duplicati"Specifica se lanciare un valorerror o rimuovere un non distintivo.

Esempio 1: valori di segmentazione in bidoni

Iniziamo la dimostrazione pratica della funzione di taglio () Panda con l'esempio di base e semplice di inserire i valori di una cornice di dati nei bin.

La prima cosa che devi fare prima di iniziare a lavorare sul codice principale è importare le librerie necessarie in Python. In questa illustrazione, abbiamo importato due biblioteche Python che sono "Panda" e "Numpy".

La Biblioteca Pandas ci consente di utilizzare le funzioni di Panda tra cui la funzione Cut () che è il nostro argomento di discussione oggi. Mentre l'altra libreria che abbiamo importato è numpy, che è tra i migliori strumenti Python usati per i calcoli statistici. Per riempire l'oggetto DataFrame, utilizziamo il numpy per creare i numeri interi arbitrari.

Ora iniziamo con il codice principale che può essere visto nell'immagine precedente.

Qui, abbiamo creato una variabile come "new_df" che memorizza una serie di numeri generati casualmente. Il "PD.DataFrame "è invocato per generare un frame dati. Richiede 2 parametri: il titolo della colonna "Valore" e "NP.casuale.funzione Randint ". Il "np.casuale.Randint "genera numeri casuali per il frame dati definito. Ci vogliono tre parametri: valore minimo, valore massimo e lunghezza/dimensione dell'array. Abbiamo definito il valore minimo come 5 e il valore massimo come 50 e la lunghezza dell'array è impostata su 10. Quindi, genera 10 numeri casuali che vanno da 5 a 50. Quindi, abbiamo utilizzato l'espressione "print ()" per stampare il frame dati "new_df".

Qui, puoi vedere un frame dati con la colonna "valori" con 10 valori.

Ora creiamo un'altra colonna come "value_bins" all'interno del frame dati esistente, i.e. new_df. Chiamiamo quindi i panda (). Passiamo i parametri al metodo di taglio. A "X" viene assegnato il nome del frame/array di dati che dobbiamo inserire nel cestino. Nel nostro esempio, è "new_df [valori]" in cui "valore" è il nome della colonna su cui viene applicato il taglio (). Il secondo parametro del parametro di taglio che abbiamo usato è il "bin" per definire i bordi del cestino. Qui, vogliamo dividere i dati in 4 contenitori da (5, 20], (20, 30], (30, 40], (40, 50].

Nell'ultima istruzione di stampa, abbiamo chiamato la funzione "unica ()" che genera un array di valori univoci.

L'immagine di output mostra il frame dati con bin. Potresti notare che "20" viene aggiunto anche al cestino. È il risultato dell'inclusione predefinita del bordo più a destra. Se non ne abbiamo bisogno, usa il metodo Cut () con l'opzione Right = False.

Esempio 2: etichettare i bidoni

Possiamo aggiungere etichette ai contenitori con la funzione Panda Cut ().

A fini illustrativi, abbiamo creato un frame di dati con la funzione Pandas DataFrame come abbiamo creato nell'esempio precedente. Questo frame dati contiene una colonna "numero" che memorizza un array di dimensioni 10 con valori generati casualmente da 11 a 32. Quindi, creiamo un'altra colonna nello stesso frame dati e lo chiamiamo "numeras_labels". Invochiamo la funzione Panda Cut (). All'interno di questa funzione, menzioniamo il nome della colonna del nostro telaio per applicare la funzione Cut (). Dato che dobbiamo tagliare e segmentare i dati in 2 contenitori, forniamo 2 confini del cestino come (11, 22], (22, 32].

La prossima cosa è definire le etichette dei bidoni. Nell'argomento "etichette", passiamo le due espressioni come "bassi" e "alti".

Usiamo la stessa procedura di prima, ma oltre a dividere i risultati in bidoni, ora etichettiamo i bidoni come alti e bassi.

I valori statistici sono differenziati in bidoni. Quindi, possiamo osservare qualunque numero sia più grande e quali sono più piccoli. Nell'invocazione della funzione Cut (), impostiamo il destro = falso perché abbiamo bisogno di 10 per essere un elemento di alti.

L'immagine di output mostra i bidoni con etichette "bassi" e "alti". I piccoli valori sono etichettati come minimi e i valori più grandi sono definiti come alti.

Conclusione

Questo articolo si basa sulla funzione Pandas Cut (). Include l'introduzione alla funzione Panda Cut () e la necessità di utilizzare questo metodo. Abbiamo spiegato tutti i dettagli necessari e farti familiarità con le basi della funzione Cut (). Abbiamo elaborato ogni parametro di questa funzione in termini di facile comprensione. Abbiamo eseguito gli esempi pratici di codice implementati su Spyder per farti praticare questo metodo con loro. Allo stesso modo, puoi praticare gli altri parametri della funzione Cut (). Abbiamo fatto uno sforzo intenzionale per fornirti il ​​migliore e più utile esercizio di apprendimento e per aiutarti a imparare nuovi concetti nella programmazione.