Panda categorica

Panda categorica
Le variabili categoriali utilizzate nelle statistiche sono rappresentate dal tipo di dati PANDAS categorico. I dati in tempo reale di solito contengono colonne di testo con dati ripetitivi. C'è sempre un po 'di ripetizione nelle caratteristiche come genere, gruppo sanguigno e codici. Possono essere presi come esempi di categorico. Esiste solo un numero fisso e limitato o un intervallo di valori possibili per le variabili categoriche. I dati categorici possono avere un ordine oltre alla lunghezza fissa, ma non possono eseguire operazioni numeriche. In questo tutorial, impareremo come creare categorici in panda e cambiare diversi dati in categorico.

Quando usare categorico?

Nei seguenti scenari, possiamo usare il tipo di dati categorici:

  • Una variabile stringa con pochi valori distinti. Per salvare la memoria, la variabile può essere trasformata in una variabile di categoria.
  • La variabile dell'ordine logico ("uno", "due" e "tre") e una variabile con ordine lessicale non sono gli stessi. Ordinamento e minimo/massimo utilizzerà l'ordine logico rispetto all'ordine lessicale se il problema viene convertito in una categoria e alle categorie viene dato un ordine.
  • Altre librerie di Python dovrebbero trattare le colonne come variabili categoriche (ad esempio, per utilizzare tipi o funzioni di trama statistica appropriati).

Come creare panda categoriche?

Esiste una vasta gamma di modi per creare categorici nei panda. Alcune funzioni e attributi per creare categorici nei panda saranno discussi nei seguenti esempi:

Esempio n. 1: creazione categorica usando la serie Pandas

Un categorico può essere creato in Panda usando il PD.funzione serie (). Per la creazione di una serie, importare prima il modulo Pandas.

Abbiamo usato un elenco di stringhe ["ASD", "123", "def", "456"] all'interno del PD.La serie () funziona come un argomento. Abbiamo anche specificato il parametro "dType" in "categoria" per archiviare i dati come categorici. Visingiamo la categorica stampando la "stringa" variabile.

Come visto nell'output, la nostra serie è convertita in categorico specificando la categoria dType = ".

Esempio n. 2: creazione di dati di dati categorici in panda

Usando i panda.DataFrame (dType = "categoria"), è possibile costruire dati categorici. Proprio come la serie, l'attributo dType della funzione dataframe () è impostato su "categoria" per creare un frame di dati categorici. Impostando dType = "categoria" nel costruttore di dati di dati, tutte le colonne nella cornice dei dati possono essere rese categoriche durante o dopo la costruzione. Creiamo un frame di dati di esempio per mostrare la differenza tra i telai di dati ordinari e categorici.

Per la creazione del nostro frame dati "DF", abbiamo innanzitutto importato i moduli panda e numpy per utilizzare le loro caratteristiche e funzioni. Dopo aver importato i moduli, abbiamo creato un dizionario "dati" con due chiavi, "Col1" e "Col2". Il dizionario "dati" viene quindi passato al PD.Funzione DataFrame () per creare il dataframe "DF".

È un normale telaio di dati Pandas con colonne che archiviano dati numerici. Per determinare i dati dei dati delle colonne nel telaio di dati "DF", verrà utilizzato l'attributo DTypes.

Il tipo di dati delle colonne "Col1" e "Col2" è "int64". Ora ti mostreremo come creare un telaio categorico con le stesse etichette e valori di colonne.

Come visto in questo frame dati, abbiamo specificato la categoria DType a ". Controlliamo i dati di questo telaio di dati:

Come mostrato, il tipo di dati delle colonne di questo frame dati è la "categoria". Quindi, questo è un telaio categorico.

Esempio n. 3: creazione categorica usando la funzione astype ()

Un oggetto Pandas può essere convertito in un particolare dType utilizzando il "data frame.Metodo ASTYPE () ". Inoltre, il metodo ASTYPE () fornisce la possibilità di modificare qualsiasi colonna esistente appropriata in un tipo di categoria. Quando siamo tenuti a convertire il tipo di dati di una colonna specifica di dati di dati in un altro tipo di dati, il frame dati.La funzione astype () può essere utilizzata. Innanzitutto, creeremo un campione di dati di esempio. Quindi convertiremo le colonne di dati in categorico.

Abbiamo creato il nostro telaio dati passando il dizionario all'interno del PD.DataFrame () funzioni come argomento.

Come visto nel precedente telaio di dati "DF" ci sono tre colonne, A, B e C, memorizzazione dei valori [1, 3, 5, 7], [2.1, 4.2, 8.3, 16.4] e ["John", "Tim", "Clay", "Mike"] rispettivamente. Per determinare il tipo di dati di ciascuna colonna, utilizzeremo l'attributo dtypes.

Il tipo di dati della colonna "A" è "int64", mentre i dati della colonna "B" e "C" sono "float64" e "oggetto", rispettivamente. Ora useremo la funzione ASTYPE () per modificare il tipo di dati di colonne specifiche.

All'interno del DF.funzione astype (), abbiamo superato il dizionario Python contenente le etichette delle colonne "A" e "C" come chiavi e il tipo di dati "Categoria" è specificato come valore per entrambe le etichette di colonne. Controlliamo se i dati vengono modificati nella categoria o meno.

Si noti che le colonne "A" e "C" sono state convertite con successo in categoria.

Esempio # 4: utilizzando la funzione categorica () per creare il categorico

Possiamo creare variabili categoriali nei panda usando la funzione categorica (). Innanzitutto, esamineremo la sintassi della funzione () e quindi lo useremo per creare il categorico.

Sintassi:

panda.Categorico (val, categorie = nessuna, ordinata = nessuna, dType = nessuno)

Parametri:

Categorie: Simile a indice. Le categorie distintive per le categoriche. Si presume che le categorie siano valori distinti dei "valori" se non sono specificati.

Ordinato (facoltativo): Se questo categorico è considerato un categorico ordinato. Se vero, l'output categorico verrà ordinato. Se ordinato, un ordinato categorico rispetta l'ordine dell'attributo.

Dtype: Categoricaldtype. Un'istanza da utilizzare per categorico.
Ora creiamo panda categorici usando il PD.Funzione categorica (). Innanzitutto, importare il modulo Pandas per creare il nostro categorico.

Come si può vedere, abbiamo creato due categorie, "Cat1" e "Cat2", passando un elenco di valori all'interno delle parentesi della funzione categorica (). Noterai nell'output che la categorica "Cat1" è composta da 3 categorie [1, 3, 4, 6], mentre la categorica "Cat2" è composta da 6 categorie ["a", "d", "g", "j" , 's', 'w'].

Ora, controlliamo l'output specificando il parametro "ordinato" su "vero".

Come puoi osservare, specificando Ordined = True, l'output categorico è ora ordinato [1 < 3 < 4 < 6].

Ora, proviamo un altro esempio quando viene specificato il parametro "categorie".

All'interno del PD.Funzione categorica (), l'elenco ['1', '2', '3', '2', '1', '4', '2'] viene approvato per essere convertito in categorico, mentre l'elenco ['3 ',' 1 ',' 2 '] è specificato come parametro “categorie”. Stampiamo il "gatto" categorico per vedere l'output.

Di conseguenza, qualsiasi valore che non esiste nell'elenco delle categorie sarà considerato NAN. Dall'elenco "Val", il valore "4" non è presente nell'elenco degli argomenti "categorie", quindi è considerato nan.

Puoi anche svolgere diverse funzioni con categorico come rinominare le categorie, aggiungere nuove categorie, eliminare le categorie, ecc.

Conclusione

In questo tutorial, abbiamo visto quelle statistiche che le variabili categoriali sono rappresentate da un tipo di dati in panda chiamati categorici. Una variabile categorica ha un set fisso, tipicamente limitato di possibili valori. Dopo aver attraversato questo tutorial, potresti avere familiarità con categorico in Panda e potresti essere in grado di creare categorico da solo. Abbiamo implementato alcuni esempi in questo tutorial per insegnarti come creare una serie di serie categoriche, colonne di dati, la funzione ASTYPE () e utilizzando la funzione categorica ().