Python One Hot codificante

Python One Hot codificante
Questo articolo ti insegnerà come eseguire la codifica calda in Python usando Panda e Scikit Learn.

La codifica calda si riferisce alla conversione di dati categorici in modelli che gli algoritmi di apprendimento automatico possono utilizzare. Nella maggior parte dei casi, ciò comporta la conversione di ciascuna categoria in un valore binario di 1 o 0.

L'immagine seguente illustra la codifica onesta.

Fonte: Kaggle

È possibile esplorare la codifica onesta nella risorsa seguente:

https: // en.Wikipedia.org/wiki/one-hot

Dati di esempio

Iniziamo creando dati di esempio. Innanzitutto, utilizzare il codice di esempio come mostrato di seguito:

Importa panda come PD
df = pd.DataFrame (
"Categorie": ['Cat1', 'Cat2', 'Cat3', 'Cat2', 'Cat1', 'Cat1', 'Cat3',
"Valori": [10,20,20,40,24,34,23]
)
df

Importa Onehotencoder da Sci-Kit-Learn per eseguire una codifica a un hot per eseguire una codifica a un hot come mostrato:

da Sklearn.Preelaborazione di importazione OneHotecoder
# istanza
e = OneHoteNcoder (manegge_unknown = 'ignore')
# codifica
e_df = pd.DataFrame (e.fit_transform (df [['categorie']].Toarray ())
e_df

Nell'esempio sopra, iniziamo importando Onehotencoder da Sci-Kit-Learn. Creiamo quindi un'istanza dell'encoder e passiamo il parametro Handle_unknown da ignorare.

Infine, creiamo un nuovo frame dati dai dati codificati. Il codice sopra dovrebbe restituire il nuovo frame dati come mostrato:

È inoltre possibile unire il telaio di dati codificato sul frame dati originale utilizzando il metodo di join come:

df = df.join (e_df)
df

Il codice sopra dovrebbe restituire:

Conclusione

Questo articolo copre il minimo di eseguire una codifica di base di un Frame Data Panda utilizzando la libreria Sci-Kit-Learn.