Cos'è l'elaborazione dei dati?
La preelaborazione dei dati è una fase fondamentale dell'apprendimento automatico che migliora la qualità dei dati per incoraggiare l'estrazione di preziose approfondimenti dai dati. La preparazione dei dati nell'apprendimento automatico è il processo per preparare i dati grezzi (pulizia e organizzazione) da utilizzare per creare e formare modelli di apprendimento automatico. La preelaborazione dei dati nell'apprendimento automatico è, per dirla semplicemente, un approccio di data mining che converte i dati grezzi in un formato che è leggibile e intelligibile.
Perché abbiamo bisogno di preelaborazione dei dati?
I dati del mondo reale mancano spesso di particolari valori o tendenze degli attributi ed sono spesso incoerenti, errati (contiene errori o valori anomali) e incompleti. La preparazione dei dati entra in gioco in questa situazione perché aiuta a pulire, formare e organizzare i dati grezzi, rendendolo pronto per l'uso da parte dei modelli di apprendimento automatico.
La preelaborazione dei dati si occupa di quanto segue:
Standard per l'API Scikit-Learn
Esistono diverse specifiche per il tipo di dati che Sklearn elaborerà.
Implementazione di Sklearn di preelaborazione
Importazione delle librerie e dei dati
# Importazione delle biblioteche e delle classiCaricamento delle prime 5 file dei dati
df.Testa()Produzione
lunghezza del sepal (cm) | larghezza del sepal (cm) | Lunghezza del petalo (cm) | Larghezza del petalo (cm) | |
---|---|---|---|---|
0 | 5.1 | 3.5 | 1.4 | 0.2 |
1 | 4.9 | 3.0 | 1.4 | 0.2 |
2 | 4.7 | 3.2 | 1.3 | 0.2 |
3 | 4.6 | 3.1 | 1.5 | 0.2 |
4 | 5.0 | 3.6 | 1.4 | 0.2 |
Ottenere informazioni su tipi e valori null
df.informazioni()Produzione
RangeIndex: 150 voci, da 0 a 149Riempire i valori mancanti del frame dati utilizzando Sklearn:
Imputer = SimpleIMputer (Strategy = 'Mean')Possiamo iterare tutte le colonne per eseguire questa attività su tutte le colonne.
Ridimensionamento dei dati utilizzando Scaler standard
scaler = standardsCaler ()Produzione
array ([[-0.90068117, 1.01900435, -1.34022653, -1.3154443],Una codifica calda
encoder = OneHoteNCODER (Handle_unknown = 'Ignore')Produzione
[array (['a', 'b'], dtype = object), array ([1, 2, 3], dType = object)]Conclusione
Abbiamo discusso di preelaborazione e la sua implementazione nella biblioteca di Sklearn Python in questo articolo. Al fine di facilitare l'estrazione di utili approfondimenti dai dati, la preelaborazione dei dati è un passo cruciale nell'apprendimento automatico. Aumenta la qualità dei dati. Quindi, abbiamo discusso dell'implementazione in Sklearn. Abbiamo prima recuperato informazioni sui dati, inclusi i valori e i dati mancanti, quindi compilati i valori mancanti. Abbiamo anche lavorato per ridimensionare i dati e una codifica hot.