Cos'è un algoritmo di albero decisionale?
I modelli di classificazione e regressione sono costruiti utilizzando una tecnica dell'albero decisionale. Mappa i vettori dei valori alle etichette e rappresenta il classificatore come albero decisionale. Tale albero può essere confrontato con le dichiarazioni se-then-else nidificate in cui la condizione è sempre un test semplice dei valori nel vettore. E i rami allora e altro sono ulteriori dichiarazioni If-then o altrimenti o forniscono un'etichetta di categorizzazione. Un albero decisionale apprende dai dati, trova le funzionalità più adatte per differenziare l'output e verificare ricorsivamente i dati di input forniti per prevedere l'etichetta. Un albero decisionale potrebbe apparire così, ad esempio, se il vettore di input è (a, b, c):
Se un> 10Si noti che gli altri alberi decisionali hanno quella caratteristica oltre a questo. Di conseguenza, il problema non è solo quello di individuare un tale albero decisionale, ma anche identificare quello più adatto. Il fatto che l'input sia un campione di una considerevole collezione del mondo reale e che l'albero decisionale sia costruito per identificare i vettori in questo set più ampio determina accuratamente cosa significa "adatto" in questo caso. Pertanto, la definizione di "adatto" dipende da (1) le proprietà di questo set più ampio (ad esempio, la probabilità per ciascun vettore) e (2) l'impatto finanziario della classificazione errata in ogni istanza specifica.
Terminologie relative all'albero decisionale
Nodo radice: Il nodo radice dell'albero decisionale è dove tutto inizia. L'intero set di dati è rappresentato, che viene quindi diviso in due o più set omogenei.
Nodo fogliare: I nodi foglia sono gli ultimi nodi di uscita dell'albero. Dopo di che, l'albero non può essere ulteriormente diviso.
Scissione: La divisione del nodo decisionale/nodo radice in sotto-nodi in conformità con le condizioni specificate è nota come scissione.
Ramo: Un ramo o una sottostruttura è un albero creato da un nodo di un albero genitore.
Potatura: Potatura è la procedura per rimuovere i rami indesiderabili dell'albero.
Nodi genitore e figlio: Il nodo radice dell'albero viene definito nodo genitore, mentre i nodi che ne provengono sono indicati come nodi figlio.
Implementazione di alberi decisionali a Sklearn
Importazione delle biblioteche:
da Sklearn.set di dati Importa make_classificationCreazione del set di dati:
X, y = make_classification (random_state = 42)Produzione:
I dati del treno sono [[-2.02514259 0.0291022 -0.47494531… -0.33450124 0.86575519Creazione del modello:
Model = decisionTreEClassifier (random_state = 0)Produzione:
array ([0.9, 1. , 0.8, 1. , 1. , 0.9, 0.9, 1. , 0.9, 1. ])Conclusione
Abbiamo discusso dei modelli di alberi decisionali in Sklearn che creano una struttura simile a un albero per classificare o prevedere le etichette di output. Dividono i nodi per ridurre la profondità dell'albero. Abbiamo anche visto i vari termini relativi agli alberi decisionali come nodo fogliare, nodi genitori, potatura, ecc. Quindi, in seguito abbiamo discusso dell'implementazione di Sklearn.