Cos'è la regressione della cresta?
Al fine di aumentare l'accuratezza della previsione, la tecnica statistica nota come regressione della cresta riduce l'entità delle stime dei parametri. Funziona particolarmente bene se il set di dati contiene colonne correlate che si tenta di utilizzare come input (variabili indipendenti) nei modelli di regressione, ma nessuno dei tuoi modelli ha prodotto risultati molto accurati. In altre parole, la regressione della cresta è una tecnica di ottimizzazione del modello che viene utilizzata per qualsiasi analisi dei dati multicollinei. I dati sono sottoposti a regolarizzazione L2 usando questo metodo.
La funzione di costo per la regressione della cresta è:
Min (|| y - x (theta) ||^2 + λ || theta ||^2)Cos'è la multicollinearità?
Il concetto di multicollinearità si basa sulla ricerca statistica. Proprio quando le tue variabili indipendenti hanno un significativo grado di correlazione. La collinearità non influisce direttamente sulla variabile di risposta; Piuttosto, riguarda le interazioni tra le variabili o le caratteristiche predittive. Le stime dei coefficienti di regressione possono essere inaccurate a causa della multicollinearità. Può potenzialmente aumentare gli errori standard del coefficiente di regressione e ridurre l'efficacia di eventuali test t. La multicollinearità può fornire risultati fuorvianti e valori p, aumentando la ridondanza del modello e abbassando l'efficacia e l'affidabilità della prevedibilità.
Vantaggi della regressione della cresta
Implementazione della regressione della cresta in Sklearn
L'importazione richiede le seguenti librerie:
da Sklearn.Linear_Model Import RidgeCrea il set di dati utilizzando il seguente comando:
n_samples, n_features = 20, 4Produzione:
Le caratteristiche sono [[-2.55298982 0.6536186 0.8644362 -0.74216502]Creare e adattarsi al modello:
modello = cresta (alfa = 1.0)Conclusione
Abbiamo discusso del modello di regressione della cresta nell'apprendimento automatico che viene utilizzato per eseguire la regolarizzazione L2 sui dati per evitare l'adattamento eccessivo. È una versione avanzata di una semplice regressione lineare. Abbiamo anche discusso della sua implementazione usando Sklearn.