Cos'è la regressione lineare?
La regressione lineare è un algoritmo di apprendimento automatico semplice ma efficace per prevedere variabili continue. La regressione lineare cerca di determinare come la variabile di input (variabile esplicativa) varia dalla variabile di output (variabile di risposta). Molti algoritmi avanzati di apprendimento automatico supervisionato si basano su concetti di regressione lineare. La regressione lineare è comunemente usata nei problemi di apprendimento automatico per prevedere variabili continue in cui le variabili target e caratteristiche hanno una relazione lineare.
Di seguito sono riportati i componenti principali di una semplice regressione lineare: variabile di input continua, variabile di risposta continua e le ipotesi di regressione lineare sono soddisfatte.
Ipotesi di regressione lineare:
Come funziona la regressione lineare?
Un modello di regressione lineare tenta di adattarsi a una linea che passa attraverso il numero più significativo di punti minimizzando la distanza quadrata (funzione di costo) dei punti ai valori della linea adattati dati un set di input di punti dati (x) e risposte (Y).
Di conseguenza, la funzione di costo viene infine ridotta al minimo. La funzione di costo per la regressione lineare è di solito Errore quadrato medio:
L'equazione di regressione è scritta come y = β1x + βo.
Il termine c rappresenta l'intercetta, m rappresenta la pendenza della linea di regressione, x rappresenta la variabile di input e y rappresenta il valore previsto della variabile di risposta.
Sappiamo dalla matematica di base che una linea retta è identificata da due parametri: pendenza e intercettazione. L'algoritmo di regressione lineare seleziona alcuni parametri iniziali e li aggiorna continuamente per ridurre al minimo la deviazione standard. Di seguito è riportata l'immagine che mostra la linea di regressione (blu), le deviazioni (verde) e i punti dati (rosso).
La regressione lineare può anche essere estesa a più variabili di input e l'approccio rimane esattamente lo stesso. L'equazione della linea per più variabili è rappresentata da:
Una demo sulla regressione lineare
Prevediamo una variabile target usando una singola variabile di input. L'esempio e il set di dati seguenti provengono da Scikit-learn Documentazione ufficiale. Scikit-Learn è una libreria ampiamente utilizzata per lo sviluppo di modelli di apprendimento automatico.
Importa matplotlib.Pyplot come PltProduzione
Errore quadrato medio: 2548.07Cos'è la regressione logistica?
La regressione logistica è un algoritmo di classificazione. È un algoritmo decisionale, il che significa che cerca i confini tra due classi e simula le probabilità di una singola classe. Poiché l'input è discreto e può assumere due valori, in genere viene utilizzato per la classificazione binaria.
La variabile target nella regressione lineare è continua, il che significa che può assumere qualsiasi valore di numero reale, mentre, nella regressione logistica, vogliamo che il nostro output sia probabilità (tra 0 e 1). La regressione logistica deriva dalla regressione lineare, ma aggiunge un ulteriore livello di funzione sigmoide per garantire che l'output rimanga tra 0 e 1.
Come funziona la regressione logistica?
La regressione logistica è un algoritmo di apprendimento automatico semplice e ampiamente usato, in particolare per i problemi di classificazione binaria. Questa estensione dell'algoritmo di regressione lineare utilizza una funzione di attivazione sigmoideo per limitare la variabile di uscita tra 0 e 1. Supponiamo che dobbiamo creare un modello di apprendimento automatico, ogni punto dati variabile indipendente sarà x1 * w1 + x2 * w2 ... e così via, e questo darà un valore compreso tra 0 e 1 quando è passato attraverso la funzione di attivazione se usiamo 0.50 come valore o soglia decisiva. Quindi, qualsiasi risultato maggiore di 0.5 è considerato un 1 e qualsiasi risultato inferiore a quello è considerato 0. La funzione di attivazione sigmoideo è rappresentata come:
Dal grafico possiamo vedere che la variabile di output è limitata tra 0 e 1.
In scenari di più di due classi, ne usiamo una vs. Tutto l'approccio di classificazione. Dividere il set di dati multi-classe in più problemi di classificazione binaria è ciò che si è vs. Il riposo è tutto.
Ad ogni problema di classificazione binaria, viene addestrato un classificatore binario e le previsioni vengono fatte utilizzando il modello con la massima fiducia.
Implementazione della regressione logistica
Di seguito è riportato la sceneggiatura di Scikit-Learn Documentazione ufficiale per classificare il fiore dell'iride in base a varie caratteristiche.
>>> da Sklearn.set di dati Importa load_irisConclusione
Abbiamo esaminato l'introduzione della regressione logistica e lineare, abbiamo discusso della matematica sottostante coinvolta e abbiamo attraversato la parte di implementazione di ciascuno di essi. Possiamo concludere che la regressione lineare aiuta a prevedere variabili continue mentre la regressione logistica viene utilizzata nel caso di variabili target discrete. La regressione logistica lo fa applicando la funzione di attivazione del sigmoide sull'equazione di regressione lineare.