Cos'è la regressione lineare?
Nella scienza dei dati, la regressione lineare è un modello di apprendimento automatico supervisionato che tenta di modellare una relazione lineare tra variabili dipendenti (y) e variabili indipendenti (x). Ogni osservazione valutata con un modello, il valore effettivo di Target (Y) viene confrontato con il valore previsto del target (Y) e le principali differenze in questi valori sono chiamate residui. Il modello di regressione lineare mira a ridurre al minimo la somma di tutti i residui quadrati. Ecco la rappresentazione matematica della regressione lineare:
Y = a0+UN1X+ ε
Nell'equazione sopra:
Y = Variabile dipendente
X = Variabile indipendente
UN0 = Intercetta della linea che offre ulteriore DOF o grado di libertà.
UN1 = Coefficiente di regressione lineare, che è un fattore di scala per ogni valore di input.
ε = Errore casuale
Ricorda che i valori delle variabili X e Y sono set di dati di addestramento per la rappresentazione del modello della regressione lineare.
Quando un utente implementa una regressione lineare, gli algoritmi iniziano a trovare la linea di adattamento migliore utilizzando UN0 E UN1. In questo modo, diventa più accurato per i punti dati effettivi; Dal momento che riconosciamo il valore di UN0 E UN1, Possiamo usare un modello per prevedere la risposta.
Regressione lineare semplice
Questo tipo di regressione lineare funziona utilizzando la tradizionale forma di intercettazione di pendenza in cui A e B sono due coefficienti elaborati "apprendono" e trovano le previsioni accurate. Nell'equazione seguente, X sta per i dati di input e Y sta per la previsione.
Y = bx + a
Regressione multivariabile
Una regressione multivariabile è un po 'più complessa rispetto ad altre procedure. Nell'equazione seguente, 𝒘 sta per i pesi o il coefficiente che richiede di essere elaborato. Tutte le variabili 𝑥1, 𝑥2, e 𝑥3 Attributi di informazione delle osservazioni.
Previsione dei prezzi della casa mediante regressione lineare
Ora consideriamo ogni passo per la previsione del prezzo della casa usando la regressione lineare. Prendi in considerazione una società di immobili con set di dati contenenti i prezzi della proprietà di una regione specifica. Il prezzo di una proprietà si basa su fattori essenziali come camere da letto, aree e parcheggio. Principalmente, una società immobiliare richiede:
Di seguito è riportato il codice per impostare l'ambiente e stiamo usando Scikit-Learn per prevedere il prezzo della casa:
Importa panda come PDSuccessivamente, leggi i dati sui prezzi della casa:
case = pd.read_csv ("kc_house_data.CSV ")Ecco la tabella con i dettagli completi (set di dati) di diverse case:
Ora eseguiremo la pulizia dei dati e l'analisi esplorativa utilizzando il codice seguente:
#Check per nulls nei datiSecondo il set di dati, non sono disponibili null:
Fuori [3]: id 0Dopodiché, costruiamo un modello di regressione lineare. Preparare i dati che definiranno la variabile predittore e di risposta:
# Crea x e yPossiamo dividere i dati nel treno e nel test; La divisione del treno o del test presenta due sottoinsiemi creati in modo casuale dei nostri dati. Questi dati di test/treno vengono utilizzati per adattarsi all'algoritmo di apprendimento in modo che possano imparare a prevedere. Il set di test che abbiamo usato per ottenere un'idea di lavorare con nuovi dati.
# Dividi i dati in treno e testDopodiché, inserisci il modello sul set di allenamento.
# istanzia, in formaUna volta adattato al modello, dobbiamo stampare tutti i coefficienti.
Stampa Linreg.intercettare_Il valore di y sarà uguale a a0 quando il valore di x = 0; In questo caso, sarà il prezzo della casa quando lo sqft_living è zero. Il a1 Il coefficiente è la modifica nella y divisa cambiando il valore in x. L'incremento di un contatore mq nella dimensione della casa è associato all'incremento del prezzo di 282 dollari.
Ora possiamo prevedere il prezzo della casa vivente da 1000 piedi quadrati usando il seguente modello:
# manualmenteUna volta che abbiamo fatto con la procedura di cui sopra, calcola un errore medio quadro RMSE o radice, è la metrica più comunemente usata per valutare il modello di regressione su un set di test:
MSE = Mean_Squared_error (y_test, Linreg.prevedere (x_test))Così come puoi vederlo, abbiamo ottenuto un errore medio quadrato di 259163.48 Dopo aver previsto i prezzi della casa. Stiamo usando una singola funzionalità nel modello sopra; Il risultato era previsto. Tuttavia, puoi migliorare il modello aggiungendo più funzionalità.
Conclusione
Speriamo che la nostra guida dettagliata sulla previsione dei prezzi della casa usando la regressione lineare sia stata utile per te. Come abbiamo accennato in precedenza, esiste una regressione lineare multipla come la regressione semplice e la regressione multivariabile. Principalmente abbiamo usato una semplice regressione per prevedere facilmente il prezzo della casa. Tuttavia, è possibile utilizzare la regressione multivariabile per prevedere i risultati in modo più accurato utilizzando variabili diverse. A parte questo, abbiamo utilizzato un set di dati completo che ha informazioni accurate riguardanti le case. Principalmente, tutti i codici e le librerie di cui sopra non sono unici in quanto esiste una procedura specifica per eseguire la procedura di previsione della casa mediante regressione lineare.