Regressione logistica Sklearn

Regressione logistica Sklearn

Python è un moderno linguaggio di programmazione orientato agli oggetti di alto livello progettato per aiutare i programmatori a creare e scrivere codici facili da capire e semplici. È un linguaggio di programmazione di alto livello semplice e facile, migliore e facile da capire per i principianti. Le sue strutture di dati di alto livello integrate, insieme a digitazione e legame dinamiche, lo rendono una scelta eccellente per lo sviluppo rapido dell'applicazione. La sua semplice sintassi lo rende più leggibile, il che alla fine riduce il costo di mantenimento del programma. Supporta vari pacchetti e moduli che enfatizzano il riutilizzo del codice e il miglioramento della modularità del programma. La sua vasta biblioteca standard e diversi interpreti sono disponibili gratuitamente e online. La capacità di Python di una maggiore produttività fa innamorare i programmatori della lingua.

Inoltre, il ciclo di modifica, test e debug è incredibilmente veloce in quanto non vi è alcuna fase di complicazione. Python rende i principi di apprendimento automatico semplici da imparare e comprendere. Dà una vista a volo d'uccello su come passare attraverso un piccolo o grande progetto di apprendimento automatico. Questo articolo riguarda ciò che è una regressione logistica e i suoi classificatori. Cominciamo con i fondamenti della regressione logistica.

Definizione di regressione logistica

La regressione logistica è un algoritmo di classificazione. Un algoritmo di analisi di regressione appropriata dalla fraternità dell'apprendimento automatico descrive i dati. Spiega la relazione tra più variabili, io.e., Livello di rapporto o intervallo variabile indipendente, variabile binaria dipendente dall'ordinale o nominale. La regressione logistica viene generalmente utilizzata nei modelli statistici per comprendere i dati e la relazione tra variabili dipendenti e indipendenti prevedendo le probabilità di variabili dipendenti categoriali. Man mano che il numero di dati aumenta rapidamente, la forza della potenza di calcolo e del miglioramento dell'algoritmo sta aumentando, migliorando l'importanza dell'apprendimento automatico e della scienza dei dati. Attraverso l'apprendimento automatico, la classificazione è diventata l'area essenziale e uno dei suoi metodi di base è la regressione logistica. Entro la fine di questo articolo, sarai in grado di implementare la regressione logistica su vari tipi di dati. Cominciamo ad applicare classi, funzioni e pacchetti appropriati per eseguire la regressione logistica in Python. Uno dei pacchetti di Python comuni per la regressione logistica è Sklearn. Qui, ti mostreremo un esempio pratico passo-passo di regressione logistica Sklearn in Python per aiutarti a capire come implementare la regressione logistica Sklearn in Python.

Passaggi per implementare la regressione logistica Sklearn in Python

Passaggio 1: raccogliere i dati

Per iniziare con un piccolo o grande progetto, la prima cosa di cui hai bisogno sono i dati su cui costruirai un modello di regressione logistica. Ecco il comando per preparare il modello per il set di dati.

Passaggio 2: importare i pacchetti necessari di Python

Una volta installato DataPrep, il passaggio successivo è importare i pacchetti necessari per implementare la regressione logistica. Qui, stiamo imparando a conoscere il pacchetto Sklearn, che è sostanzialmente utilizzato per costruire il modello di regressione logistica in Python. È necessario installare i seguenti pacchetti:

Importa panda come PD
Importa Numpy come NP
Importa matplotlib
Importa matplotlib.Pyplot come Plt
Importa Seaborn come SNS
da Sklearn.Preprocessing di importazione etichettatore
da Sklearn.Metriche Importa Confusion_Matrix
da Sklearn.Metrics Importa make_scorer, Accuracy_score, Precision_score, Recome_score, F1_Score, Confusion_Matrix, Classification_Report
da Sklearn.LINEAR_MODEL Importa LogisticRegression
da Sklearn.Model_Selection Import Train_Test_Split
Dalle metriche di importazione di Sklearn
da Sklearn.Metrics Import Accuracy_score
da imblearn.over_sampling import smote

Passaggio 3: caricare i dati per creare un frame dati

Il prossimo passo è catturare il set di dati, per il quale è necessario utilizzare il seguente comando:

df = pd.read_csv ("/content/drive/mydrive/covid set di dati.CSV ")

In questo modo, è possibile importare i dati da un file esterno; Tuttavia, in alternativa, è possibile definire il set di dati sotto forma di un array.

Passaggio 4: creazione della regressione logistica dopo aver caricato i dati

Il prossimo passo è sviluppare la regressione logistica in Python dopo che i dati sono stati inseriti in un'applicazione Python. In questo passaggio, è necessario impostare le variabili dipendenti e indipendenti. Ecco come è possibile impostare la variabile:

X = df.Drop ('covid-19', axis = 1)
y = df ['covid-19']

La variabile "x" rappresenta la variabile indipendente e la variabile "y" rappresenta la variabile dipendente. Ora applica la funzione train_text_split per impostare la dimensione del test e dell'allenamento del set di dati.

X_train, x_test, y_train, y_test = train_test_split (x, y, test_size = 0.20)

Passaggio 5: applicare la regressione logistica

Ora applica la regressione logistica seguendo il comando indicato di seguito:

modello = logisticRegression ()
# Adattarsi al modello
modello.fit (x_train, y_train)
y_pred = modello.prevedere (x_test)
Acc_logreg = modello.Punteggio (x_test, y_test)*100

Passaggio 6: trama la matrice di confusione

L'ultima parte è tracciare la matrice di confusione che mostra l'accuratezza in forma vera positiva e falsa positiva.

confusion_mtx = confusion_matrix (y_test, y_pred)
# Traccia la matrice di confusione
# Traccia la matrice di confusione
f, ax = plt.sottotrame (figsize = (8, 8))
SNS.HeatMap (Confusion_mtx, annot = true, Linewidths = 0.01, cmap = "Greens", linecolor = "grigio", fmt = '.1f ', ax = ax)
Plt.XLabel ("Etichetta prevista")
Plt.Ylabel ("True Etichetta")
Plt.Titolo ("Matrix di confusione")
Plt.spettacolo()

Per stampare l'accuratezza o, in altre parole, il rapporto di classificazione, utilizzare il seguente comando:

Print (Classification_Report (y_test, y_pred))

Una volta eseguiti tutti i comandi, otterrai una matrice di confusione e un rapporto di classificazione. Dai un'occhiata all'output di seguito.

Matrix di confusione:

Vero positivo (TP), falso negativo (fn), vero negativo (TN) e falso positivo (FP) sono i quattro valori fondamentali nella matrice di confusione.

Rapporto di classificazione:

Il rapporto di classificazione fornisce l'accuratezza del modello addestrato, che può essere raggiunto utilizzando la formula:

Precisione = (tp + tn) / totale

Conclusione:

Questo articolo ci ha insegnato la regressione logistica e la biblioteca Sklearn a Python. I dati vengono spiegati e il collegamento tra le variabili dipendenti e indipendenti viene descritto usando la regressione logistica. La libreria Sklearn in Python è principalmente utilizzata nei dati statistici in cui è necessario conoscere la previsione o la probabilità.