I panda rimuovono gli outlier

I panda rimuovono gli outlier
Possiamo utilizzare la libreria "Panda" per svolgere alcune attività matematiche sui dati in modo gestibile. Questo toolkit open source viene utilizzato per la manipolazione e l'analisi dei dati per l'estrazione di informazioni richieste dai dati specificati. Quando discutiamo dei "valori anomali" in "panda", possiamo dire che un elemento di dati o un oggetto che differisce considerevolmente dagli altri elementi viene definito "outlier". Gli errori nella misurazione o nell'implementazione possono essere il motivo. Il mining outlier è la tecnica utilizzata per la scoperta del outlier. Esistono numerosi metodi per la ricerca di valori anomali e la procedura di pulizia è la stessa per la cornice dei dati del panda in quanto lo è per il frame di dati del panda stesso. Dobbiamo rimuovere i "valori anomali" nel set di dati "panda" perché quando rimuoviamo questi valori anomali, aiuterà spesso il nostro modello a generalizzare in modo più efficace. Rimuoveremo i valori anomali nel frame dati "Panda" e nelle serie in questo articolo utilizzando il metodo "Panda".

Metodi per rimuovere i valori anomali in "Panda"

Possiamo utilizzare due metodi in "Panda" per rimuovere i valori anomali in "Panda". Questi sono:

  • Metodo della gamma interquartile
  • Metodo del punteggio Z

Questi metodi verranno utilizzati per rimuovere i "valori anomali" dalla serie "panda" e "panda". In questo articolo, illustreremo anche esempi di come utilizziamo queste tecniche nei codici "panda".

Esempio # 01:

Stiamo usando lo strumento "Spyder" per eseguire i codici "panda" presentati in questo articolo. Dato che genereremo il codice "panda", dobbiamo "importare" i suoi moduli. Per importare i moduli dei "panda", stiamo aggiungendo "importazione" che è la parola chiave e quindi mettiamo "panda come PD". Aiuterà a ottenere i metodi "Panda" se digitiamo il "PD" con il nome della funzione che vogliamo utilizzare. Quindi, abbiamo importato il "numpy" che è anche la biblioteca. Lo imporiamo come "NP" in modo che possiamo anche ottenere i suoi metodi con il nome della funzione "numpy" che vogliamo usare.

Dopo questo, abbiamo dichiarato la "dimensione" che è il nome variabile e questa variabile viene inizializzata con il valore che è "15". Ora, dopo aver inizializzato la "dimensione", stiamo anche dichiarando un'altra variabile denominata "dati" al di sotto di questo. Questo "dati" viene quindi inizializzato con il "PD.Serie () "Metodo. Mentre abbiamo digitato "PD, otteniamo il metodo di" Panda ". In questo "PD.Metodo serie () ", abbiamo messo il" NP.casuale.Metodo normale () "e questo è il metodo della libreria" numpy "perché abbiamo aggiunto" NP "con esso. Questo metodo ci aiuta a creare i dati normalmente distribuiti. Questi dati sono creati sotto forma della serie "Panda".

Passiamo il parametro "dimensione" in esso e assegniamo la "dimensione" variabile che abbiamo creato per questo parametro "dimensione". Quindi, genererà una serie casuale di "panda" con le dimensioni di "15" ed è unidimensionale. La variabile "dati" in cui viene memorizzata la serie casuale viene quindi passata alla funzione "print ()", quindi aiuta a stampare quella serie casuale sul terminale.

Ora, possiamo facilmente ottenere l'output dei codici nell'app "Spyder" in due modi. Uno di questi è colpire i tasti "Shift+Enter" e l'altro è utilizzare l'icona "Run" di questo strumento. Ora, dopo averlo fatto, abbiamo il risultato del codice sul terminale di questo strumento. Il risultato è anche mostrato in cui viene visualizzata la serie che è la serie casuale che abbiamo generato nel codice "Panda". Ora rimuoveremo i valori anomali da questa serie di seguito.

Qui, stiamo regolando i valori "quantile ()". Ci siamo adattati ".15 "come valore del primo quantile ed è anche il quantile più basso. Quindi, abbiamo regolato il ".Valore 85 "come valore del secondo quantile ed è il valore quantile più alto. Abbiamo aggiunto il nome della serie che è "dati". Nelle parentesi quadrate, posizioniamo di nuovo "dati" e quindi scriviamo il metodo "tra ()". All'interno di questo metodo, abbiamo aggiunto due parametri in cui il primo metodo è il quantile più basso e il secondo parametro è il quantile più alto.

Abbiamo anche aggiunto questo metodo nella variabile "data1", quindi quando eseguiamo questo codice, i valori dopo aver rimosso i valori anomali verranno archiviati nella variabile "data1". Ora rimuoverà tutti i valori anomali che giacciono nel più basso e nel più alto quantile. Quindi, abbiamo "stampa" in cui abbiamo aggiunto "data1".

I valori anomali vengono rimossi dalla serie che abbiamo generato sopra e vengono visualizzati solo nove valori. La serie che abbiamo creato sopra contiene 15 valori ma dopo aver rimosso i valori anomali ci sono nove valori.

Esempio # 02:

Stiamo anche importando le "statistiche" dalla libreria "Scipy" perché dobbiamo utilizzare questo metodo in questo codice. Stiamo creando un frame dati in cui abbiamo aggiunto solo una colonna che si chiama "dati". Abbiamo aggiunto "-2, 7, 15, 19, 34, 39, 50, 13, 19, 14, 87, 89 e 1456" a questa colonna "dati". Inoltre, abbiamo archiviato questo frame dati nel "MY_DF". Quindi, stampiamo semplicemente "my_df".

Il frame dati è reso in questo risultato. Ora applicheremo il metodo "Z-Score" a questo frame dati per la rimozione dei valori anomali.

Stiamo trovando lo "zscore" utilizzando le "statistiche" con esso che abbiamo importato sopra. Utilizziamo questo metodo solo quando importa le "statistiche". Abbiamo aggiunto la colonna "Z_SCORE" in cui stiamo memorizzando i valori "ZSCORE". Per trovare i valori "ZSCORE" della colonna "Data", abbiamo aggiunto il nome di dati e il nome della colonna in questo metodo. Quindi, rendiamo anche aggiunto anche "my_data" in cui viene aggiunta anche la colonna "Z_SCORE".

In questo risultato sono mostrate due colonne. La colonna "Data", che abbiamo aggiunto nel frame dati e l'altra è la colonna "Z_SCORE", contiene i valori "ZScore" che otteniamo applicando le statistiche.Metodo zScore () ". Qui, puoi notare che tutti i valori, che sono presenti nella colonna "Z_SCORE", sono negativi ma l'ultimo è il valore positivo. Quindi, significa che è il valore anomalo e dobbiamo rimuoverlo.

Secondo i criteri empirici, i valori anomali sono i valori del punteggio z che sono maggiori di 3. Quindi, abbiamo aggiunto il metodo "LOC" per filtrare quelle righe in cui il valore di "Z_SCORE" è inferiore a 3 o uguale a 3 e visualizza anche quelle righe nel risultato perché questo metodo è scritto all'interno della "stampa ( ) ". Tutti gli altri valori sono valori anomali e verranno rimossi da questo frame dati.

Qui, tutti i valori che sono meno di 3 compaiono. L'ultimo valore viene rimosso perché era maggiore di 3 ed era il valore anomalo in questo frame dati.

Conclusione

Questo articolo è presentato per descrivere in dettaglio il concetto di "rimuovere i panda". In questo articolo abbiamo discusso che i valori presenti in un set di dati ritenuto estremo, errati o non rappresentativi dell'oggetto del set di dati sono chiamati outlier. Abbiamo anche spiegato che questi valori anomali potrebbero essere il risultato di metodi imprecisi sulla raccolta dei dati o di risultati effettivi effettivi. Abbiamo discusso di due metodi per rimuovere questi outlier in "Panda". In questo articolo abbiamo rimosso i valori anomali nella serie "Pandas" e il telaio dati e abbiamo anche discusso in dettaglio entrambi i metodi.