Quando si lavora con i gesti di dati, è spesso necessario modificare un telaio di dati PANDAS per rimuovere le colonne irrilevanti o per ottimizzare i dati per la costruzione del modello. A volte, alcune colonne non saranno utili per la tua analisi. È necessario capire come rimuovere quelle colonne dal Frame Data Pandas fornito. Le colonne vengono scartate dai modelli di apprendimento automatico quando sono irrilevanti o non migliorano il modello.
Metodo Pandas drop ()
In Panda, la manipolazione delle colonne può verificarsi in vari modi. Ad esempio, utilizzando il "data frame.Metodo drop ", le colonne specificate possono essere eliminate. È il metodo più comunemente usato per rimuovere diverse colonne nei panda. Come suggerisce il nome, questo metodo è stato progettato per rendere semplice eliminare colonne o righe singole o più. In questo tutorial dettagliato, esplorerai come abbandonare colonne singole o più da un frame di dati Pandas utilizzando i loro nomi.
La sintassi per questa funzione è fornita di seguito:
Qui, "Column_name" è il nome della colonna che vogliamo cadere. IL "asse" Specifica quale asse dovrebbe essere rimosso. L'asse 1 rappresenta le colonne, mentre l'asse 0 rappresenta le righe. IL "a posto" indica che l'operazione di caduta dovrebbe verificarsi nello stesso frame dati anziché generare una copia del frame dati dopo la caduta.
Imparerai a utilizzare questo metodo per far cadere le colonne per nome in questo tutorial.
Esempio n. 1: utilizzo di Pandas “DataFrame.Drop () "Metodo per rilasciare una singola colonna per nome
In questo esempio, eseguiremo un'implementazione pratica di questo metodo per eliminare una singola colonna per nome dal frame dati.
Per iniziare a scrivere lo script Python per l'esecuzione di questo esempio, dobbiamo avere un assemblatore pertinente su cui possiamo assemblare il codice. Abbiamo una varietà di scelte, ma quella che abbiamo scelto è lo strumento "Spyder". Devi aprire il "Spyder-ide.Sito Web Org "e scarica lo strumento" Spyder "secondo i requisiti del sistema operativo. Abbiamo utilizzato il sistema operativo Windows, quindi abbiamo scaricato la corrispondente configurazione "Spyder". Quindi, l'abbiamo semplicemente installato e una volta completato il processo di installazione, troveremo un'interfaccia utente dello strumento. Abbiamo aperto un nuovo file facendo clic sull'opzione "Nuovo file", oppure è possibile premere anche "Ctrl+N" per aprire la nuova directory.
Ora, dobbiamo caricare le librerie prerequisiti richieste per lo script. La libreria necessaria per l'esecuzione di questo metodo è il "panda".
Abbiamo utilizzato il "PD.Metodo DataFrame () ", fornito dalla libreria Pandas. Come abbiamo già detto, "PD" è un alias per i panda, mentre il "Frame di dati" è la parola chiave per generare il frame dati. Quindi, abbiamo utilizzato questo metodo per costruire il nostro frame di dati di base. Questo frame dati ha tre colonne "impianto", "prezzo" e "disponibilità". La colonna "Plant" contiene i nomi di diverse piante, che sono "Morina", "Oleander", "Acacia", "Olive", "Hopbush" e "Mango". La colonna "Price" memorizza i prezzi per le piante, che sono "500", "700", "1300", "600", "800" e "1150". L'ultima colonna, "Disponibilità", dice se l'impianto è attualmente disponibile o non come "Y", "N", "Y", "Y", "N" e "Y". Qui, "y" rappresenta "sì" e "n" rappresenta "no". La lunghezza dei valori in ciascuna colonna del telaio di dati deve essere mantenuta la stessa, che è sei in questa istanza. Ora abbiamo bisogno di un oggetto Frame Data per mantenere il contenuto su questo frame dati. Quindi, abbiamo creato un oggetto DataFrame "Forest" e gli abbiamo dato il risultato generato dal chiamare il "PD.Metodo DataFrame () ". Possiamo ottenere il frame dati utilizzando l'oggetto "foresta". Ora, per visualizzare questo frame dati appena creato, abbiamo un metodo Python per visualizzare l'output, che è "Print ()". Abbiamo invocato il metodo "print ()" e abbiamo aggiunto il nome del frame dati tra le sue parentesi.
Per eseguire questo script Python Pandas, dobbiamo premere l'opzione "Esegui file". In alternativa, è possibile colpire le chiavi "Shift+Enter" per eseguire il programma. Qui, possiamo vedere il telaio di dati che abbiamo appena creato con tre colonne e sei righe visualizzate sulla console dello strumento Spyder.
Il nostro frame dati è stato costruito e ora possiamo eseguire le operazioni richieste su di esso. Verrà eseguita l'attività principale, che è quella di rilasciare una singola colonna per nome utilizzando i Panda “DataFrame.Drop () "Metodo. Innanzitutto, dobbiamo scrivere il nome del nostro telaio di dati, che è "foresta" quindi ".la funzione drop () "è invocata con essa. Stiamo usando il metodo "Drop ()" con tre parametri qui "Column_name", "Axis" e "Inplace". Il nome della colonna che abbiamo fornito che vogliamo eliminare è la colonna "Prezzo". L '"asse" è impostato su "1", il che indica che la caduta viene eseguita in termini di colonna.
E l'ultimo parametro, "Inplace", implica che qualsiasi manipolazione che facciamo apparirà nel frame dati effettivo e nessuna copia del frame dati verrà generata. La colonna che rilasciamo verrà eliminata direttamente dal frame dati originale. Infine, abbiamo usato il metodo "Print ()" per visualizzare il telaio dati aggiornato originale dopo aver lasciato cadere una colonna da esso.
Lo snippet di codice precedente, quando viene eseguito in Python, ci fornisce la modifica originale di alcune modifiche. Possiamo osservare che questo frame dati ha solo due colonne mentre quella iniziale aveva tre colonne. Per questo motivo, la colonna "Prezzo" è stata omessa dal frame dati.
Esempio n. 2: utilizzo di Pandas “DataFrame.Drop () "Metodo per rilasciare più colonne per nome
Abbiamo elaborato la tecnica per eliminare una singola colonna per nome utilizzando i Pandas “DataFrame.Drop () "Metodo. Ora esploreremo la caduta di più colonne con la stessa tecnica.
Per questo esempio, abbiamo utilizzato il frame dati costruito nell'istanza precedente. Come ti abbiamo mostrato, il telaio di dati "foresta" ha tre colonne "pianta", "prezzo" e "disponibilità". Dopo aver stampato il telaio dati abbiamo applicato il "data frame.Drop () "funzione. Abbiamo menzionato il nome del telaio di dati "foresta" con ".Drop () "Metodo.
Il titolo di questa illustrazione dice che stiamo lasciando cadere più di una colonna qui. Le colonne che abbiamo scelto da DataFrame da rilasciare sono "Price" e "Disponibilità". Tra le parentesi della "foresta.Funzione Drop () ", abbiamo fornito l'elenco delle colonne, impostare" Asse "su" 1 "per le colonne e" Inplace "è impostato" True "per rappresentare le modifiche nel frame dati originale. Infine, abbiamo chiamato il metodo "Print ()" per visualizzare il risultato.
Nell'immagine di output, è possibile vedere che il frame dati è ora mostrato con una sola colonna perché il resto delle due colonne è stato abbandonato.
Conclusione
Lasciare cadere una colonna usando il suo nome è una strategia molto utile ed efficace in Python Panda. Rende l'analisi dei dati molto più semplice e gratuita. Questo articolo ti aiuterà a comprendere questo concetto e ti fornirà i migliori approcci per raggiungere il risultato desiderato. In questo documento, abbiamo spiegato e implementato la tecnica di eliminare una singola colonna per nome e far cadere più colonne per nome. Abbiamo eseguito l'esempio del codice Python nello strumento "Spyder". Imparare a utilizzare i Pandas “DataFrame.Drop () "Il metodo sarebbe utile e utile per i tuoi progetti di analisi dei dati.