Come abbandonare le righe duplicate in Pandas Python

Come abbandonare le righe duplicate in Pandas Python
Python è uno dei linguaggi di programmazione più popolari per l'analisi dei dati e supporta anche vari pacchetti incentrati sui dati Python. I pacchetti Pandas sono alcuni dei pacchetti Python più popolari e possono essere importati per l'analisi dei dati. In quasi tutti i set di dati, spesso esistono righe duplicate, che possono causare problemi durante l'analisi dei dati o il funzionamento aritmetico. L'approccio migliore per l'analisi dei dati è identificare eventuali righe duplicate e rimuoverle dal set di dati. Utilizzando la funzione Pandas drop_duplicates (), è possibile eliminare facilmente o rimuovere i record duplicati da un frame di dati.
Questo articolo mostra come trovare duplicati nei dati e rimuovere i duplicati utilizzando le funzioni Panda Python.

In questo articolo, abbiamo preso un set di dati della popolazione di diversi stati negli Stati Uniti, che è disponibile in a .Formato file CSV. Leggeremo il .File CSV per mostrare il contenuto originale di questo file, come segue:

Importa panda come PD
df_state = pd.read_csv ("C:/Users/Dell/Desktop/Population_DS.CSV ")
Stampa (DF_STATE)

Nella seguente screenshot, puoi vedere il contenuto duplicato di questo file:

Identificazione dei duplicati in Pandas Python

È necessario determinare se i dati che si utilizzano hanno righe duplicate. Per verificare la duplicazione dei dati, è possibile utilizzare uno qualsiasi dei metodi trattati nelle seguenti sezioni.

Metodo 1:

Leggi il file CSV e trasmettelo nel frame di dati. Quindi, identifica le righe duplicate usando il duplicato () funzione. Infine, utilizzare l'istruzione di stampa per visualizzare le righe duplicate.

Importa panda come PD
df_state = pd.read_csv ("C:/Users/Dell/Desktop/Population_DS.CSV ")
Dup_rows = df_state [df_state.duplicato ()]
print ("\ n \ nduplicato ROWS: \ n ".formato (dup_rows))

Metodo 2:

Usando questo metodo, il è_duplicato La colonna verrà aggiunta alla fine della tabella e contrassegnata come "vera" nel caso di righe duplicate.

Importa panda come PD
df_state = pd.read_csv ("C:/Users/Dell/Desktop/Population_DS.CSV ")
df_state ["is_duplicate"] = df_state.duplicato ()
print ("\ n ".formato (df_state))

Duplicati che lascia cadere in Pandas Python

Le righe duplicate possono essere rimosse dalla cornice di dati utilizzando la seguente sintassi:
Drop_Duplicates (Subset = ", Keep =", Inplace = False)
I tre parametri precedenti sono opzionali e sono spiegati in modo più dettagliato di seguito:
Mantenere: Questo parametro ha tre valori diversi: primo, ultimo e falso. Il primo valore mantiene la prima occorrenza e rimuove i duplicati successivi, l'ultimo valore mantiene solo l'ultima occorrenza e rimuove tutti i duplicati precedenti e il valore falso rimuove tutte le righe duplicate.
sottoinsieme: Etichetta utilizzata per identificare le righe duplicate
a posto: contiene due condizioni: vero e falso. Questo parametro rimuoverà le righe duplicate se è impostato su True.

Rimuovere i duplicati mantenendo solo il primo occorrenza

Quando usi "Keep = First", verrà mantenuto solo la prima fila e tutti gli altri duplicati verranno rimossi.

Esempio

In questo esempio, verrà mantenuta solo la prima riga e i restanti duplicati verranno eliminati:

Importa panda come PD
df_state = pd.read_csv ("C:/Users/Dell/Desktop/Population_DS.CSV ")
Dup_rows = df_state [df_state.duplicato ()]
print ("\ n \ nduplicato ROWS: \ n ".formato (dup_rows))
DF_RM_DUP = DF_STATE.Drop_Duplicates (Keep = 'First')
print ('\ n \ nResult DataFrame dopo la rimozione duplicata: \ n', df_rm_dup.testa (n = 5))

Nella seguente screenshot, il verificarsi della prima riga mantenuta viene evidenziato in rosso e le duplicazioni rimanenti vengono rimosse:

Rimuovere i duplicati mantenendo solo l'ultima occorrenza

Quando usi "Keep = Last", tutte le righe duplicate tranne l'ultima occorrenza verranno rimosse.

Esempio

Nell'esempio seguente, tutte le righe duplicate vengono rimosse tranne solo l'ultima occorrenza.

Importa panda come PD
df_state = pd.read_csv ("C:/Users/Dell/Desktop/Population_DS.CSV ")
Dup_rows = df_state [df_state.duplicato ()]
print ("\ n \ nduplicato ROWS: \ n ".formato (dup_rows))
DF_RM_DUP = DF_STATE.Drop_Duplicates (Keep = 'Last')
print ('\ n \ nResult DataFrame dopo la rimozione duplicata: \ n', df_rm_dup.testa (n = 5))

Nella seguente immagine, i duplicati vengono rimossi e viene mantenuta solo l'ultima riga:

Rimuovi tutte le righe duplicate

Per rimuovere tutte le righe duplicate da una tabella, impostare "Keep = False", come segue:

Importa panda come PD
df_state = pd.read_csv ("C:/Users/Dell/Desktop/Population_DS.CSV ")
Dup_rows = df_state [df_state.duplicato ()]
print ("\ n \ nduplicato ROWS: \ n ".formato (dup_rows))
DF_RM_DUP = DF_STATE.drop_duplicates (Keep = false)
print ('\ n \ nResult DataFrame dopo la rimozione duplicata: \ n', df_rm_dup.testa (n = 5))

Come puoi vedere nella seguente immagine, tutti i duplicati vengono rimossi dalla cornice dei dati:

Rimuovere i duplicati correlati da una colonna specificata

Per impostazione predefinita, la funzione controlla tutte le righe duplicate da tutte le colonne nel frame di dati indicato. Ma puoi anche specificare il nome della colonna utilizzando il parametro del sottoinsieme.

Esempio

Nell'esempio seguente, tutti i duplicati correlati vengono rimossi dalla colonna "stati".

Importa panda come PD
df_state = pd.read_csv ("C:/Users/Dell/Desktop/Population_DS.CSV ")
Dup_rows = df_state [df_state.duplicato ()]
print ("\ n \ nduplicato ROWS: \ n ".formato (dup_rows))
DF_RM_DUP = DF_STATE.drop_duplicates (sottoinsieme = 'stato')
print ('\ n \ nResult DataFrame dopo la rimozione duplicata: \ n', df_rm_dup.testa (n = 6))

Conclusione

Questo articolo ha mostrato come rimuovere le righe duplicate da un frame di dati utilizzando il drop_duplicates () Funzione in Pandas Python. Puoi anche cancellare i tuoi dati di duplicazione o ridondanza usando questa funzione. L'articolo ti ha anche mostrato come identificare eventuali duplicati nel frame di dati.