INDICE DUPLICATO DROP PANDAS

INDICE DUPLICATO DROP PANDAS
Pandas ha un metodo chiamato "indice.drop_duplicates () "che ci consente di far cadere gli indici duplicati dall'elenco delle etichette degli indici. L'indice.La funzione Drop_Duplicates () ”in Panda restituisce un indice con le voci duplicate scartate. La funzione fornisce all'utente la libertà di selezionare quale valore duplicato dovrebbe essere mantenuto. Abbiamo due opzioni: rimuovere le prime e ultime voci duplicate dall'elenco o rimuovere tutti i dati duplicati dall'elenco.

Se si desidera utilizzare questa funzione, è necessario seguire la seguente sintassi:

Sintassi:

panda.Indice.Drop_Duplicates (Keep = 'First')

Parametro:
IL "Mantenere"Il parametro viene utilizzato per regolare come gestire i valori duplicati. "Keep" è necessario. Per impostazione predefinita, il valore è "primo".

  1. Quando il valore è "Primo"Il programma tratta il primo elemento come distinto e gli altri valori identici come duplicati. Questo, ad eccezione della prima istanza, elimina i duplicati.
  2. Se il valore è impostato su “scorso", Tratta l'ultima voce come unica e gli altri valori identici come duplicati. Elimina quindi tutti i duplicati tranne l'ultima presenza di quel valore.
  3. Se il parametro "Keep" ha il "Falso"Valore, tutti i valori identici sono trattati come duplicati. Fa cadere tutti i valori duplicati dall'elenco.

Esempio 1: senza parametri
In questo esempio, abbiamo un indice chiamato "INDICE1" che contiene 10 numeri interi. Rimuoviamo i duplicati senza passare alcun parametro alla funzione Drop_Duplicates ().

Panda di importazione
# Crea indice Pandas che contiene 10 valori
INDICE1 = PANDAS.Indice ([45,67,45,89,45,89,12,34,67,89])
Stampa ("Indice effettivo:", indice1)
Stampa ("Indice univoco:", INDICE1.drop_duplicates ())

Produzione:

Spiegazione:
Gli indici unici vengono restituiti rimuovendo i duplicati.

Esempio 2: con Keep come falso
Abbiamo un indice che contiene 5 stringhe con duplicati. Ora, imposta il parametro "Keep" su False.

Panda di importazione
# Crea indice Pandas che contiene 5 stringhe
INDICE1 = PANDAS.Indice (['i1', 'i1', 'i4', 'i5', 'i4'])
Stampa ("Indice effettivo:", indice1)
Stampa ("Indice univoco:", INDICE1.drop_duplicates (Keep = false))

Produzione:

Spiegazione:
C'è solo un indice unico - "i5". Viene restituito rimuovendo tutti i duplicati.

Esempio 3: con Keep come primo
Facciamo "index1" con 10 valori e "index2" con 5 stringhe. Imposta "Keep" su "First" per far cadere i duplicati senza rimuovere la prima occorrenza.

Panda di importazione
# Crea indice Pandas che contiene 10 valori
INDICE1 = PANDAS.Indice ([45,67,45,89,45,89,12,34,67,89])
print ("indice effettivo 1:", indice1)
# Rilascia duplicati senza rimuovere il primo occorrenza
Stampa ("Indice univoco 1:", indice1.drop_duplicates (Keep = 'First'))
# Crea indice Pandas che contiene 5 stringhe
indice2 = panda.Indice (['i1', 'i1', 'i4', 'i5', 'i4'])
Stampa ("Indice effettivo 2:", indice2)
# Rilascia duplicati senza rimuovere il primo occorrenza
Stampa ("Indice univoco 2:", Index2.drop_duplicates (Keep = 'First'))

Produzione:

Spiegazione:

  1. In "Index1", [45, 67, 89, 12, 34] sono la prima occorrenza di valori univoci.
  2. In "Index2", ['i1', 'i4', 'i5'] sono la prima occorrenza di valori unici.

Esempio 4: con Keep come l'ultimo
Facciamo "index1" con 10 valori e "index2" con 5 stringhe. Imposta "Keep" su "First" per far cadere i duplicati senza rimuovere la prima occorrenza.

Panda di importazione
# Crea indice Pandas che contiene 10 valori
INDICE1 = PANDAS.Indice ([45,67,45,89,45,89,12,34,67,89])
print ("indice effettivo 1:", indice1)
# Dar cadere i duplicati senza rimuovere l'ultima occorrenza
Stampa ("Indice univoco 1:", indice1.drop_duplicates (Keep = 'Last'))
# Crea indice Pandas che contiene 5 stringhe
indice2 = panda.Indice (['i1', 'i1', 'i4', 'i5', 'i4'])
Stampa ("Indice effettivo 2:", indice2)
# Dar cadere i duplicati senza rimuovere l'ultima occorrenza
Stampa ("Indice univoco 2:", Index2.drop_duplicates (Keep = 'Last'))

Produzione:

Spiegazione:

  1. In "Index1", [45, 12, 34, 67, 89] sono l'ultima occorrenza di valori univoci.
  2. In "Index2", ['i1', 'i5', 'i4'] sono l'ultima occorrenza di valori unici.

Conclusione

Questo tutorial si basa sul concetto di far cadere gli indici duplicati usando il modulo Pandas. Abbiamo utilizzato l'indice ".Metodo Drop_Duplicates () ". Abbiamo fornito la sintassi per l'utilizzo di questo metodo e abbiamo anche descritto i suoi parametri. Questo metodo ci fornisce tre scelte per gestire i valori duplicati. Ogni passo in questo articolo viene spiegato in modo molto chiaro e semplice.