Rimuovere i duplicati in r

Rimuovere i duplicati in r
“Uno dei compiti più difficili per uno scienziato dei dati è la pulizia dei dati. Eliminiamo spesso i duplicati in base a condizioni particolari, come i valori della colonna, per esaminare accuratamente il set di dati. In questo articolo, esamineremo come eliminare la duplicazione dei dati in base ai valori di riga o colonna e sui vari metodi per farlo. I valori duplicati potrebbero esistere in un set di dati e le righe duplicate devono essere riconosciute ed eliminate per preservarlo senza ridondanza e accurata. Verificheremo se il nostro set di dati conteneva dati duplicati e in tal caso, li elimineremo."

Come rimuovere i duplicati nella R in Ubuntu 20.04?

Scoprirai come rimuovere la duplicazione da una cornice di dati in questo tutorial R. Capirai come sbarazzarsi prima delle righe duplicate, quindi colonne. Vedremo come utilizzare la base R e DPLER per eliminare le voci duplicate dalla cornice dei dati.

Esempio n. 1: riconoscere i dati duplicati in R in Ubuntu 20.04

Utilizzeremo la funzione duplicata () per identificare le righe duplicate, che restituisce un valore numerico delle righe duplicate totali.

Qui, abbiamo mostrato i dati registrati, che contiene i nomi delle colonne come inglese, scienza e matematica. Inoltre, abbiamo varie righe duplicate all'interno di questi dati. Quindi, abbiamo una funzione duplicata a cui abbiamo superato la variabile del risultato come argomento. Una volta eseguiti il ​​comando di questa funzione duplicata, vengono generati i valori booleani. Mostra tutti i valori falsi in quanto non è presente alcuna ridondanza nel frame di dati.

Esempio n. 2: rimuovere i dati duplicati utilizzando il metodo unico in R in Ubuntu 20.04

Per ottenere elementi unici dai dati specificati, utilizzare la funzione unica () in R.

Qui, abbiamo un frame di dati che contiene il nome del campo, l'ID e lo stipendio del dipendente ed è archiviato all'interno della variabile EMP_DATA. Viene quindi eseguito l'EMP_DATA, che genera il frame di dati in forma tabulare. Ora abbiamo utilizzato una funzione unica per estrarre il record unico dai dati. All'interno della funzione unica, abbiamo superato EMP_DATA. L'output generato dalla funzione univoca ha rimosso la riga duplicata dalla frame di dati data.

Esempio n. 3: rimuovere i dati duplicati utilizzando il metodo distinto in R in Ubuntu 20.04

La funzione distinta è una delle librerie di manipolazione dei dati più spesso utilizzate nel linguaggio R ed è fornita dal pacchetto DPHYR. La funzione distinta raccoglie righe in una cornice di dati che sono tutte uniche. Il frame di dati è l'argomento iniziale, seguito dalle variabili da considerare durante la selezione. Per filtrare le righe uniche, è possibile fornire molte colonne variabili, ma mostreremo istanze variabili singole nel seguente campione. Il terzo argomento non è obbligatorio e ha il valore falso per impostazione predefinita; Tuttavia, se l'utente specifica espressamente True, la funzione manterrà tutte le variabili nel frame di dati dopo la filtrazione. Vale la pena notare che Dplyr impiega una funzione dell'operatore chiamata tubi della forma %> %, che è intesa come passaggio della variabile sinistra come primo parametro della funzione destra. In particolare, la notazione x %? % f (y) diventa f (x, y).

Qui, abbiamo una cornice di dati Products_Results che è mostrato nella forma tabulare. Puoi vedere le righe ridondanti all'interno del frame dati Products_Result. Possiamo rimuovere questi duplicati usando la funzione distinta. Nel nostro prossimo comando, abbiamo usato il Products_Result all'interno della funzione distinta come argomento. Ora, il frame di dati mostra il record del frame di dati senza righe duplicate.

Nel frame di dati precedente, due righe sono apparse due volte nel frame dei dati, ma dopo aver utilizzato la funzione distinta, la riga duplicata è stata rimossa.

Esempio n. 4: rimuovere i dati duplicati utilizzando il metodo Filtro Group_By in R in Ubuntu 20.04

Un'altra opzione per la rimozione di righe duplicate in base alle colonne è quella di raggruppare il set di dati con la variabile delle colonne e quindi utilizzare i metodi filtro e duplicati per filtrare gli elementi. Il suo primo passo è completato utilizzando il gruppo del pacchetto Dplyr per funzione. Il risultato dell'operazione precedente viene quindi trasferito alla funzione del filtro, che rimuove le righe duplicate.

Qui, il nostro passo iniziale è importare la libreria DPHYR che supporta la funzione Filtro Group_By nello script R. Quindi, abbiamo creato un frame di dati che ha il record dei team che appaiono nei giorni casuali. Abbiamo anche specificato il genere per il frame di dati. Quando la cornice di dati è stampata sullo schermo, possiamo vedere la ridondanza in ogni colonna. Possiamo eliminarlo utilizzando la funzione filtro Group_By. Nella figura seguente, la funzione Group_By viene invocata e prende la colonna "Day" come argomento nella variabile T1. Quindi, il filtro viene applicato alla funzione duplicata in cui viene passata la colonna "Day". Quando eseguiamo il T1, rimuove solo i duplicati dalla colonna “Day."

Come sopra, abbiamo applicato la funzione filtro Group_By alla colonna “Sesso."

Qui, abbiamo rimosso i duplicati dalla colonna "team" dalla funzione filtro Group_By.

Esempio # 5: rimuovere i dati duplicati utilizzando il metodo Group_By Slice in R in Ubuntu 20.04

In alternativa, il gruppo per funzione può essere utilizzato insieme a una fetta per eliminare le righe duplicate in base ai valori della colonna. La fetta è un pacchetto dplyr che sceglie le righe per indice. Quando viene raggruppato il frame di dati indicato, la fetta seleziona le righe in ciascun gruppo in base all'indice fornito, come mostrato nel seguente codice di esempio.

Sopra, abbiamo creato e visualizzato il record del frame di dati. Qui, abbiamo solo due colonne che hanno valori ridondanti. Questo, possiamo eliminare con la funzione Group_By fornendo il Col1 al suo interno e quindi applicare la funzione di fetta su di essa.

Ora, le righe duplicate sono state rimosse dal COL1, quindi abbiamo anche rimosso la ridondanza COL2 applicando la funzione di slice Group_By. Quindi, la riga dei duplicati è stata eliminata dal frame di dati seguenti.

Conclusione

A questo punto della lezione, hai imparato a usare la lingua R per identificare ed eliminare le righe duplicate che appaiono più volte. Utilizzare funzioni fondamentali come univoci () e duplicati () per eliminare le righe o le colonne ridondanti da un vettore o un frame di dati. Utilizzare il metodo distinto () nel pacchetto DPLER se si lavora con un set di dati di grandi dimensioni e si desidera rimuovere le voci duplicate. Inoltre, possiamo usare il metodo Group_By, Filter e Slice per rimuovere la riga duplicata e le colonne in R.