Panda shuffle

Panda shuffle
“Quando dobbiamo riorganizzare un telaio di dati, il modulo Panda di Python ci offre diverse tecniche per mescolare le sue righe. I dati vengono mescolati casualmente usando il metodo "Sample ()" utilizzando il suo parametro "FARC = 1". Le righe del frame dati possono essere mescolate senza alterare la colonna indice utilizzando "reset_index (drop = true)". Per creare una nuova cornice di dati con il ripristino dell'indice, possiamo utilizzare la funzione "Ripristina _index ()". Ciò è utile se l'indice deve essere trattato come una colonna o se deve essere ripristinato al valore predefinito prima del seguente processo."

La sintassi per il frame dati Panda mescolante

La sintassi per il frame dati Panda e ripristina l'indice

Esempio 1: mescolare le righe del frame dati utilizzando il metodo Sample ()

In questa illustrazione, stiamo utilizzando la funzione "campione ()" per recuperare elementi casuali dall'asse di un oggetto. Possiamo mescolare le righe del nostro telaio di dati utilizzando la funzione "Sample ()" per "mescolare" le righe.

Quindi, iniziamo con il nostro primo esempio. Per implementare il nostro codice, stiamo utilizzando lo strumento "Spyder". Il primo passo è importare la biblioteca di Panda come "PD". Ora stiamo creando un frame dati dopo aver importato la libreria. Il titolo del frame dati in questo codice abbiamo "studente". Questo frame di dati "Studente" ha tre colonne "nome", "marchi" e "osservazioni". Ci sono valori memorizzati in ciascuna di queste tre colonne. I nomi di diversi studenti sono "Thomas", "Enna", "Ponting", "Watson" ed "Emma" nella colonna "Nome". Nella colonna "Marks" abbiamo i segni dello studente "469", "202", "430", "190" e "398". La terza colonna, "Osservazioni", contiene l'elenco dei commenti, "Pass" o "Fail".

Per generare questo frame dati, stiamo usando "PD. DataFrame ". Al momento, il frame dati viene esposto sullo schermo utilizzando la funzione "print ()".

Ora che abbiamo raggiunto la sezione cruciale del codice, dobbiamo mescolare le righe del nostro frame dati. Nella mescolanza, gli algoritmi di miscelazione dei dati possono potenzialmente mantenere collegamenti logici tra le colonne mentre riorganizza i dati. Sposta i dati da un set di dati all'interno di un attributo a caso. Qui stiamo usando il metodo "Sample ()" con il suo parametro "FRAC = 1". Questo "frac = 1" viene utilizzato per mescolare l'ordine della riga e viene utilizzato per recuperare tutti i valori degli articoli del telaio dati dopo aver mescolato.

Questo metodo Sampling () mescolerà tutte le righe del frame dati e apparirà come una nuova schiuma di dati di dati. Ora stiamo visualizzando un frame dati ancora una volta dopo aver mescolato la riga usando la funzione "print ()".

È possibile visualizzare l'output del programma sullo schermo dopo l'esecuzione del codice facendo clic su Esegui file sullo strumento. Nella nostra immagine di output, sono visibili due frame dati. Il primo frame dati viene formato aggiungendo colonne e valori ad esso e il secondo frame dati viene visualizzato dopo aver mescolato le righe utilizzando il metodo "Sample ()" con il suo parametro "FRAC = 1".

Se confrontiamo il primo e il secondo frame dati, è ovvio che le righe nel secondo frame di dati sono riorganizzate. Anche il loro indice è stato mescolato. L'indice del primo Frame dati inizia su "0" e termina su "4" e l'indice del secondo frame dati viene riorganizzato per includere "2", "4", "0", "3," e "1".

Esempio 2: mescolare le righe del telaio di dati senza apportare modifiche alla colonna dell'indice

In questo caso, le righe del Frame Data vengono mescolate, ma l'indice del Frame Data non cambia. L'indice sopra le righe è stato anche mescolato nell'esempio precedente, come si può vedere, ma poiché stiamo usando "reset indice (drop = true)" qui, l'indice non verrà riorganizzato.

Iniziamo prima il nostro codice; Abbiamo importato la libreria di Panda come "PD", il passo successivo è costruire un telaio di dati. Il frame dati viene definito "dati" nel suo nome. Ci sono tre colonne in questo frame dati "nome", "marchi" e "soggetto". Tutte e tre le colonne tengono i valori in ciascuno di essi. Nella colonna "Nome", abbiamo alcuni nomi degli studenti "Noah", "Pitbul", "Jack", "Arthur" e "George". La seconda colonna, "Marks", contiene un elenco di marchi che include "460", "304", "431", "192" e "398" e nella terza colonna, abbiamo "Python", " Java "," OOP "," PF "e" Calcolo ". Ora, "PD.DataFrame ”viene utilizzato per creare dati dati e per la visualizzazione del frame dati, stiamo utilizzando la funzione“ print () ”.

Per mescolare le righe del frame dati, ora stiamo usando il metodo "Sample ()" con il parametro FRAC = 1; Tuttavia, in questo caso, stiamo utilizzando anche "RESET INDICE (DROC = TRUE)", che non mescolerà l'indice che mescola solo le righe del frame dati. L'indice può essere ripristinato al predefinito "0", "1", "2", "3", ecc. indici usando il metodo reset_index (). Se si desidera evitare di conservare gli indici precedenti nella colonna "indice" per impostazione predefinita, utilizzare l'argomento DROP. Ora stiamo nuovamente visualizzando il frame dati dopo aver mescolato le righe utilizzando la funzione "print ()".

In questa immagine di output vengono visualizzati due frame dati, come si può vedere. Usando l'argomento RESET "indice (drop = true)" con il metodo "campione ()", possiamo vedere che le righe del secondo frame dati sono mescolate, ma i suoi indici non sono modificati; Tuttavia, se osserviamo l'esempio precedente, possiamo vedere che anche l'indice è stato riorganizzato perché il parametro "RETERIE INDICE (DROC = TRURE)" non è stato utilizzato.

Esempio 3: modifica dell'ordine della riga usando la permutazione numpy con il metodo Iloc []

Usando la tecnica "permutazione numpy" e "Iloc []", stiamo riorganizzando il telaio di dati in questo esempio. Il metodo "Permutazione" utilizza campioni casuali da una sequenza di permutazioni per fornirci la sequenza e restituire la sequenza. Se Z è un array multidimensionale, è mescolato con il suo primo indice.

Prima di eseguire il codice, dobbiamo importare due panda delle librerie come "PD" e Numpy come "NP". Il prossimo è creare un frame dati con il nome "dati". In questo frame dati, abbiamo due colonne. La "macchina" è il nome della prima colonna e il "modello" è la seconda colonna. Ci sono alcuni valori elencati per queste due colonne. Nella colonna "Nome", abbiamo "Suzuki", "Ford", "Toyota", "Mercedes" e "Honda" e i valori per la colonna che abbiamo "2011", "2008", "2019", "2019" e "2017". Questo frame dati sarà ora generato da "PD.DataFrame ".

Qui, stiamo utilizzando la tecnica "Iloc []" con il metodo "Permutation ()" e il parametro dell'indice, che rende molto semplice mescolare le righe del frame dati. Possiamo utilizzare il metodo "Iloc []" per selezionare una colonna o una riga distintiva dal set di dati dato. Utilizzando i valori dell'indice, possiamo ottenere rapidamente qualsiasi valore specifico da una colonna o riga utilizzando il metodo "Iloc []". Poiché stiamo usando il parametro "reset_index (drop = true)" qui, l'indice del dati dati non cambierà. Quindi utilizziamo la funzione "print ()" per visualizzare il nostro telaio dati dopo aver riorganizzato le righe.

Nell'output sono stati visualizzati due set di dati, uno dei quali era il set di dati originale e l'altro il set di dati mescolato. Qui, possiamo vedere che le righe nel secondo frame dati sono state mescolate e l'indice non è cambiato. Il primo indice di DataFrame inizia da "0", mentre l'indice del secondo frame dati inizia allo stesso modo a "0", ma le righe vengono modificate.

Conclusione

In Panda, ci sono numerosi metodi per riorganizzare i dati nelle righe e nelle colonne del frame dati. In questo articolo, abbiamo utilizzato alcuni semplici metodi per mescolare le righe del frame dati. Abbiamo mescolato la riga e recuperato tutte le righe del telaio di dati usando la funzione "Sample ()" con il parametro "FARC = true e il metodo" Permutazione "con ILoc []. "Reset_index (drop = true)" viene utilizzato quando dobbiamo modificare le righe ma non l'indice del frame dati. Queste strategie di panda sono semplici e crediamo che, implementandole, il tuo compito sarà facilmente gestito.