Sample casuale di panda

Nunzia Martini

Ci sono molte biblioteche che "Python" fornisce. Quando discutiamo di "panda", è anche la biblioteca di "Python". Ci aiuta in diversi campi come utilizziamo questa libreria nelle scienze dei dati, oppure possiamo anche usare questa libreria "panda" nelle attività di apprendimento automatico. Aiuta anche nella gestione e nella manipolazione dei dati. I "dati dei dati" in "Panda" ci consentono di organizzare e archiviare i dati in righe e colonne, oppure possiamo dirlo nella forma della tabella. Possiamo selezionare alcune righe come dati di esempio del frame dati. A tale scopo, abbiamo utilizzato la funzione "campione ()" dei "panda". Questa funzione ci aiuta a generare qualsiasi riga o colonna casuali dal frame dati. Possiamo usare questa funzione per ottenere solo una riga o una colonna come campione, oppure possiamo anche impostare alcuni numeri in questa funzione per ottenere più righe come campione. Spiegheremo questo metodo "Random Sample ()" e spiegheremo il suo lavoro in dettaglio in questo tutorial.

Sintassi

DataFrame.campione (n = valore, frac = valore, sostituire = false/true, pesi = valore, random_state, asse)

Nel suo parametro "N", definiamo i numeri del campione casuale che vogliamo ottenere dal frame dati. Se non abbiamo aggiunto alcun numero qui, otterrà solo una riga casuale come campione di quel frame dati specifico. Nel parametro "FRAC", possiamo definire la percentuale delle righe che vogliamo ottenere; Se impostiamo il FRAC come “0.7 ", quindi darà" 70%"delle righe del frame dati. Ricorda che non possiamo posizionare il parametro "FRAC" con il parametro "N". Se definiamo il parametro "N", non aggiungiamo contemporaneamente il parametro "FRAC". Ne usiamo solo uno. Dopo questo, abbiamo il parametro "Sostituisci" in cui aggiungiamo "vero" o "falso". Se lo impostiamo come "vero", allora potrebbe dare la stessa riga più di una volta. Possiamo anche impostare altri tre parametri, che sono "pesi", "random_state" e "axis". Ora stiamo usando questo metodo "Sample ()" nel codice "Panda".

Esempio 01

Il software che stiamo utilizzando per generare questo codice "panda" è il software "spyder". Il nostro primo compito mentre esegui questo codice "panda" è importare le librerie. La libreria che dobbiamo importare è la libreria "Panda", che importa con l'aiuto della parola chiave che è la parola chiave "importazione". Abbiamo anche impostato "panda come PD" dopo aver scritto "l'importazione". La prossima attività è sviluppare il frame dati e costruiamo qui "lmn_company_df". Questo frame dati è costruito perché abbiamo utilizzato il "PD.DataFrame () ", che aiuta a generare DataFrame in" Panda ".

Inseriamo anche alcune colonne e queste colonne contengono anche dati. Inseriamo per la prima volta il "LMN_PERSON", che è la prima colonna di questo frame dati. Contiene "Jasper, Milli, Hayes, Easton, Bromley, Diego e Logan". Quindi "LMN_CODE" è la colonna successiva qui e aggiungiamo "LMN122, LMN124, LMN125, LMN126, LMN127, LMN128 e LMN129" in questa colonna. Il "LMN_YEAR" è la terza colonna qui e inseriamo "Maggio 2008, febbraio 2008, giugno 2009, aprile 2009, settembre 2010, giugno 2015 e luglio 2009". "LMN_SALEUNIT" è elencato dopo "LMN_YEAR". Contiene diverse unità di vendita: "50, 44, 39, 76, 85, 90 e 53".

Ora visualizziamo questo frame dati usando "print ()":

Quando premiamo l'icona "Esegui" del software "Spyder", otteniamo rapidamente l'output dei nostri codici. Il risultato del codice precedente è fornito qui, in cui è possibile visualizzare solo i dati di dati. Ora applicheremo il metodo "Sample ()" in questo codice per ottenere la riga di esempio da questo telaio di dati.

Per prima cosa aggiungiamo il nome del frame dati con questa funzione "campione ()". Qui, non abbiamo aggiunto alcun parametro a questa funzione. Quindi darà solo una riga casuale di questo frame dati. Stampa anche quella riga casuale sul terminale perché abbiamo inserito questa funzione "campione ()" all'interno della "print ()".

La riga che otteniamo dopo aver applicato questa funzione "campione ()" è resa di seguito. Si noti che seleziona la riga in modo casuale come campione di quel frame dati.

Esempio 02

La "lmn_company_df" è qui e, ora, stiamo impostando il valore di "n" come parametro di questa funzione "campione ()". Quando utilizziamo il metodo "Sample ()", aggiungiamo anche "N" e impostiamo "3" come valore di "N". Questo selezionerà casualmente tre righe del campione "lmn_company_df".

Qui, il frame dati completo contiene sette righe e quattro colonne. Quindi rende tre righe casuali, che otteniamo dopo aver applicato la funzione "Sample ()" e aver impostato il suo parametro "N" uguale a "3". Restituisce le righe in base a questo valore "n".

Esempio 03

La colonna "Vendor_DF" è ora costruita e la colonna "Vendor_Name" è la prima colonna di "Vendor_DF". Contiene "Maverick, Julian, Felix, Jasper, Chloe, Freya, Easton, Diago e Milli". La colonna "Vendor_country" arriva dopo questo, che contiene "Inghilterra, America, Londra, Canada, Germania, Francia, Algeria, Inghilterra e Germania". Successivamente, viene aggiunto "Vendor_Address" e inserisci "XYZ123, MnO890, JKL678, QWE345, Rty678, DFG456, CVB234, JHG876 e MNB543".

Successivamente, abbiamo la colonna "Project_Code", che contiene "P123, P234, P345, P456, P678, P890, P098 e P765". L'ultima colonna è denominata "vendite" e contiene anche alcuni record di vendita, che sono "80000, 50000, 75000, 40000, 55000, 85000, 97000, 80000 e 90000". Ora, stampiamo l'intero "Vendor_DF" usando "Print ()". Dopo aver visualizzato il "venfor_df", utilizziamo il metodo "Sample ()" e questa volta, impostiamo qui il parametro "FRAC" e aggiungiamo "0.5 "come suo valore. Selezionerà il 50% delle righe in modo casuale da questo telaio di dati e le visualizzerà anche mentre abbiamo inserito questo metodo "Sample ()" nel metodo "Print ()".

Il frame dati mostra tutte le righe e le colonne, quindi visualizza la metà o il 50% delle righe. Seleziona queste righe in modo casuale e le visualizza sul terminale perché impostiamo il parametro "FRAC" della funzione "Sample ()" uguale a "0.5 ". Puoi anche notare in questo codice che non abbiamo aggiunto il parametro "N" con questo parametro "FRAC".

Esempio 04

In questo codice, stiamo aggiungendo due parametri nel metodo "Sample ()" e questi sono "N" e "Sostituisci". Per prima cosa aggiungiamo "5", che è il valore di "N", quindi restituirà cinque righe, quindi imposterà "False" come valore del parametro "Sostituisci". Quando impostamo "false" qui, non darà più la stessa riga. Rende solo righe uniche e non duplica una riga.

Rende cinque file di seguito e tutte sono file uniche. Seleziona queste righe in modo casuale da questo frame dati e le visualizza in questo risultato.

Il valore di "n" non è maggiore del numero di righe. Come puoi notare, questo frame dati contiene nove righe. Se impostiamo il valore di "n" maggiore di "9", restituirà un messaggio di errore. Qui, aggiungiamo "10" come valore di "N". Nella seguente immagine, visualizza cosa succede quando eseguiamo questo codice:

Questo messaggio di errore viene generato sul terminale perché questo frame dati contiene solo nove righe e il valore di "n" è maggiore del numero di righe del frame dati.

Conclusione

Questo tutorial riguarda il "campione casuale di panda". Abbiamo spiegato questo concetto approfondito in questo tutorial. Abbiamo spiegato la sua sintassi e abbiamo anche utilizzato il metodo "Sample ()" nel nostro codice "Panda". Abbiamo fatto esempi posizionando parametri diversi in questo metodo "campione ()" e abbiamo discusso in dettaglio tutti i parametri di questo metodo "campione (). Abbiamo mostrato come restituisce le righe del frame dati come campione selezionandole in modo casuale dopo aver applicato questa funzione "campione ()". Abbiamo anche discusso del messaggio di errore in questo tutorial durante l'utilizzo di questa funzione e abbiamo spiegato perché questo messaggio di errore si verifica.

Postgresql

Come copiare una tabella da un database a un altro in PostgreSQL

Tutorial sul processo passo-passo su come copiare le tabelle da un database a un altro in PostgreSQL...

Dante Palumbo

Pitone

Python OS Mkdir

Il sistema operativo.Il metodo mkdir () del modulo OS viene utilizzato per creare una singola direct...

Nick Marini

Pitone

PANDAS Read_CSV Multiprocessing

Per migliorare la velocità di caricamento dei dati, compresi i suoi benefici e limitazioni il PD.la ...

Nick Marini