PANDAS Read_CSV Multiprocessing

PANDAS Read_CSV Multiprocessing

Il multiprocessing è una tecnica per utilizzare più processori o core per eseguire attività in parallelo. In Python, il multiprocessing viene implementato attraverso il modulo multiprocessing. Autorizza l'utente a eseguire più attività contemporaneamente, utilizzando così la piena potenza della CPU della macchina.

In questa guida Python, presenteremo una guida approfondita sul "panda.read_csv ()"Funzione con un modulo multiprocessing. I seguenti argomenti saranno coperti:

    • funzione read_csv () in python
    • Leggere CSV usando “panda.read_csv ()" Funzione
    • Leggere CSV usando “panda.read_csv ()"Con multiprocessing

“Panda.funzione read_csv () ”in Python

IL "panda.read_csv ()"È una funzione nel modulo Pandas di Python che legge/prende un file CSV e recupera un oggetto di dati contenente i dati dal CSV.

Sintassi

pd.read_csv (filepath_or_buffer, sep = ',', header = 'infine', index_col = none, usecols = nessuno, non engine = non, skiprows = nessuno, nRows = nessuno)


Esempio 1: lettura di CSV usando “Panda.funzione read_csv () ”

Nell'esempio seguente, i "panda.la funzione read_csv () ”viene utilizzata per leggere i dati CSV:


Codice

Panda di importazione
df = panda.read_csv ('Esempio.CSV ')
Stampa (DF)


Nel frammento di codice sopra:

    • Il modulo chiamato "panda"È importato.
    • IL "pd.read_csv ()"La funzione viene utilizzata per leggere il file CSV fornito.
    • IL "stampa()"La funzione viene utilizzata per visualizzare/mostrare i dati CSV.

Produzione


Come osservato, il contenuto del file CSV è stato visualizzato.

Esempio 2: lettura di CSV usando “Panda.read_csv () "con multiprocessing

Il seguente codice utilizza il "pd.read_csv ()"Funzione per leggere più file CSV in parallelo utilizzando la libreria multiprocessing in Python:

Panda di importazione
Import Multiprocessing
Se __Name__ == '__main__':
pool = multiprocessing.Piscina()
file = ['Esempio.CSV ',' Esempio1.CSV ',' Esempio2.CSV ']
DataFrames = pool.Mappa (panda.read_csv, files)
Per DF nei dati dei dati:
Stampa (DF)


Secondo il codice sopra:

    • I moduli chiamati "panda" E "multiprocessing"I moduli vengono importati.
    • IL "__nome__" E "__principale__"Gli attributi sono usati con il"Se"Condizione per garantire che il codice all'interno di esso esegui direttamente dallo script anziché essere importato.
    • All'interno della condizione, il "multiprocessing.Piscina()"Viene utilizzato per creare un oggetto pool multiprocessing utilizzando il numero predefinito di processi disponibili sul sistema.
    • L'elenco dei nomi di file per i file CSV da leggere viene inizializzato e archiviato in una variabile denominata "File".
    • IL "piscina.carta geografica()"Il metodo viene utilizzato per applicare il"pd.read_csv"Funzione per ogni file in parallelo. Ciò significa che ogni file viene letto contemporaneamente da un processo separato, che può accelerare il tempo di elaborazione complessivo.
    • Finalmente il "per"Loop viene utilizzato per iterare attraverso ogni frame di dati.

Produzione


In questo risultato, il "PD.La funzione read_csv () ”viene utilizzata con il multiprocessing per leggere i file CSV.

Conclusione

Per migliorare la velocità di caricamento dei dati, compresi i suoi benefici e limitazioni "pd.read_csv ()"La funzione viene utilizzata con il modulo multiprocessing. Il modello multiprocessing offre un modo per accelerare il caricamento dei dati utilizzando più core CPU per caricare i dati in parallelo. Questo tutorial Python ha presentato una guida approfondita sul multiprocessing Python Read_CSV.