Strumenti di riga di comando per la scienza dei dati in Linux

Strumenti di riga di comando per la scienza dei dati in Linux
Esistono vari strumenti e metodi disponibili per eseguire l'analisi dei dati e la scienza dei dati. Alcuni dei software e degli strumenti più popolari utilizzati includono Python, Excel, SQL, ecc.

Ora, ci sono buone ragioni per cui i data scientist preferiscono utilizzare gli strumenti sopra menzionati poiché gli strumenti sono ben attrezzati per gestire la moltitudine di attività relative ai dati. Tuttavia, questi non sono gli unici strumenti di facile utilizzo a loro disposizione o noi.

Le persone che sono utenti regolari di Linux sanno quanto sia potente il terminale di comando Linux. Gli utenti possono eseguire praticamente qualsiasi cosa correlata ai propri sistemi utilizzando il terminale di comando. Sebbene Linux fornisca ai suoi utenti una GUI attraente, il terminale di comando è più divertente e interattivo.

Tuttavia, solo poche persone sanno effettivamente come utilizzare il terminale per eseguire regolari attività di scienze dei dati. Inoltre, se sei interessato a scoprire come utilizzare il terminale come strumento per la scienza dei dati, sei nel posto giusto mentre esamineremo alcuni dei comandi che puoi usare per fare proprio questo.

$ WC

Il primo comando che spiegheremo è $ WC e viene utilizzato per scoprire il conteggio delle parole, il conteggio dei caratteri, i conteggi delle linee e i conteggi di un particolare file di un determinato file. Questo comando può essere importante in quanto puoi verificare quanto sia grande il file che stai per verificare. Esistono diversi output con diversi operatori utilizzati con $ WC. L'output predefinito ci dà il conteggio delle linee, il conteggio delle parole e il conteggio dei caratteri da sinistra a destra rispettivamente. La sintassi per questo comando è:

$ WC

$ wget

Un altro comando importante che può essere regolarmente utilizzato dai data scientist è il comando $ wget. Questo comando scarica file da posizioni remote. Nel caso del set di dati, si desidera eseguire il download, è possibile utilizzare il comando $ wget per farlo recuperare direttamente sul tuo computer senza singhiozzo. La sintassi per $ wget è:

$ wget

$ head e $ tail comandi.

Considera lo scenario in cui hai scaricato un set di dati composto da numerosi file. Ora stai cercando un file specifico con contenuti specifici del tuo interesse. Puoi utilizzare i comandi $ head e $ tail per conoscere il contenuto dei file.

Il comando $ head stampa le prime righe del file come output. L'output predefinito è di 10 righe e puoi scegliere di vedere tutte le righe che vuoi.

Il comando $ tail ti dà le righe alla fine del file come output. Anche questo ha un output predefinito di 10 righe. La sintassi per entrambi i comandi è la seguente:

$ head -n
$ tail -n

$ Trova

Il prossimo comando che daremo un'occhiata è il comando $ find. Ora sai che il set di dati con cui gli scienziati hanno a che fare è di solito molto grande. È costituito da migliaia di file e nel caso in cui vogliano cercare un file specifico, può diventare un mal di testa. Tuttavia, il terminale Linux ha fornito ai suoi utenti il ​​comando $ find. Se una persona conosce il nome del file che sta cercando, usa il comando $ find per trovarlo all'istante.

$ Trova -nome <'filename'> - tipo

$ cat

Il comando $ cat ha una serie di usi nel mondo della scienza dei dati. L'uso più semplice del comando $ cat è che emette tutti i contenuti di un determinato file.

$ cat sta per "concatenato" e può essere utilizzato per combinare due o più file insieme per formare un singolo file.

La sintassi per ottenere il contenuto di un file è la seguente:

$ cat

Altri usi del comando $ cat includono la numerazione delle righe presenti nel file, l'appendimento del testo ai file, la creazione di nuovi file e ecc.

$ Cut

Il comando $ cut viene utilizzato per la rimozione di sezioni di contenuto in un determinato file. Puoi anche copiare quelle sezioni e incollarle in un altro file. Dovrebbe rivelarsi utile quando si desidera estrarre alcune righe di informazioni utili da un determinato file.

$ Cut -

Awk

Prima di questo, abbiamo esaminato i comandi Linux che possono rivelarsi utili per i data scientist. Awk d'altra parte è un linguaggio di programmazione a tutti gli effetti che in sostanza si occupa dell'elaborazione del testo presente nei file o in generale. Questo è uno strumento potente che può essere evocato nel terminale con brevi comandi. Ci sono una varietà di attività che possono essere eseguite utilizzando AWK e si consiglia di imparare a usare AWK nel terminale Linux.

Grep

Grep è un altro strumento di elaborazione del testo che è in qualche modo simile ad AWK ma può anche eseguire altre attività con confusione minima e sintassi di facile implementazione. È un altro strumento che puoi imparare rapidamente e utilizzare a tuo vantaggio per l'esecuzione di attività relative ai dati testuali.

Conclusione

In questo articolo, abbiamo esaminato i diversi strumenti e comandi disponibili sul terminale Linux che possono aiutare a eseguire le attività di scienze dei dati. Come puoi vedere, ci sono diversi modi in cui il terminale Linux può rivelarsi utile, in particolare nella gestione e nella gestione dei dati.