Un database è una raccolta di dati archiviati in un sistema informatico. SQL è uno dei linguaggi di programmazione più universali in grado di svolgere migliaia di funzioni tra cui la lettura, la scrittura e la manipolazione dei dati.
È il linguaggio di programmazione standard per la gestione dei database relazionali e viene utilizzato da informatici, analisti di dati e data scientist in tutto il mondo.
In questa guida, esamineremo le dichiarazioni o le query SQL che vengono ampiamente utilizzate in Data Science.
Questa guida utilizza il software PostgreSQL per eseguire le query. Puoi scaricarlo dal sito ufficiale facendo clic qui.
Detto questo, iniziamo!1
1. Selezione di tutte le colonne
L'istruzione Select è una delle query SQL più fondamentali. Questa affermazione ti aiuta a selezionare alcune o tutte le colonne dal database. Utilizzerai questa funzione durante i tuoi progetti di scienze dei dati.
Per selezionare tutte le colonne, utilizzare '*' come mostrato nel seguente esempio:
Il "prodotto" è una tabella composta da 3 colonne. Dopo aver eseguito la query precedente, possiamo esaminare le colonne presenti all'interno della tabella del prodotto.
2. Dalla clausola
Dalla clausola arriva dopo la selezione e aiuta a identificare dove si trova la colonna nella tabella per nome.
Quando si specificano più tabelle, utilizzare virgole e spazio tra i nomi delle tabelle. Questo è mostrato nel seguente esempio:
L'output è più specifico con una sola colonna. Questo è mostrato di seguito:
3. Dove la clausola
La prossima dichiarazione dopo è dove. Ci aiuta a filtrare i dati dal database in base a determinate condizioni.
Produzione:
4. Gruppo per dichiarazione
Questa clausola viene utilizzata per selezionare e raggruppare le righe che hanno gli stessi valori.
Nella query SQL fornita, raggrupperemo due righe in cui Product_Price è uguale a 6.
L'output avrà una nuova colonna denominata conteggio. È seguito dalla colonna Product_Name come mostrato nella seguente:
5. Avere una dichiarazione
Funzioni di aggregazione come somma, AVG, max, min, ecc. non può essere usato all'interno della clausola dove. Per usarli, devi usare la dichiarazione di avere. Questo è dimostrato con l'aiuto del seguente codice:
Produzione:
6. Ordine per dichiarazione
Come dal nome, l'ordine per comando viene utilizzato per elencare i record in ordine crescente o discendente. Per ascesa, usa l'ordine solo o aggiungi la parola chiave "ASC" lungo di essa. Allo stesso modo, per ordinare i valori in ordine decrescente, usa la parola chiave "desc" insieme all'ordine di.
Per ordine discendente:
Produzione:
Allo stesso modo, per l'ordine ascendente:
Produzione:
7. Dichiarazione limite
Il limite è un'istruzione SQL importante che ti aiuta a specificare il numero di record da tornare dal database. Ad esempio, per restituire solo due righe dal nostro database, utilizzare il comando limite come segue:
Produzione:
8. Funzioni di dati predefinite
Le funzioni predefinite sono molto importanti in SQL in quanto aiutano i data scientist a risparmiare tempo. Queste funzioni sono anche chiamate funzioni aggregate che funzionano su una serie di righe anziché su una singola riga e restituiscono un singolo valore. Ci sono molte diverse funzioni aggregate. Alcuni importanti sono elencati di seguito:
COUNT (*) -> Restituisce il numero di righe.
Min () -> trova il valore minimo nella colonna.
Max () -> trova il valore massimo nella colonna.
Sum () -> La somma di tutti i valori all'interno del nome della colonna.
Qual è il prezzo massimo nella nostra tabella di dati?
Produzione:
9. Si uniscono interni, a sinistra e a destra
Ci sono molti tipi di join ma i tre principali sono discussi qui.
Il join interno è il join più semplice e comune che viene utilizzato per creare una nuova tabella che ha le righe corrispondenti nelle colonne a sinistra e a destra.
Produzione:
Il join a sinistra restituisce tutte le righe nella colonna sinistra e le righe corrispondenti nella colonna destra.
Produzione:
Qui, ci siamo uniti alla colonna Product_Profit dalla tabella 2 con la colonna Product_Name della Tabella 1.
Il join destro è l'opposto di sinistra. Restituisce tutte le righe presenti nella colonna destra e le righe corrispondenti nella colonna sinistra.
10. Sottoquerie
Ultimo ma non meno importante, abbiamo un sottoquery che è anche noto come una query interiore. È nidificato all'interno di una query più grande che può verificarsi all'interno della clausola selezionata, o dove.
Una sottoquery non si limita a queste clausole. Può verificarsi anche in altre clausole come eliminazione, inserto o aggiornamento.
Un'altra caratteristica importante della sottoquery è che è possibile utilizzare gli operatori logici come>, <, or =. A subquery is also executed first before its parent query.
Per esempio:
Produzione:
Conclusione
In questo articolo, abbiamo superato le importanti query SQL per i data scientist. Queste query sono molto comuni e possono essere utilizzate da professionisti come ingegneri di dati, analisti di dati, ecc. Il modo migliore per imparare tutte queste domande è creare il tuo database e quindi praticare il più possibile. Con questa guida come fondazione, ora puoi conoscere query più avanzate per la scienza dei dati.