Funzione mediana di redshift

Funzione mediana di redshift
La mediana è un concetto semplice e comune in statistica e probabilità. Gli studenti relativi a tali campi matematici hanno familiarità con il suo utilizzo e come calcolarlo verbalmente. È semplicemente il valore medio in un set di dati disposto. Se si desidera trovare la mediana di un set, basta disporre i valori in ordine crescente o discendente e scegli il valore medio da esso.

Esistono due scenari diversi durante il calcolo della mediana di un set di dati:

  • Hai un numero dispari di valori nel nostro set di dati
  • Hai un numero pari di valori nel nostro set di dati

Nel caso in cui tu abbia un numero dispari di valori, la soluzione è semplice e puoi trovare facilmente il numero medio.

Se stai cercando di trovare la mediana per un numero pari di valori, devi prendere la media o la media dei due numeri medi. In altre parole, è necessario aggiungere i due valori che si trovano nel mezzo del set di dati e dividere la loro somma per due.

In questo articolo, ci concentreremo su come puoi trovare la mediana di un set di dati nel tuo database Amazon Redshift. RedShift è un servizio di data warehousing AWS molto famoso per risolvere query di database complesse ed eseguire lavori di analisi dei big data.

Sintassi per utilizzare la funzione mediana

Se stai lavorando con Redshift, puoi facilmente trovare la mediana di un set di dati utilizzando la seguente sintassi:

Mediana ( )

Qui, il espressione mediana è semplicemente il set di dati o il nome della colonna per il quale si desidera trovare la mediana.

Esempi di utilizzo della funzione mediana

Ora, facciamo un esempio in cui vuoi trovare la mediana per l'età degli studenti della classe. Hai un tavolo class_data con due colonne nome E età Nel cluster di spostamento verso il rosso.

Abbiamo dati casuali e non ordinati e vogliamo la mediana di questi dati. Per trovare la mediana per un tale set di dati, scriverai la seguente domanda in Redshift:

Seleziona mediana (età)
Dall'organizzazione.class_data

La query è semplice e breve, ma restituisce la mediana del set di dati fornito tramite espressione di input ad esso. La funzione mediana può essere solo una piccola porzione di molte query complesse nell'analisi dei dati difficili e nei lavori statistici.

Hai visto come trovare la mediana di una colonna appartenente a una certa tabella del database. Passiamo a un livello superiore e vediamo come la funzione mediana può essere utilizzata nelle complesse query di spostamento verso il rosso.

Caso condizionale

Qui, vedrai come puoi aggiungere una dichiarazione condizionale mentre si cerca di trovare una mediana di un set di dati. Supponiamo che tu stia lavorando come specialista IT nel dipartimento delle vendite e delle entrate della tua organizzazione. Ti viene assegnato un compito dal tuo management per trovare la mediana per i progetti che costano oltre mille dollari e in questo momento tutti i progetti sono elencati in una singola tabella di database senza alcuna segregazione dei costi.

Sai già come trovare la mediana per questa colonna. Ma qui, il nostro requisito è un po 'diverso, ecco perché utilizzerai la seguente query per ottenere i risultati desiderati:

Seleziona mediana (costo)
dall'organizzazione.progetti
dove costo> 1000

Otterrai il seguente output da questa query. La mediana che abbiamo ricevuto viene calcolata dopo aver ignorato tutti i valori di costo minore di mille.

Questo è il modo in cui è possibile utilizzare la funzione mediana con un limite condizionale per ottenere i risultati richiesti nel database Redshift.

Funzione della finestra mediana

Nel caso in cui non si abbia familiarità con le funzioni della finestra, vengono utilizzate quando non si desidera applicare la funzione sull'intero database o la colonna. Le funzioni della finestra consentono di applicare una funzione su un set o un gruppo specifico o una gamma di dati. Ogni gruppo restituirà il suo risultato per quella particolare funzione in un singolo output. È possibile trovare funzioni della finestra corrispondenti per molte funzioni SQL in Amazon Redshift.

Supponiamo che inizierai un nuovo progetto, ma alla tua azienda manca di alcuni dei set di competenze per completare quel progetto. Per questo motivo, vuoi esternalizzare parte della parte del progetto per le quali hai alcune altre organizzazioni per fornirti citazioni per questo progetto di outsourcing. Ogni cliente ha escogitato tre diversi piani di esecuzione da cui è necessario sceglierne uno.

Ora, devi andare con un piano moderato per ogni cliente. Per trovare la soluzione prima troverai la mediana per ogni cliente separatamente. Useremo la funzione della finestra mediana per questo compito.

Seleziona client_name, project_type, median (quotazione_value)
Over (partizione di client_name)
dall'organizzazione.clienti
ordine di client_name;

Nell'output otterrai i seguenti risultati. La mediana per ciascun client viene calcolata e visualizzata separatamente utilizzando il SOPRA clausola in cui abbiamo menzionato il nome del cliente Per la base di questa partizione.

In questo modo è possibile utilizzare la funzione della finestra mediana utilizzando Amazon Redshift. Questo schema può essere utilizzato anche per set di dati più complessi e molto più grandi.

Conclusione

Se si desidera trovare la mediana di un set di dati in Amazon Redshift, è possibile eseguire facilmente questa attività utilizzando la funzione mediana di RedShift che consente di calcolare la mediana per una colonna completa o solo per un piccolo gruppo di valori utilizzando la funzione della finestra mediana. Ci sono alcuni casi e scenari della funzione mediana discussi in questo blog per chiarire la tua comprensione.