Prima di discutere queste funzioni, creeremo un esempio di dati Pyspark di esempio.
Dati
importare pyspark
da pyspark.SQL Importazione di importazione
Spark_app = SparkSession.costruttore.nome dell'applicazione('_').getOrCreate ()
studenti = [(4, 'sravan', 23, nessuno, nessuno),
(4, "Chandana", 23, "CSS", "Pyspark"),
(46, "Mounika", 22, nessuno ".NETTO'),
(4, 'Deepika', 21, 'HTML', nessuno),
"
DataFrame_obj = Spark_app.CreateAtaFrame (Students, ['soggetto_id', 'name', 'age', 'technology1', 'technology2'])
dataframe_obj.spettacolo()
Produzione:
Ora ci sono 5 colonne e 4 righe.
Desc_nulls_first () funzione
La funzione Desc_nulls_first () ordina i valori in una colonna in ordine decrescente, ma posizionerà i valori null esistenti in una colonna.
Può essere utilizzato con il metodo Select () per selezionare le colonne ordinate. È molto importante usare la funzione orderby () perché la cosa principale qui è il tipo.orderby () prende la funzione Desc_nulls_first () come parametro.
Sintassi
dataframe_obj.Seleziona (DataFrame_Obj.colonna).OrderBy (dataframe_obj.colonna.Desc_nulls_
Primo())
Dove dataframe_obj è il frame dati e la colonna è il nome della colonna in cui vengono ordinati i valori, tutti i valori null verranno inseriti per primi.
Quindi, il nostro telaio di dati è pronto. Dimostriamo la funzione desc_nulls_first ().
Esempio 1
Ora ordineremo i valori nella colonna Technology1 che non ha valori NUNI/NULL in ordine decrescente usando la funzione Desc_nulls_First ().
#sort la colonna Technology1 in ordine decrescente e ottieni prima i valori nulli.
dataframe_obj.Seleziona (DataFrame_Obj.Tecnologia1).OrderBy (dataframe_obj.Tecnologia1.Desc_
nulls_first ()).spettacolo()
Produzione:
In realtà, ci sono due valori null. Innanzitutto, vengono posizionati e successivamente HTML e CSS vengono ordinati in ordine decrescente.
Esempio 2
Ora, ordineremo i valori nella colonna Technology2 che non ha valori NUNI/NULL in ordine decrescente usando la funzione Desc_nulls_First ().
#sort la colonna Technology2 in ordine decrescente e ottieni prima i valori nulli.
dataframe_obj.Seleziona (DataFrame_Obj.Tecnologia2).OrderBy (dataframe_obj.Tecnologia2.Desc_
nulls_first ()).spettacolo()
Produzione:
In realtà, ci sono due valori null. Innanzitutto, sono collocati e più tardi, Pyspark e .La rete è ordinata in ordine decrescente.
funzione desc_nulls_last ()
La funzione Desc_nulls_last () ordina i valori in una colonna in ordine decrescente, ma posizionerà i valori null esistenti in una colonna.
Può essere utilizzato con il metodo Select () per selezionare le colonne ordinate. È molto importante usare orderBy () perché la cosa principale qui è il tipo.orderby () prende Desc_nulls_first () come parametro.
Sintassi
dataframe_obj.Seleziona (DataFrame_Obj.colonna).OrderBy (dataframe_obj.colonna.Desc_nulls_
scorso())
Dove, dataframe_obj è il frame dati e la colonna è il nome della colonna in cui i valori sono ordinati in modo tale che tutti i valori null vengano posizionati come l'ultimo.
Quindi, il nostro telaio di dati è pronto. Dimostriamo la funzione desc_nulls_last ().
Esempio 1
Ora, ordineremo i valori nella colonna Technology2 con i valori nessuno/null in ordine decrescente usando la funzione Desc_nulls_last ().
#sort la colonna Technology1 in ordine decrescente e fai dura i valori null.
dataframe_obj.Seleziona (DataFrame_Obj.Tecnologia1).OrderBy (dataframe_obj.Tecnologia1.Desc_
nulls_last ()).spettacolo()
Produzione:
In realtà, ci sono due valori null. Innanzitutto, HTML e CSS sono ordinati in ordine decrescente e due valori nulli vengono posizionati per ultimo.
Esempio 2
Ora, ordineremo i valori nella colonna Technology2 che non ha valori NUNI/NULL in ordine decrescente usando la funzione Desc_nulls_last ().
#sort la colonna Technology2 in ordine decrescente e fai dura i valori null.
Dataframe_obj.Seleziona (DataFrame_Obj.Tecnologia2).OrderBy (dataframe_obj.Tecnologia2.Desc_
nulls_last ()).spettacolo()
Produzione:
In realtà, ci sono due valori null. Primo, .Net e Pyspark sono ordinati in ordine decrescente e due valori nulli vengono posizionati per ultimi.
Codice complessivo
importare pyspark
da pyspark.SQL Importazione di importazione
Spark_app = SparkSession.costruttore.nome dell'applicazione('_').getOrCreate ()
studenti = [(4, 'sravan', 23, nessuno, nessuno),
(4, "Chandana", 23, "CSS", "Pyspark"),
(46, "Mounika", 22, nessuno ".NETTO'),
(4, 'Deepika', 21, 'HTML', nessuno),
"
DataFrame_obj = Spark_app.CreateAtaFrame (Students, ['soggetto_id', 'name', 'age', 'technology1', 'technology2'])
dataframe_obj.spettacolo()
#sort la colonna Technology1 in ordine decrescente e ottieni prima i valori nulli.
dataframe_obj.Seleziona (DataFrame_Obj.Tecnologia1).OrderBy (dataframe_obj.Tecnologia1.Desc_
nulls_first ()).spettacolo()
#sort la colonna Technology2 in ordine decrescente e ottieni prima i valori nulli.
dataframe_obj.Seleziona (DataFrame_Obj.Tecnologia2).OrderBy (dataframe_obj.Tecnologia2.Desc_
nulls_first ()).spettacolo()
#sort la colonna Technology1 in ordine decrescente e fai dura i valori nulli.
dataframe_obj.Seleziona (DataFrame_Obj.Tecnologia1).OrderBy (dataframe_obj.Tecnologia1.Desc_
nulls_last ()).spettacolo()
#sort la colonna Technology1 in ordine decrescente e fai dura i valori null.
dataframe_obj.Seleziona (DataFrame_Obj.Tecnologia1).OrderBy (dataframe_obj.Tecnologia1.Desc_
nulls_last ()).spettacolo()
Conclusione
Entro la fine di questo tutorial Pyspark, abbiamo appreso che è possibile gestire NULL durante l'ordinamento dei valori in un frame di dati usando le funzioni Desc_nulls_First () e Desc_nulls_last (). La funzione Desc_nulls_first () ordina i valori in una colonna in ordine decrescente, ma disporrerà prima i valori null esistenti in una colonna. La funzione Desc_nulls_last () ordina i valori in una colonna in ordine decrescente, ma organizzerà i valori null esistenti in un ultimo colonna. È possibile eseguire l'intero codice specificato nell'ultima parte del tutorial.