Prima di discutere queste funzioni, creeremo un esempio di dati Pyspark di esempio.
Dati
importare pyspark
da pyspark.SQL Importazione di importazione
Spark_app = SparkSession.costruttore.nome dell'applicazione('_').getOrCreate ()
studenti = [(4, 'sravan', 23, nessuno, nessuno),
(4, "Chandana", 23, "CSS", "Pyspark"),
(46, "Mounika", 22, nessuno ".NETTO'),
(4, 'Deepika', 21, 'HTML', nessuno),
"
DataFrame_obj = Spark_app.CreateAtaFrame (Students, ['soggetto_id', 'name', 'age', 'technology1', 'technology2'])
dataframe_obj.spettacolo()
Produzione:
Ora ci sono 5 colonne e 4 righe.
funzione ASC_NULLS_FIRST ()
La funzione ASC_NULLS_FIRST () ordina i valori in una colonna in ordine crescente, ma posizionerà prima i valori null esistenti in una colonna.
Può essere utilizzato con il metodo Select () per selezionare le colonne ordinate. È molto importante usare orderby () perché la cosa principale qui è ordinare.orderBy () e prende asc_nulls_first () come parametro.
Sintassi
dataframe_obj.Seleziona (DataFrame_Obj.colonna).OrderBy (dataframe_obj.colonna.ASC_NULLS_
Primo())
Dove dataframe_obj è il frame dati e la colonna è il nome della colonna in cui vengono ordinati i valori, tutti i valori null verranno inseriti per primi.
Quindi, il nostro telaio di dati è pronto. Dimostriamo la funzione ASC_NULLS_FIRST ().
Esempio 1
Ora, ordineremo i valori nella colonna Technology1 con i valori nessuno/null in ordine crescente usando la funzione ASC_NULLS_FIRST ().
#sort la colonna Technology1 in ordine crescente e ottieni prima i valori nulli.
dataframe_obj.Seleziona (DataFrame_Obj.Tecnologia1).OrderBy (dataframe_obj.Tecnologia1.ASC_
nulls_first ()).spettacolo()
Produzione:
In realtà, ci sono due valori null. Innanzitutto, sono collocati e più tardi, CSS e HTML sono ordinati in ordine crescente.
Esempio 2
Ora, ordineremo i valori nella colonna Technology2 che non ha valori NUNI/NULL in ordine crescente usando la funzione ASC_NULLS_FIRST ().
#sort la colonna Technology2 in ordine crescente e ottenere prima i valori nulli.
Dataframe_obj.Seleziona (DataFrame_Obj.Tecnologia2).OrderBy (dataframe_obj.Tecnologia2.ASC_
nulls_first ()).spettacolo()
Produzione:
In realtà, ci sono due valori null. Innanzitutto, sono collocati e più tardi, .Net e Pyspark sono ordinati in ordine crescente.
funzione asc_nulls_last ()
La funzione ASC_NULLS_LAST () ordina i valori in una colonna in ordine crescente, ma posizionerà i valori null esistenti in un ultimo colonna.
Può essere utilizzato con il metodo Select () per selezionare le colonne ordinate. È molto importante usare orderby () perché la cosa principale qui è ordinare.orderby () in quanto prende ASC_nulls_first () come parametro.
Sintassi
dataframe_obj.Seleziona (DataFrame_Obj.colonna).OrderBy (dataframe_obj.colonna.ASC_NULLS_LAST ())
Dove dataframe_obj è il frame dati e la colonna è il nome della colonna in cui vengono ordinati i valori, tutti i valori null verranno infine posizionati.
Quindi, il nostro telaio di dati è pronto. Dimostriamo la funzione ASC_NULLS_LAST ().
Esempio 1
Ora ordineremo i valori nella colonna Technology2 che non ha valori NUNI/NULL in ordine crescente usando la funzione ASC_NULLS_LAST ().
#sort la colonna Technology1 in ordine crescente e fai dura i valori nulli.
dataframe_obj.Seleziona (DataFrame_Obj.Tecnologia1).OrderBy (dataframe_obj.Tecnologia1.ASC_
nulls_last ()).spettacolo()
Produzione:
In realtà, ci sono due valori null. Innanzitutto, CSS e HTML sono ordinati in ordine crescente e due valori nulli vengono posizionati per ultimo.
Esempio 2
Ora ordineremo i valori nella colonna Technology2 che non ha valori NUNI/NULL in ordine crescente usando la funzione ASC_NULLS_LAST ().
#sort la colonna Technology2 in ordine crescente e fai dura i valori nulli.
dataframe_obj.Seleziona (DataFrame_Obj.Tecnologia2).OrderBy (dataframe_obj.Tecnologia2.ASC_
nulls_last ()).spettacolo()
Produzione:
In realtà, ci sono due valori null. Primo, .Net e Pyspark sono ordinati in ordine crescente e due valori nulli sono posizionati per ultimi.
Codice complessivo
importare pyspark
da pyspark.SQL Importazione di importazione
Spark_app = SparkSession.costruttore.nome dell'applicazione('_').getOrCreate ()
studenti = [(4, 'sravan', 23, nessuno, nessuno),
(4, "Chandana", 23, "CSS", "Pyspark"),
(46, "Mounika", 22, nessuno ".NETTO'),
(4, 'Deepika', 21, 'HTML', nessuno),
"
DataFrame_obj = Spark_app.CreateAtaFrame (Students, ['soggetto_id', 'name', 'age', 'technology1', 'technology2'])
dataframe_obj.spettacolo()
#sort la colonna Technology1 in ordine crescente e ottieni prima i valori nulli.
dataframe_obj.Seleziona (DataFrame_Obj.Tecnologia1).OrderBy (dataframe_obj.Tecnologia1.ASC_
nulls_first ()).spettacolo()
#sort la colonna Technology2 in ordine crescente e ottenere prima i valori nulli.
dataframe_obj.Seleziona (DataFrame_Obj.Tecnologia2).OrderBy (dataframe_obj.Tecnologia2.ASC_
nulls_first ()).spettacolo()
#sort la colonna Technology1 in ordine crescente e fai dura i valori nulli.
dataframe_obj.Seleziona (DataFrame_Obj.Tecnologia1).OrderBy (dataframe_obj.Tecnologia1.ASC_
nulls_last ()).spettacolo()
#sort la colonna Technology2 in ordine crescente e fai dura i valori nulli.
dataframe_obj.Seleziona (DataFrame_Obj.Tecnologia2).OrderBy (dataframe_obj.Tecnologia2.ASC_
nulls_last ()).spettacolo()
Conclusione
Entro la fine di questo tutorial Pyspark, abbiamo appreso che è possibile affrontare NULL durante l'ordinamento dei valori in un frame di dati usando le funzioni ASC_NULLS_FIRST () e ASC_NULLS_LAST (). La funzione ASC_NULLS_FIRST () ordina i valori in una colonna in ordine crescente, ma posizionerà prima i valori null esistenti in una colonna. La funzione ASC_NULLS_LAST () ordina i valori in una colonna in ordine crescente, ma posizionerà i valori null esistenti in un ultimo colonna. È possibile eseguire l'intero codice specificato nell'ultima parte del tutorial.