In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame. Creiamo un frame dati pyspark.
Esempio:
In questo esempio, creeremo il Frame dati PysPark con 5 righe e 6 colonne e visualizzano il metodo show ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Display DataFrame
df.spettacolo()
Produzione:
Pyspark - asc ()
In Pyspark, ASC () viene utilizzato per disporre le righe in ordine crescente nel frame dati.
Restituirà il nuovo telaio di dati organizzando le righe nel frame dati esistente. È usato con le funzioni di ordinamento () o ordine ().
Metodo - 1: usando ASC () con funzione Col
Qui, stiamo usando le funzioni orderBy () o Ording () per ordinare il Frame dati PysPark in base alle colonne in ordine crescente. Dobbiamo specificare i nomi delle colonne/e all'interno della funzione orderBy ()/sort () attraverso la funzione COL. Dobbiamo importare questa funzione da Pyspark.SQL.modulo funzioni. Questo viene utilizzato per leggere una colonna dal Frame dati Pyspark.
Sintassi:
DataFrame.orderby (col ("column_name").asc (),…, col ("column_name").ASC ())
DataFrame.Ordine (col ("column_name").asc (),…, col ("column_name").ASC ())
Qui,
- DataFrame è il Frame dati Pyspark input.
- column_name è la colonna in cui l'ordinamento viene applicata tramite la funzione col.
Esempio:
In questo esempio, ordineremo il telaio di dati in ordine crescente in base alle colonne di indirizzo e età con le funzioni di orderBy () e ordinamento () e visualizzare il telaio di dati ordinato usando il metodo collect ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Ordina i dati di dati in base alle colonne di indirizzo e età
# e visualizza il telaio di dati ordinato
Stampa (df.orderby (col ("indirizzo").ASC (), col ("età").ASC ()).raccogliere())
stampa()
Stampa (df.Ordina (col ("indirizzo").ASC (), col ("età").ASC ()).raccogliere())
Produzione:
[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67),
Riga (indirizzo = 'hyd', età = 9, altezza = 3.69, name = 'rohith', rollno = '004', peso = 28),
Riga (indirizzo = 'hyd', età = 16, altezza = 3.79, name = 'ojaswi', rollno = '002', peso = 34),
Riga (indirizzo = 'hyd', età = 37, altezza = 5.59, name = 'sridevi', rollno = '005', peso = 54),
Riga (indirizzo = 'patna', età = 7, altezza = 2.79, nome = 'gnanesh chowdary', rollno = '003', peso = 17)]
[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67),
Riga (indirizzo = 'hyd', età = 9, altezza = 3.69, name = 'rohith', rollno = '004', peso = 28),
Riga (indirizzo = 'hyd', età = 16, altezza = 3.79, name = 'ojaswi', rollno = '002', peso = 34),
Riga (indirizzo = 'hyd', età = 37, altezza = 5.59, name = 'sridevi', rollno = '005', peso = 54),
Riga (indirizzo = 'patna', età = 7, altezza = 2.79, nome = 'gnanesh chowdary', rollno = '003', peso = 17)]
Metodo - 2: utilizzando ASC () con l'etichetta DataFrame
Qui, stiamo usando le funzioni orderBy () o Ording () per ordinare il Frame dati PysPark in base alle colonne in ordine crescente. Dobbiamo specificare i nomi delle colonne/etichette all'interno della funzione OrderBy ()/Sort () tramite il nome/etichetta della colonna DataFrame.
Sintassi:
DataFrame.OrderBy (DataFrame.column_name.Asc (), ..., DataFrame.column_name.ASC ())
DataFrame.Ordina (DataFrame.column_name.Asc (), ..., DataFrame.column_name.ASC ())
Qui,
- DataFrame è il Frame dati Pyspark input.
- column_name è la colonna in cui viene applicata l'ordinamento.
Esempio:
In questo esempio, ordineremo il frame dati in ordine crescente in base alle colonne di indirizzo e età con la funzione orderby () e ordin () e visualizzare il telaio di dati ordinato utilizzando il metodo collect ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Ordina i dati di dati in base alle colonne di indirizzo e età
# e visualizza il telaio di dati ordinato
Stampa (df.Orderby (df.indirizzo.ASC (), DF.età.ASC ()).raccogliere())
stampa()
Stampa (df.Ordina (df.indirizzo.ASC (), DF.età.ASC ()).raccogliere())
Produzione:
[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67),
Riga (indirizzo = 'hyd', età = 9, altezza = 3.69, name = 'rohith', rollno = '004', peso = 28),
Riga (indirizzo = 'hyd', età = 16, altezza = 3.79, name = 'ojaswi', rollno = '002', peso = 34),
Riga (indirizzo = 'hyd', età = 37, altezza = 5.59, name = 'sridevi', rollno = '005', peso = 54),
Riga (indirizzo = 'patna', età = 7, altezza = 2.79, nome = 'gnanesh chowdary', rollno = '003', peso = 17)]
[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67),
Riga (indirizzo = 'hyd', età = 9, altezza = 3.69, name = 'rohith', rollno = '004', peso = 28),
Riga (indirizzo = 'hyd', età = 16, altezza = 3.79, name = 'ojaswi', rollno = '002', peso = 34),
Riga (indirizzo = 'hyd', età = 37, altezza = 5.59, name = 'sridevi', rollno = '005', peso = 54),
Riga (indirizzo = 'patna', età = 7, altezza = 2.79, nome = 'gnanesh chowdary', rollno = '003', peso = 17)]
Metodo - 3: Utilizzo di ASC () con l'indice DataFrame
Qui, stiamo usando le funzioni orderBy () o Ording () per ordinare il Frame dati PysPark in base alle colonne in ordine crescente. Dobbiamo specificare l'indice di colonna/indici all'interno della funzione OrderBy ()/Sort () tramite l'indice/posizione della colonna di dati di dati. In DataFrame, l'indicizzazione inizia con '0'.
Sintassi:
DataFrame.orderby (dataframe [column_index].Asc (), ..., DataFrame [column_index].ASC ())
DataFrame.Ordine (DataFrame [column_index].Asc (), ..., DataFrame [column_index].ASC ())
Qui,
- DataFrame è il Frame dati Pyspark input.
- column_index è la posizione della colonna in cui viene applicata l'ordinamento.
Esempio:
In questo esempio, ordineremo il frame dati in ordine crescente in base alle colonne di indirizzo e età con la funzione orderby () e ordin () e visualizzare il telaio di dati ordinato utilizzando il metodo collect ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Ordina i dati di dati in base alle colonne di indirizzo e età
# e visualizza il telaio di dati ordinato
Stampa (df.Orderby (DF [0].ASC (), DF [1].ASC ()).raccogliere())
stampa()
Stampa (df.Ordina (df [0].ASC (), DF [1].ASC ()).raccogliere())
Produzione:
[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67),
Riga (indirizzo = 'hyd', età = 9, altezza = 3.69, name = 'rohith', rollno = '004', peso = 28),
Riga (indirizzo = 'hyd', età = 16, altezza = 3.79, name = 'ojaswi', rollno = '002', peso = 34),
Riga (indirizzo = 'hyd', età = 37, altezza = 5.59, name = 'sridevi', rollno = '005', peso = 54),
Riga (indirizzo = 'patna', età = 7, altezza = 2.79, nome = 'gnanesh chowdary', rollno = '003', peso = 17)]
[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67),
Riga (indirizzo = 'hyd', età = 9, altezza = 3.69, name = 'rohith', rollno = '004', peso = 28),
Riga (indirizzo = 'hyd', età = 16, altezza = 3.79, name = 'ojaswi', rollno = '002', peso = 34),
Riga (indirizzo = 'hyd', età = 37, altezza = 5.59, name = 'sridevi', rollno = '005', peso = 54),
Riga (indirizzo = 'patna', età = 7, altezza = 2.79, nome = 'gnanesh chowdary', rollno = '003', peso = 17)]
Pyspark - desc ()
In Pyspark, Desc () viene utilizzato per disporre le righe in ordine decrescente nel frame dati.
Restituirà il nuovo telaio di dati organizzando le righe nel frame dati esistente. È usato con le funzioni di ordinamento () o ordine ().
Metodo - 1: usando desc () con funzione col
Qui, stiamo utilizzando le funzioni orderBy () o Ording () per ordinare il Frame dati PysPark in base alle colonne per ordinare il Frame dati PysPark in Discending Order. Dobbiamo specificare i nomi delle colonne/e all'interno della funzione orderBy ()/sort () attraverso la funzione COL. Dobbiamo importare questa funzione da Pyspark.SQL.modulo funzioni. Questo viene utilizzato per leggere una colonna dal Frame dati Pyspark.
Sintassi:
DataFrame.orderby (col ("column_name").Desc (), ..., col ("column_name").Desc ())
DataFrame.Ordine (col ("column_name").Desc (), ..., col ("column_name").Desc ())
Qui,
- DataFrame è il Frame dati Pyspark input.
- column_name è la colonna in cui l'ordinamento viene applicata tramite la funzione col.
Esempio:
In questo esempio, ordineremo il telaio di dati in ordine decrescente in base alle colonne di indirizzo e età con le funzioni di orderBy () e Ordine () e visualizzare il telaio di dati ordinato utilizzando il metodo collect ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Ordina i dati di dati in base alle colonne di indirizzo e età
# e visualizza il telaio di dati ordinato
Stampa (df.orderby (col ("indirizzo").Desc (), col ("età").Desc ()).raccogliere())
stampa()
Stampa (df.Ordina (col ("indirizzo").Desc (), col ("età").Desc ()).raccogliere())
Produzione:
[Riga (indirizzo = 'patna', età = 7, altezza = 2.79, nome = 'gnanesh chowdary', rollno = '003', peso = 17),
Riga (indirizzo = 'hyd', età = 37, altezza = 5.59, name = 'sridevi', rollno = '005', peso = 54),
Riga (indirizzo = 'hyd', età = 16, altezza = 3.79, name = 'ojaswi', rollno = '002', peso = 34),
Riga (indirizzo = 'hyd', età = 9, altezza = 3.69, name = 'rohith', rollno = '004', peso = 28),
Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67)]
[Riga (indirizzo = 'patna', età = 7, altezza = 2.79, nome = 'gnanesh chowdary', rollno = '003', peso = 17),
Riga (indirizzo = 'hyd', età = 37, altezza = 5.59, name = 'sridevi', rollno = '005', peso = 54),
Riga (indirizzo = 'hyd', età = 16, altezza = 3.79, name = 'ojaswi', rollno = '002', peso = 34),
Riga (indirizzo = 'hyd', età = 9, altezza = 3.69, name = 'rohith', rollno = '004', peso = 28),
Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67)]
Metodo - 2: usando Desc () con l'etichetta DataFrame
Qui, stiamo utilizzando le funzioni orderBy () o Ording () per ordinare il Frame dati PysPark in base alle colonne per ordinare il Frame dati PysPark in Discending Order. Dobbiamo specificare i nomi delle colonne/etichette all'interno della funzione OrderBy ()/Sort () tramite il nome/etichetta della colonna DataFrame.
Sintassi:
DataFrame.OrderBy (DataFrame.column_name.Desc (), ..., DataFrame.column_name.Desc ())
DataFrame.Ordina (DataFrame.column_name.Desc (), ..., DataFrame.column_name.Desc ())
Qui,
- DataFrame è il Frame dati Pyspark input.
- column_name è la colonna in cui viene applicata l'ordinamento.
Esempio:
In questo esempio, ordineremo il telaio di dati in ordine decrescente in base alle colonne di indirizzo e età con la funzione orderby () e ordin () e visualizzare il telaio di dati ordinato usando il metodo collect ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Ordina i dati di dati in base alle colonne di indirizzo e età
# e visualizza il telaio di dati ordinato
Stampa (df.Orderby (df.indirizzo.Desc (), df.età.Desc ()).raccogliere())
stampa()
Stampa (df.Ordina (df.indirizzo.Desc (), df.età.Desc ()).raccogliere())
Produzione:
[Riga (indirizzo = 'patna', età = 7, altezza = 2.79, nome = 'gnanesh chowdary', rollno = '003', peso = 17),
Riga (indirizzo = 'hyd', età = 37, altezza = 5.59, name = 'sridevi', rollno = '005', peso = 54),
Riga (indirizzo = 'hyd', età = 16, altezza = 3.79, name = 'ojaswi', rollno = '002', peso = 34),
Riga (indirizzo = 'hyd', età = 9, altezza = 3.69, name = 'rohith', rollno = '004', peso = 28),
Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67)]
[Riga (indirizzo = 'patna', età = 7, altezza = 2.79, nome = 'gnanesh chowdary', rollno = '003', peso = 17),
Riga (indirizzo = 'hyd', età = 37, altezza = 5.59, name = 'sridevi', rollno = '005', peso = 54),
Riga (indirizzo = 'hyd', età = 16, altezza = 3.79, name = 'ojaswi', rollno = '002', peso = 34),
Riga (indirizzo = 'hyd', età = 9, altezza = 3.69, name = 'rohith', rollno = '004', peso = 28),
Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67)]
Metodo - 3: Utilizzo di ASC () con l'indice DataFrame
Qui, stiamo usando le funzioni orderBy () o Ording () per ordinare il frame dati pyspark in base alle colonne in ordine decrescente. Dobbiamo specificare l'indice di colonna/indici all'interno della funzione OrderBy ()/Sort () tramite l'indice/posizione della colonna di dati di dati. In DataFrame, l'indicizzazione inizia con '0'.
Sintassi:
DataFrame.orderby (dataframe [column_index].Desc (), ..., DataFrame [column_index].Desc ())
DataFrame.Ordine (DataFrame [column_index].Desc (), ..., DataFrame [column_index].Desc ())
Qui,
- DataFrame è il Frame dati Pyspark input.
- column_index è la posizione della colonna in cui viene applicata l'ordinamento.
Esempio:
In questo esempio, ordineremo il telaio di dati in ordine decrescente in base alle colonne di indirizzo e età con la funzione orderby () e ordin () e visualizzare il telaio di dati ordinato usando il metodo collect ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Ordina i dati di dati in base alle colonne di indirizzo e età
# e visualizza il telaio di dati ordinato
Stampa (df.Orderby (DF [0].ASC (), DF [1].ASC ()).raccogliere())
stampa()
Stampa (df.Ordina (df [0].ASC (), DF [1].ASC ()).raccogliere())
Produzione:
[Riga (indirizzo = 'patna', età = 7, altezza = 2.79, nome = 'gnanesh chowdary', rollno = '003', peso = 17),
Riga (indirizzo = 'hyd', età = 37, altezza = 5.59, name = 'sridevi', rollno = '005', peso = 54),
Riga (indirizzo = 'hyd', età = 16, altezza = 3.79, name = 'ojaswi', rollno = '002', peso = 34),
Riga (indirizzo = 'hyd', età = 9, altezza = 3.69, name = 'rohith', rollno = '004', peso = 28),
Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67)]
[Riga (indirizzo = 'patna', età = 7, altezza = 2.79, nome = 'gnanesh chowdary', rollno = '003', peso = 17),
Riga (indirizzo = 'hyd', età = 37, altezza = 5.59, name = 'sridevi', rollno = '005', peso = 54),
Riga (indirizzo = 'hyd', età = 16, altezza = 3.79, name = 'ojaswi', rollno = '002', peso = 34),
Riga (indirizzo = 'hyd', età = 9, altezza = 3.69, name = 'rohith', rollno = '004', peso = 28),
Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67)]
Varie
Possiamo anche utilizzare entrambe le funzioni su diverse colonne in Pyspark DataFrame alla volta.
Esempio:
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Ordina i dati di dati in base alle colonne di indirizzo e età
# e visualizza il telaio di dati ordinato
Stampa (df.orderby (col ("indirizzo").Desc (), col ("età").ASC ()).raccogliere())
stampa()
Stampa (df.Ordina (col ("indirizzo").ASC (), col ("età").Desc ()).raccogliere())
Produzione:
[Riga (indirizzo = 'patna', età = 7, altezza = 2.79, nome = 'gnanesh chowdary', rollno = '003', peso = 17), riga (indirizzo = 'hyd', età = 9, altezza = 3.69, name = 'rohith', rollno = '004', peso = 28), riga (indirizzo = 'hyd', età = 16, altezza = 3.79, name = 'ojaswi', rollno = '002', peso = 34), riga (indirizzo = 'hyd', età = 37, altezza = 5.59, name = 'sridevi', rollno = '005', peso = 54), riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67)]
[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67), riga (indirizzo = 'hyd', età = 37, altezza = 5.59, name = 'sridevi', rollno = '005', peso = 54), riga (indirizzo = 'hyd', età = 16, altezza = 3.79, name = 'ojaswi', rollno = '002', peso = 34), riga (indirizzo = 'hyd', età = 9, altezza = 3.69, name = 'rohith', rollno = '004', peso = 28), riga (indirizzo = 'patna', età = 7, altezza = 2.79, nome = 'gnanesh chowdary', rollno = '003', peso = 17)]
Conclusione
In questo articolo, discutiamo di come utilizzare la funzione ASC () utilizzando tre scenari con le funzioni di Ordine () e OrderBy () sul Frame dati PysPark in Python. Infine, siamo arrivati a un punto in cui possiamo ordinare i dati in ordine crescente usando ASC () e Discending Order usando Desc () nel frame dati PysPark in base alle colonne presenti nel frame dati.