Pyspark - min

Pyspark - min
In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame. min () in pyspark viene utilizzato per restituire il valore minimo da una colonna particolare nel frame dati. Possiamo ottenere il valore minimo in tre modi.
  1. Metodo 1: utilizzando il metodo Select ()
  2. Metodo 2: utilizzando Agg () Metodo
  3. Metodo 3: usando il metodo GroupBy ()

Prima di allora, dobbiamo creare il telaio di dati pyspark per la dimostrazione.

Esempio:

Creeremo un frame dati con 5 righe e 6 colonne e lo mostreremo usando il metodo show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Display DataFrame
df.spettacolo()

Screenshot di output:

Metodo -1: utilizzando il metodo Select ()

Possiamo ottenere il valore minimo dalla colonna nel frame dati utilizzando il metodo Select (). Usando il metodo min (), possiamo ottenere il valore minimo dalla colonna. Per usare questo metodo, dobbiamo importarlo da Pyspark.SQL.Modulo Funzioni e, infine, possiamo usare il metodo collect () per ottenere il minimo dalla colonna

Sintassi:

df.Seleziona (min ('column_name'))

Dove,

  1. DF è il frame dati pyspark input
  2. column_name è la colonna per ottenere il valore minimo

Se vogliamo restituire il valore minimo da più colonne, dobbiamo utilizzare il metodo Min () all'interno del metodo Select () specificando il nome della colonna separato da una virgola.

Sintassi:

df.Seleziona (min ('column_name'), min ('column_name'), .. ., min ('column_name'))

Dove,

  1. DF è il frame dati pyspark input
  2. column_name è la colonna per ottenere il valore minimo

Esempio 1: colonna singola

Questo esempio otterrà il valore minimo dalla colonna di altezza nel frame dati pyspark.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione minima - min
da pyspark.SQL.funzioni importanti min
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Trenturn il minimo dalla colonna di altezza
df.Seleziona (min ('altezza')).raccogliere()

Produzione:

[Riga (min (altezza) = 2.79)]

Nell'esempio sopra, viene restituito il valore minimo dalla colonna di altezza.

Esempio 2: più colonne

Questo esempio otterrà il valore minimo dall'altezza, dall'età e dalle colonne di peso nel frame dati Pyspark.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione minima - min
da pyspark.SQL.funzioni importanti min
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#RETURN il minimo dall'altezza, dall'età e dalle colonne di peso
df.Seleziona (min ('altezza'), min ('età'), min ('peso')).raccogliere()

Produzione:

[Riga (min (altezza) = 2.79, min (età) = 7, min (peso) = 17)

Nell'esempio sopra, viene restituito il valore minimo dall'altezza, dall'età e dalle colonne di peso.

Metodo - 2: utilizzando Agg () Metodo

Possiamo ottenere il valore minimo dalla colonna nel frame dati utilizzando il metodo Agg (). Questo metodo è noto come aggregazione, che raggruppa i valori all'interno di una colonna. Ci vorrà il dizionario come parametro in quella chiave sarà il nome della colonna e il valore è la funzione aggregata, i.e., min. Usando il metodo min (), possiamo ottenere il valore minimo dalla colonna e, infine, possiamo usare il metodo collect () per ottenere il minimo dalla colonna.

Sintassi:

df.agg ('column_name': min)

Dove,

  1. DF è il frame dati pyspark input
  2. column_name è la colonna per ottenere il valore minimo
  3. Min è una funzione di aggregazione utilizzata per restituire il valore minimo

Se vogliamo restituire il valore minimo da più colonne, dobbiamo specificare il nome della colonna con la funzione Min separata da una virgola.

Sintassi:

df.agg ('column_name': min, 'column_name': min,…, 'column_name': min)

Dove,

  1. DF è il frame dati pyspark input
  2. column_name è la colonna per ottenere il valore minimo
  3. Min è una funzione di aggregazione utilizzata per restituire il valore minimo

Esempio 1: colonna singola

Questo esempio otterrà il valore minimo dalla colonna di altezza nel frame dati pyspark.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Trenturn il minimo dalla colonna di altezza
df.agg ('altezza': 'min').raccogliere()

Produzione:

[Riga (min (altezza) = 2.79)]

Nell'esempio sopra, viene restituito il valore minimo dalla colonna di altezza.

Esempio 2: più colonne

Questo esempio otterrà il valore minimo dall'altezza, dall'età e dalle colonne di peso nel frame dati Pyspark.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#RETURN il minimo dall'altezza, dall'età e dalle colonne di peso
df.Agg ("altezza": "min", "age": "min", "peso": "min").raccogliere()

Produzione:

[Riga (min (peso) = 17, min (età) = 7, min (altezza) = 2.79)]

Nell'esempio sopra, viene restituito il valore minimo dall'altezza, dall'età e dalle colonne di peso.

Metodo - 3: usando il metodo GroupBy ()

Possiamo ottenere il valore minimo dalla colonna nel metodo GroupBy (). Questo metodo restituirà il valore minimo raggruppando valori simili in una colonna. Dobbiamo usare la funzione min () dopo aver eseguito la funzione GroupBy ()

Sintassi:

df.Groupby (Group_Column). min ('column_name')

Dove,

  1. DF è il frame dati pyspark input
  2. Group_column è la colonna in cui i valori sono raggruppati in base a questa colonna
  3. column_name è la colonna per ottenere il valore minimo
  4. Min è una funzione di aggregazione utilizzata per restituire il valore minimo.

Esempio 1:

In questo esempio, raggrupperemo la colonna dell'indirizzo con la colonna di altezza per restituire il valore minimo in base alla colonna di questo indirizzo.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#RETURN Il minimo dal raggruppamento della colonna di altezza con colonna Indirizzo
df.GroupBy ('indirizzo').min ('altezza').raccogliere()

Produzione:

Ci sono tre valori univoci nel campo dell'indirizzo: Hyd, Guntur e Patna. Quindi il minimo verrà formato raggruppando i valori attraverso i valori dell'indirizzo.

[Riga (indirizzo = 'hyd', min (altezza) = 3.69),
Riga (indirizzo = 'guntur', min (altezza) = 5.79),
Riga (indirizzo = 'patna', min (altezza) = 2.79)]

Esempio 2:

In questo esempio, raggrupperemo la colonna dell'indirizzo con la colonna Peso per restituire il valore minimo in base alla colonna di questo indirizzo.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#RETURN Il minimo dal raggruppamento della colonna Peso con colonna Indirizzo
df.GroupBy ('indirizzo').min ('peso').raccogliere()

Produzione:

Ci sono tre valori univoci nel campo dell'indirizzo: Hyd, Guntur e Patna. Quindi il minimo verrà formato raggruppando i valori attraverso i valori dell'indirizzo.

[Riga (indirizzo = 'hyd', min (peso) = 28),
Riga (indirizzo = 'guntur', min (peso) = 67),
Riga (indirizzo = 'patna', min (peso) = 17)]

Conclusione:

Abbiamo discusso di come ottenere il valore minimo dai metodi PysPark Data Using the Select () e Agg (). Per ottenere il valore minimo raggruppandosi con altre colonne, abbiamo usato il gruppo insieme alla funzione min (). Vedi anche Articolo Pyspark Max ().