In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame. La deviazione standard è un calcolo matematico per determinare quanto siano simili o diversi numeri. Ad esempio, le persone diranno, questo numero è x numero di deviazioni standard lontano dalla media. O in totale tutti i numeri in un set sono con il numero di deviazioni standard, ecc. Dimostreremo tre funzioni per la deviazione standard in questo articolo usando Pyspark. Per ciascuna di queste funzioni forniremo esempi con
Selezionare() E
agg () metodi.
- Pyspark - stddev ()
- Pyspark - stddev_samp ()
- Pyspark - stddev_pop ()
Pyspark - stddev ()
stddev () in pyspark viene utilizzato per restituire la deviazione standard da una colonna particolare nel frame dati.
Prima di allora, dobbiamo creare il telaio di dati pyspark per la dimostrazione.
Esempio:
Creeremo un frame dati con 5 righe e 6 colonne e lo visualizzeremo utilizzando il spettacolo() metodo.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Display DataFrame
df.spettacolo()
Produzione:
Metodo -1: utilizzando il metodo Select ()
Possiamo ottenere la deviazione standard dalla colonna nel frame dati utilizzando il metodo Select (). Usando il metodo stddev (), possiamo ottenere la deviazione standard dalla colonna. Per usare questo metodo, dobbiamo importarlo da Pyspark.SQL.Modulo Funzioni e, infine, possiamo utilizzare il metodo collect () per ottenere la deviazione standard dalla colonna
Sintassi:
df.Seleziona (stddev ('column_name'))
Dove,
- DF è il frame dati pyspark input
- Column_name è la colonna per ottenere la deviazione standard
Se vogliamo restituire la deviazione standard da più colonne, dobbiamo utilizzare il metodo StdDev () all'interno del metodo Select () specificando il nome della colonna separato da una virgola.
Sintassi:
df.Seleziona (stddev ('column_name'), stddev ('column_name'), .. ., stddev ('column_name'))
Dove,
- DF è il frame dati pyspark input
- Column_name è la colonna per ottenere la deviazione standard
Esempio 1: colonna singola
Questo esempio otterrà la deviazione standard dalla colonna di altezza nel frame dati Pyspark.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#IMPORT LA DEVAZIONE STASTSRD - FUNZIONE STDDEV
da pyspark.SQL.Funzioni Importa stddev
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Trenturn La deviazione standard dalla colonna di altezza
df.Seleziona (stddev ('altezza')).raccogliere()
Produzione:
[Riga (stddev_samp (altezza) = 1.3030732903409539)]
Nell'esempio sopra, la deviazione standard dalla colonna di altezza viene restituita.
Esempio 2: più colonne
Questo esempio otterrà la deviazione standard dall'altezza, dall'età e dalle colonne di peso nel frame dati Pyspark.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#IMPORT LA DEVAZIONE STASTSRD - FUNZIONE STDDEV
da pyspark.SQL.Funzioni Importa stddev
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Trenturn la deviazione standard dall'altezza, dall'età e dalla colonna di peso
df.Seleziona (stddev ('altezza'), stddev ('age'), stddev ('peso')).raccogliere()
Produzione:
[Riga (stddev_samp (altezza) = 1.3030732903409539, stddev_samp (età) = 12.157302332343306, stddev_samp (peso) = 20.211382931407737)]
La deviazione standard dall'altezza, dall'età e dalle colonne di peso viene restituita nell'esempio sopra.
Metodo - 2: utilizzando Agg () Metodo
Possiamo ottenere la deviazione standard dalla colonna nel frame dati utilizzando il metodo Agg (). Questo metodo è noto come aggregazione, che raggruppa i valori all'interno di una colonna. Ci vorrà il dizionario come parametro in quella chiave sarà il nome della colonna e il valore è la funzione aggregata, i.e., stddev. Usando il metodo stddev (), possiamo ottenere la deviazione standard dalla colonna e, infine, possiamo usare il metodo Collect () per ottenere la deviazione standard dalla colonna.
Sintassi:
df.agg ('column_name': stddev)
Dove,
- DF è il frame dati pyspark input
- Column_name è la colonna per ottenere la deviazione standard
- STDDEV è una funzione di aggregazione utilizzata per restituire la deviazione standard
Se vogliamo restituire la deviazione standard da più colonne, dobbiamo specificare il nome della colonna con la funzione STDDEV separata da una virgola.
Sintassi:
df.agg ('column_name': stddev, 'column_name': stddev,…, 'column_name': stddev)
Dove,
- DF è il frame dati pyspark input
- Column_name è la colonna per ottenere la deviazione standard
- STDDEV è una funzione di aggregazione utilizzata per restituire la deviazione standard
Esempio 1: colonna singola
Questo esempio otterrà la deviazione standard dalla colonna di altezza nel frame dati Pyspark.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Trenturn La deviazione standard dalla colonna di altezza
df.agg ('altezza': 'stddev').raccogliere()
Produzione:
[Riga (stddev (altezza) = 1.3030732903409539)]
Nell'esempio sopra, la deviazione standard dalla colonna di altezza viene restituita.
Esempio 2: più colonne
Questo esempio otterrà la deviazione standard dall'altezza, dall'età e dalle colonne di peso nel frame dati Pyspark.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Trenturn la deviazione standard dall'altezza e la colonna di peso
df.Agg ("altezza": "stddev", "age": "stddev", "peso": "stddev").raccogliere()
Produzione:
[Riga (stddev (peso) = 20.211382931407737, stddev (età) = 12.157302332343306, stddev (altezza) = 1.3030732903409539)]
La deviazione standard dall'altezza, dall'età e dalle colonne di peso viene restituita nell'esempio sopra.
Pyspark - stddev_samp ()
Stddev_samp () in pyspark viene utilizzato per restituire la deviazione standard di un campione da una colonna particolare nel frame dati. È simile alla funzione stddev ().
Prima di allora, dobbiamo creare il telaio di dati pyspark per la dimostrazione.
Esempio:
Creeremo un frame dati con 5 righe e 6 colonne e lo mostreremo usando il metodo show ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Display DataFrame
df.spettacolo()
Produzione:
Metodo -1: utilizzando il metodo Select ()
Possiamo ottenere la deviazione standard dalla colonna nel frame dati utilizzando il metodo Select (). Usando il metodo stddev_samp (), possiamo ottenere la deviazione standard dalla colonna. Per usare questo metodo, dobbiamo importarlo da Pyspark.SQL.Modulo Funzioni e, infine, possiamo utilizzare il metodo collect () per ottenere la deviazione standard dalla colonna
Sintassi:
df.Seleziona (stddev_samp ('column_name'))
Dove,
- DF è il frame dati pyspark input
- column_name è la colonna per ottenere la deviazione standard in un campione
Se vogliamo restituire la deviazione standard da più colonne di un campione, dobbiamo utilizzare il metodo stddev_samp () all'interno del metodo select () specificando il nome della colonna separato da una virgola.
Sintassi:
df.Seleziona (stddev_samp ('column_name'), stddev_samp ('column_name'), .. ., stddev_samp ('column_name'))
Dove,
- DF è il frame dati pyspark input
- Column_name è la colonna per ottenere la deviazione standard per il campione dato
Esempio 1: colonna singola
In questo esempio, otterremo la deviazione standard di un campione dalla colonna di altezza nel frame dati pyspark.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#IMPORT LA DEVAZIONE STASTSRD - FUNZIONE STDDEV_SAMP
da pyspark.SQL.funzioni Importa stddev_samp
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Trenturn La deviazione standard dalla colonna di altezza
df.Seleziona (stddev_samp ('altezza')).raccogliere()
Produzione:
[Riga (stddev_samp (altezza) = 1.3030732903409539)]
Nell'esempio sopra, la deviazione standard dalla colonna di altezza viene restituita.
Esempio 2: più colonne
In questo esempio, otterremo la deviazione standard del campione dall'altezza, dall'età e dalle colonne di peso nel frame dati Pyspark.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#IMPORT LA DEVAZIONE STASTSRD - FUNZIONE STDDEV_SAMP
da pyspark.SQL.funzioni Importa stddev_samp
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Trenturn la deviazione standard dall'altezza, dall'età e dalla colonna di peso
df.Seleziona (stddev_samp ('altezza'), stddev_samp ('age'), stddev_samp ('peso'))).raccogliere()
Produzione:
[Riga (stddev_samp (altezza) = 1.3030732903409539, stddev_samp (età) = 12.157302332343306, stddev_samp (peso) = 20.211382931407737)]
Nell'esempio sopra, viene restituita la deviazione standard dall'altezza, dall'età e dalle colonne di peso.
Metodo - 2: utilizzando Agg () Metodo
Possiamo ottenere la deviazione standard di un campione dalla colonna nel frame dati utilizzando il metodo Agg (). Questo metodo è noto come aggregazione, che raggruppa i valori all'interno di una colonna. Ci vorrà il dizionario come parametro in quella chiave sarà il nome della colonna e il valore è la funzione aggregata, i.e., stddev_samp. Usando il metodo stddev_samp (), possiamo ottenere la deviazione standard dalla colonna e, infine, possiamo usare il metodo Collect () per ottenere la deviazione standard di un campione dalla colonna.
Sintassi:
df.agg ('column_name': stddev_samp)
Dove,
- DF è il frame dati pyspark input
- column_name è la colonna per ottenere la deviazione standard di un campione
- stddev_samp è una funzione di aggregazione utilizzata per restituire la deviazione standard di un campione
Se vogliamo restituire la deviazione standard da più colonne, dobbiamo specificare il nome della colonna con la funzione STDDEV_SAMP separata da una virgola.
Sintassi:
df.agg ('column_name': stddev_samp, 'column_name': stddev_samp,…, 'column_name': stddev_samp)
Dove,
- DF è il frame dati pyspark input
- column_name è la colonna per ottenere la deviazione standard di un campione
- stddev_samp è una funzione di aggregazione utilizzata per restituire la deviazione standard di un campione
Esempio 1: colonna singola
Questo esempio otterrà la deviazione standard dalla colonna di altezza nel frame dati Pyspark.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Trenturn La deviazione standard dalla colonna di altezza
df.agg ('altezza': 'stddev_samp').raccogliere()
Produzione:
[Riga (stddev_samp (altezza) = 1.3030732903409539)]
Nell'esempio sopra, viene restituita la deviazione standard di un campione dalla colonna di altezza.
Esempio 2: più colonne
In questo esempio, otterremo la deviazione standard di un campione dall'altezza, dall'età e dalle colonne di peso nel frame dati Pyspark.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Trenturn la deviazione standard dall'altezza e la colonna di peso
df.Agg ("altezza": "stddev_samp", "age": "stddev_samp", "peso": "stddev_samp").raccogliere()
Produzione:
[Riga (stddev_samp (peso) = 20.211382931407737, stddev_samp (età) = 12.157302332343306, stddev_samp (altezza) = 1.3030732903409539)]
Nell'esempio sopra, viene restituita la deviazione standard dall'altezza, dall'età e dalle colonne di peso.
Pyspark - stddev_pop ()
stddev_pop () in pyspark viene utilizzato per restituire la deviazione standard di una popolazione da una colonna particolare nel frame dati.
Prima di allora, dobbiamo creare il telaio di dati pyspark per la dimostrazione.
Esempio:
Creeremo un frame dati con 5 righe e 6 colonne e lo mostreremo usando il metodo show ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Display DataFrame
df.spettacolo()
Produzione:
Metodo -1: utilizzando il metodo Select ()
Possiamo ottenere la deviazione standard dalla colonna nel frame dati utilizzando il metodo Select (). Usando il metodo stddev_pop (), possiamo ottenere la deviazione standard della popolazione dalla colonna. Per usare questo metodo, dobbiamo importarlo da Pyspark.SQL.Modulo Funzioni e, infine, possiamo utilizzare il metodo collect () per ottenere la deviazione standard dalla colonna
Sintassi:
df.Seleziona (stddev_pop ('column_name'))
Dove,
- DF è il frame dati pyspark input
- column_name è la colonna per ottenere la deviazione standard di una popolazione
Se vogliamo restituire la deviazione standard da più colonne per il campione dato, dobbiamo utilizzare il metodo stddev_pop () all'interno del metodo Select () specificando il nome della colonna separato da una virgola.
Sintassi:
df.Seleziona (stddev_pop ('column_name'), stddev_pop ('column_name'), .. ., stddev_pop ('column_name'))
Dove,
- DF è il frame dati pyspark input
- column_name è la colonna per ottenere la deviazione standard per la popolazione data
Esempio 1: colonna singola
In questo esempio, otterremo la deviazione standard di una popolazione dalla colonna di altezza nel frame dati pyspark.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#IMPORT la deviazione standard - funzione stddev_pop
da pyspark.SQL.funzioni Importa stddev_pop
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Trenturn La deviazione standard dalla colonna di altezza
df.Seleziona (stddev_pop ('altezza')).raccogliere()
Produzione:
[Riga (stddev_pop (altezza) = 1.1655041827466772)]
Nell'esempio sopra, la deviazione standard dalla colonna di altezza viene restituita.
Esempio 2: più colonne
In questo esempio, otterremo la deviazione standard della popolazione dall'altezza, dall'età e dalle colonne di peso nel frame dati Pyspark.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#IMPORT LA DEVAZIONE STASTSRD - FUNZIONE STDDEV_POP
da pyspark.SQL.funzioni Importa stddev_pop
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Trenturn la deviazione standard dall'altezza, dall'età e dalla colonna di peso
df.Seleziona (stddev_pop ('altezza'), stddev_pop ('age'), stddev_pop ('peso'))).raccogliere()
Produzione:
[Riga (stddev_pop (altezza) = 1.1655041827466772, stddev_pop (età) = 10.87382177525455, stddev_pop (peso) = 18.077610461562667)]
Nell'esempio sopra, viene restituita la deviazione standard dall'altezza, dall'età e dalle colonne di peso.
Metodo - 2: utilizzando Agg () Metodo
Possiamo ottenere la deviazione standard della popolazione dalla colonna nel frame dati utilizzando il metodo Agg (). Questo metodo è noto come aggregazione, che raggruppa i valori all'interno di una colonna. Ci vorrà il dizionario come parametro in quella chiave sarà il nome della colonna e il valore è la funzione aggregata, i.e. stddev_pop. Usando il metodo stddev_pop (), possiamo ottenere la deviazione standard dalla colonna. Infine, possiamo usare il metodo Collect () per ottenere la deviazione standard di una popolazione dalla colonna.
Sintassi:
df.agg ('column_name': stddev_pop)
Dove,
- DF è il frame dati pyspark input
- column_name è la colonna per ottenere la deviazione standard di una popolazione
- stddev_pop è una funzione di aggregazione utilizzata per restituire la deviazione standard di una popolazione
Se vogliamo restituire la deviazione standard da più colonne, dobbiamo specificare il nome della colonna con la funzione stddev_pop separata da una virgola.
Sintassi:
df.agg ('column_name': stddev_pop, 'column_name': stddev_pop,…, 'column_name': stddev_pop)
Dove,
- DF è il frame dati pyspark input
- column_name è la colonna per ottenere la deviazione standard di una popolazione
- stddev_pop è una funzione di aggregazione utilizzata per restituire la deviazione standard di una popolazione
Esempio 1: colonna singola
Questo esempio otterrà la deviazione standard dalla colonna di altezza nel frame dati Pyspark.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Trenturn La deviazione standard dalla colonna di altezza
df.agg ('altezza': 'stddev_pop').raccogliere()
Produzione:
[Riga (stddev_pop (altezza) = 1.1655041827466772)]
Nell'esempio sopra, viene restituita la deviazione standard di un campione dalla colonna di altezza.
Esempio 2: più colonne
In questo esempio, otterremo la deviazione standard di un campione dall'altezza, dall'età e dalle colonne di peso nel frame dati Pyspark.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Trenturn la deviazione standard dall'altezza e la colonna di peso
df.Agg ("altezza": "stddev_pop", "age": "stddev_pop", "peso": "stddev_pop").raccogliere()
Produzione:
[Riga (stddev_pop (peso) = 18.077610461562667, stddev_pop (età) = 10.87382177525455, stddev_pop (altezza) = 1.1655041827466772)]
Nell'esempio sopra, viene restituita la deviazione standard dall'altezza, dall'età e dalle colonne di peso.
Conclusione
Abbiamo discusso di come ottenere la deviazione standard dal frame dati Pyspark stddev (), stddev_samp () E stddev_pop () funzioni attraverso il Selezionare() E agg () metodi.