Pyspark - Conte

Pyspark - Conte
In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame. Count () in Pyspark viene utilizzato per restituire il numero di righe da una colonna particolare nel frame dati. Possiamo ottenere il conteggio in tre modi.
  1. Metodo 1: utilizzando il metodo Select ()
  2. Metodo 2: utilizzando Agg () Metodo
  3. Metodo 3: usando il metodo GroupBy ()

Prima di allora, dobbiamo creare il telaio di dati pyspark per la dimostrazione.

Esempio:

Creeremo un frame dati con 5 righe e 6 colonne e lo mostreremo usando il metodo show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Display DataFrame
df.spettacolo()

Produzione:

Metodo -1: utilizzando il metodo Select ()

Possiamo ottenere il conteggio dalla colonna nel frame dati utilizzando il metodo Select (). Usando il metodo Count (), possiamo ottenere il numero totale di righe dalla colonna. Per usare questo metodo, dobbiamo importarlo da Pyspark.SQL.Modulo Funzioni e, infine, possiamo usare il metodo Collect () per ottenere il conteggio dalla colonna

Sintassi:

df.selezionare (count ('column_name'))

Dove,

  1. DF è il frame dati pyspark input
  2. Column_Name è la colonna per ottenere il numero totale di righe (conteggio).

Se vogliamo restituire il conteggio da più colonne, dobbiamo utilizzare il metodo Count () all'interno del metodo Select () specificando il nome della colonna separato da una virgola.

Sintassi:

df.Seleziona (count ('column_name'), count ('column_name'), .. ., count ('column_name'))

Dove,

  1. DF è il frame dati pyspark input
  2. Column_Name è la colonna per ottenere il numero totale di righe (conteggio).

Esempio 1: colonna singola

Questo esempio otterrà il conteggio dalla colonna di altezza nel frame dati pyspark.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione di conteggio
da pyspark.SQL.Funzioni Conteggio delle importazioni
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#RETURN Il numero di valori/righe dalla colonna di altezza
#using di conteggio
df.Seleziona (count ('altezza')).raccogliere()

Produzione:

[Riga (conteggio (altezza) = 5)]

Nell'esempio sopra, il conteggio dalla colonna di altezza viene restituito.

Esempio 2: più colonne

Questo esempio otterrà il conteggio dall'altezza, dall'età e dalle colonne di peso nel frame dati Pyspark.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione di conteggio
da pyspark.SQL.Funzioni Conteggio delle importazioni
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#TRIMINARE IL CONTENE DALL'ATTENZIONE DALL'ATTENZA
df.Seleziona (conteggio ("altezza"), conteggio ("età"), count ("peso")).raccogliere()

Produzione:

[Riga (conteggio (altezza) = 5, conteggio (età) = 5, conteggio (peso) = 5)]

Nell'esempio sopra, il conteggio dall'altezza, dall'età e dalle colonne di peso viene restituito.

Metodo - 2: utilizzando Agg () Metodo

Possiamo ottenere il conteggio dalla colonna nel frame dati utilizzando il metodo Agg (). Questo metodo è noto come aggregazione, che raggruppa i valori all'interno di una colonna. Ci vorrà il dizionario come parametro in quella chiave sarà il nome della colonna e il valore è la funzione aggregata, i.e., contare. Usando il metodo Count (), possiamo ottenere il numero di righe dalla colonna e, infine, possiamo usare il metodo Collect () per ottenere il conteggio dalla colonna.

Sintassi:

df.agg ('column_name': count)

Dove,

  1. DF è il frame dati pyspark input
  2. Column_Name è la colonna per ottenere il numero totale di righe (conteggio).
  3. Il conteggio è una funzione di aggregazione utilizzata per restituire il numero di righe

Se vogliamo restituire il conteggio da più colonne, dobbiamo specificare il nome della colonna con la funzione di conteggio separata da una virgola.

Sintassi:

df.agg ('column_name': count, 'column_name': count,…, 'column_name': count)

Dove,

  1. DF è il frame dati pyspark input
  2. Column_Name è la colonna per ottenere il numero totale di righe (conteggio).
  3. Il conteggio è una funzione di aggregazione utilizzata per restituire il numero totale di righe

Esempio 1: colonna singola

Questo esempio otterrà il conteggio dalla colonna di altezza nel frame dati pyspark.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#RETURN Il numero di righe La colonna di altezza
df.agg ('altezza': 'count').raccogliere()

Produzione:

[Riga (conteggio (altezza) = 5)]

Nell'esempio sopra, il conteggio dalla colonna di altezza viene restituito.

Esempio 2: più colonne

Questo esempio otterrà il conteggio dall'altezza, dall'età e dalle colonne di peso nel frame dati Pyspark.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Trenturn il numero di file dall'altezza, dall'età e dalle colonne di peso
df.Agg ("altezza": "Count", "Age": "Count", "Weight": "Count").raccogliere()

Produzione:

[Riga (conteggio (peso) = 5, conteggio (età) = 5, conteggio (altezza) = 5)]

Nell'esempio sopra, il conteggio dall'altezza, dall'età e dalle colonne di peso viene restituito.

Metodo - 3: usando il metodo GroupBy ()

Possiamo ottenere il conteggio dalla colonna nel frame dati utilizzando il metodo GroupBy (). Questo metodo restituirà il numero totale di righe raggruppando valori simili in una colonna. Dobbiamo usare la funzione count () dopo aver eseguito la funzione GroupBy ()

Sintassi:

df.Groupby (Group_Column). contare()

Dove,

  1. DF è il frame dati pyspark input
  2. Group_column è la colonna in cui i valori sono raggruppati in base a questa colonna
  3. Il conteggio è una funzione aggregata utilizzata per restituire il numero totale di righe in base a righe raggruppate

Esempio :

In questo esempio, raggrupperemo la colonna dell'indirizzo e otteniamo il conteggio

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#RETURN Il conteggio delle righe raggruppando la colonna
df.GroupBy ('indirizzo').contare().raccogliere()

Produzione:

Ci sono tre valori univoci nel campo dell'indirizzo: Hyd, Guntur e Patna. Quindi il conteggio verrà formato raggruppando i valori attraverso i valori dell'indirizzo.

[Riga (indirizzo = 'hyd', count = 3),
Riga (indirizzo = 'guntur', count = 1),
Riga (indirizzo = 'patna', count = 1)]

Conclusione:

Abbiamo discusso di come ottenere il conteggio dal PysPark DataFrame utilizzando i metodi Select () e Agg (). Per ottenere il numero totale di righe raggruppando con altre colonne, abbiamo usato il gruppo insieme alla funzione count ().