Ottieni le informazioni Pyspark DataFrame

Ottieni le informazioni Pyspark DataFrame
In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame. Siamo in grado di ottenere le informazioni di dati PysPark come numero totale di righe e colonne, statistiche sui frame dati e dimensioni del frame dati. Creiamo un frame dati pyspark per la dimostrazione.

Esempio:
In questo esempio, creeremo il Frame dati PysPark con 5 righe e 6 colonne e visualizzano il metodo show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students1 = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedAtaFrame (Students1)
# Visualizza dati dati
df.spettacolo()

Produzione:

Scenario 1: ottenere il numero totale di righe

Possiamo ottenere il numero totale di righe nella funzione PysPark DataFrame utilizzando Count ().

Sintassi:
DataFrame.contare()

Dove, dati è il frame dati di input pyspark.

Esempio:
In questo esempio, useremo la funzione Count () per ottenere il numero totale di righe.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students1 = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedAtaFrame (Students1)
# Visualizza il conteggio delle righe
Stampa (df.contare())

Produzione:

5

Scenario 2: Ottieni il numero totale di colonne

Possiamo ottenere il numero totale di colonne nella funzione PysPark DataFrame usando Len () con il metodo delle colonne.

Il metodo delle colonne restituirà tutte le colonne in un elenco. Quindi, possiamo applicare la funzione Len () per restituire il numero di colonne.

Sintassi:
LEN (DataFrame.colonne)

Dove, dati è il frame dati di input pyspark.

Esempio:
In questo esempio, useremo la funzione Len () per ottenere il numero totale di colonne e visualizzare le colonne usando il metodo delle colonne.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students1 = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedAtaFrame (Students1)
# Visualizza il conteggio delle colonne
Stampa (Len (DF.colonne))
# Visualizza le colonne
Stampa (df.colonne)

Produzione:

6

['indirizzo', 'age', 'altezza', 'nome', 'rollno', 'peso'

Scenario 3: Ottieni le statistiche

Possiamo ottenere statistiche come conteggio, media, deviazione standard e valore minimo e il valore massimo dal metodo PysPark Data Using Descrive ()

Sintassi:
DataFrame.descrivere()

Dove, dati è il frame dati di input pyspark.

Nota - Non esiste una deviazione media e standard per i valori del tipo di stringa. In tal caso, il risultato è nullo.

Esempio:
In questo esempio, useremo la funzione Descrive () per ottenere le statistiche.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students1 = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedAtaFrame (Students1)
df.descrivere().spettacolo()

Produzione:

Dall'output sopra, il nome è di tipo stringa. Quindi, il valore null è occupato per deviazione media e standard.

Possiamo usare il riepilogo () per restituire le statistiche. È simile al metodo Descrive (). Ma questo restituirà i valori dell'intervallo del 25%, 50% e 75%.

Esempio:
In questo esempio, useremo la funzione Descrive () per ottenere le statistiche.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students1 = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedAtaFrame (Students1)
# Ottieni il riepilogo
df.riepilogo().spettacolo()

Produzione:

Conclusione

In questo articolo, abbiamo discusso dell'uso delle funzioni di descrizione () e sommario (). Vengono utilizzati per restituire le statistiche del Frame di dati di input Pyspark. Abbiamo visto che usando il metodo Len () possiamo ottenere il numero totale di colonne e usando il metodo Count (), possiamo ottenere il numero totale di righe in PysPark DataFrame.