Ottieni le informazioni Pyspark DataFrame

Nestore Caruso

In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame. Siamo in grado di ottenere le informazioni di dati PysPark come numero totale di righe e colonne, statistiche sui frame dati e dimensioni del frame dati. Creiamo un frame dati pyspark per la dimostrazione.

Esempio:
In questo esempio, creeremo il Frame dati PysPark con 5 righe e 6 colonne e visualizzano il metodo show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students1 = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedAtaFrame (Students1)
# Visualizza dati dati
df.spettacolo()

Produzione:

Scenario 1: ottenere il numero totale di righe

Possiamo ottenere il numero totale di righe nella funzione PysPark DataFrame utilizzando Count ().

Sintassi:
DataFrame.contare()

Dove, dati è il frame dati di input pyspark.

Esempio:
In questo esempio, useremo la funzione Count () per ottenere il numero totale di righe.

Produzione:

Scenario 2: Ottieni il numero totale di colonne

Possiamo ottenere il numero totale di colonne nella funzione PysPark DataFrame usando Len () con il metodo delle colonne.

Il metodo delle colonne restituirà tutte le colonne in un elenco. Quindi, possiamo applicare la funzione Len () per restituire il numero di colonne.

Sintassi:
LEN (DataFrame.colonne)

Dove, dati è il frame dati di input pyspark.

Esempio:
In questo esempio, useremo la funzione Len () per ottenere il numero totale di colonne e visualizzare le colonne usando il metodo delle colonne.

Produzione:

['indirizzo', 'age', 'altezza', 'nome', 'rollno', 'peso'

Scenario 3: Ottieni le statistiche

Possiamo ottenere statistiche come conteggio, media, deviazione standard e valore minimo e il valore massimo dal metodo PysPark Data Using Descrive ()

Sintassi:
DataFrame.descrivere()

Dove, dati è il frame dati di input pyspark.

Nota - Non esiste una deviazione media e standard per i valori del tipo di stringa. In tal caso, il risultato è nullo.

Esempio:
In questo esempio, useremo la funzione Descrive () per ottenere le statistiche.

Produzione:

Dall'output sopra, il nome è di tipo stringa. Quindi, il valore null è occupato per deviazione media e standard.

Possiamo usare il riepilogo () per restituire le statistiche. È simile al metodo Descrive (). Ma questo restituirà i valori dell'intervallo del 25%, 50% e 75%.

Esempio:
In questo esempio, useremo la funzione Descrive () per ottenere le statistiche.

Produzione:

Conclusione

In questo articolo, abbiamo discusso dell'uso delle funzioni di descrizione () e sommario (). Vengono utilizzati per restituire le statistiche del Frame di dati di input Pyspark. Abbiamo visto che usando il metodo Len () possiamo ottenere il numero totale di colonne e usando il metodo Count (), possiamo ottenere il numero totale di righe in PysPark DataFrame.

Golang

Introduzione al linguaggio di programmazione di Golang

Golang è un linguaggio di programmazione open source sviluppato da Google. Segui questo articolo per...

Nick Marini

Comandi Linux

Come installare e abilitare l'autenticazione multi-fattore SSH per i sistemi Linux

Tutorial su come installare e abilitare MFA per l'accesso SSH sui sistemi Linux impostando un metodo...

Sig. Valdo Marchetti

PHP

Come utilizzare la funzione di serializzazione PHP

La funzione serializza () può serializzare un array, un oggetto o una struttura di dati complessa in...

Artemide Ricci