In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark.
RDD sta per set di dati distribuiti resilienti. Possiamo chiamare RDD una struttura di dati fondamentali in Apache Spark.
Sintassi:
1 | Spark_app.SparkContext.parallelizza (dati) |
Possiamo visualizzare i dati in un formato tabulare. La struttura dei dati utilizzata è il frame dati.Formato tabulare significa che memorizza i dati in righe e colonne.
Sintassi:
In PysPark, possiamo creare un Frame Data dall'app Spark con il metodo createAtaFrame ().
Sintassi:
1 | Spark_app.creatotaframe (input_data, colonne) |
Laddove input_data può essere un dizionario o un elenco per creare un telaio di dati da questi dati e se input_data è un elenco di dizionari, le colonne non sono necessarie. Se si tratta di un elenco nidificato, dobbiamo fornire i nomi delle colonne.
Ora, discutiamo di come controllare i dati forniti in Pyspark RDD o DataFrame.
Creazione di Pyspark RDD:
In questo esempio, creeremo un RDD denominato e visualizzeremo usando l'azione da collezione ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
# Importa RDD da Pyspark.rdd
da pyspark.RDD Import RDD
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = Spark_app.SparkContext.parallelizzazione ([
'rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd'])
#display the rdd usando collect ()
Stampa (studenti.raccogliere())
Produzione:
['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
Creazione di Pyspark DataFrame:
In questo esempio, creeremo un telaio di dati denominato DF dai dati degli studenti e lo mostreremo utilizzando il metodo show ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#display il frame dati
df.spettacolo()
Produzione:
Metodo 1: isinstance ()
In Python, il metodo isinstance () viene utilizzato per confrontare l'oggetto dato (dati) con il tipo (RDD/DataFrame)
Sintassi:
1 | isinstance (oggetto, RDD/DataFrame) |
Ci vogliono due parametri:
Parametri:
Restituirà valori booleani (true/false).
Supponiamo che i dati siano RDD e che il tipo è anche RDD, quindi restituirà vero, altrimenti restituirà false.
Allo stesso modo, se i dati sono dati e tipo è anche data frame, allora restituirà vero, altrimenti restituirà false.
Esempio 1:
Controlla l'oggetto RDD
In questo esempio, applicheremo isinstance () per oggetto RDD.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION e FRAME DATI per la creazione di una sessione
da pyspark.SQL Import Sparksession, DataFrame
# Importa RDD da Pyspark.rdd
da pyspark.RDD Import RDD
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = Spark_app.SparkContext.parallelizzazione ([
'rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd'])
#Check Se l'oggetto degli studenti è RDD
Stampa (isinstance (Students, RDD))
#Check Se l'oggetto Students è DataFrame
Stampa (isinstance (studenti, dati dati))
Produzione:
1 2 3 | VERO |
Innanzitutto, abbiamo confrontato gli studenti con RDD; È tornato vero perché è un RDD; E poi abbiamo confrontato gli studenti con DataFrame, è stato restituito falso perché è un RDD (non un frame dati).
Esempio 2:
Controlla l'oggetto DataFrame
In questo esempio, applicheremo isinstance () per l'oggetto DataFrame.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION, FRAME DATI per la creazione di una sessione
da pyspark.SQL Import Sparksession, DataFrame
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
# Importa RDD da Pyspark.rdd
da pyspark.RDD Import RDD
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Check Se il DF è RDD
stampa (isinstance (df, rdd))
#Check Se il DF è data frame
Stampa (isinstance (df, dataframe))
Produzione:
1 2 3 | Falso |
Innanzitutto, abbiamo confrontato DF con RDD; È stato restituito falso perché è un telaio di dati e quindi abbiamo confrontato DF con i dati di dati; È stato restituito vero perché è un frame dati (non un RDD).
Metodo 2: tipo ()
In Python, il metodo type () restituisce la classe dell'oggetto specificato. Ci vuole oggetto come parametro.
Sintassi:
1 | tipo (oggetto) |
Esempio 1:
Controlla un oggetto RDD.
Applicheremo il tipo () all'oggetto RDD.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
# Importa RDD da Pyspark.rdd
da pyspark.RDD Import RDD
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = Spark_app.SparkContext.parallelizzazione ([
'rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd'])
#Cuck il tipo di studenti
stampa (tipo (studenti))
Produzione:
1 |
Possiamo vedere che la classe RDD viene restituita.
Esempio 2:
Controlla l'oggetto DataFrame.
Applicheremo Type () sull'oggetto DataFrame.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Cuck il tipo di DF
stampa (tipo (df))
Produzione:
1 |
Possiamo vedere che viene restituito il frame dati di classe.
Conclusione
Nell'articolo di cui sopra, abbiamo visto due modi per verificare se i dati o l'oggetto indicati sono un RDD o un frame dati utilizzando isinstance () e type (). È necessario notare che isinstance () si traduce in valori booleani in base all'oggetto dato - se il tipo di oggetto è lo stesso, allora restituirà vero, altrimenti falso. E il tipo () viene utilizzato per restituire la classe dei dati o dell'oggetto indicati.