Pyspark - drop, drop colonna

Pyspark - drop, drop colonna
In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame. drop () in pyspark viene utilizzato per rimuovere le colonne dal frame dati. Usando Drop (), possiamo rimuovere più di una colonna alla volta nel Frame dati Pyspark. Possiamo abbandonare le colonne dal frame dati in tre modi. Prima di allora, dobbiamo creare il telaio di dati pyspark per la dimostrazione.

Esempio:

Creeremo un frame dati con 5 righe e 6 colonne e lo mostreremo usando il metodo show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Display DataFrame
df.spettacolo()

Produzione:

Ora, visualizza lo schema di dati dati utilizzando il metodo Printschema () per controllare le colonne prima di rimuovere le colonne.

Questo metodo restituirà i nomi delle colonne insieme al loro tipo di dati.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Import the CountFunction
da pyspark.SQL.Funzioni Conteggio delle importazioni
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#display lo schema
df.printschema ()

Produzione:

radice
|- Indirizzo: String (Nullable = True)
|- Age: Long (Nullable = True)
|- altezza: doppio (nulllable = true)
|- Nome: String (Nullable = True)
|- rollno: string (nulllable = true)
|- Peso: lungo (Nullable = True)

Metodo -1: drop singolo colonna

Rimuoveremo una sola colonna alla volta usando la funzione Drop () passando la colonna all'interno della funzione Drop.

Sintassi:

df.drop ('column_name')

Dove,

  1. DF è il frame dati pyspark input
  2. column_name è la colonna da far cadere.

Esempio :

In questo esempio, elimineremo la colonna del nome e visualizzeremo il frame dati risultante e lo schema.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Import the CountFunction
da pyspark.SQL.Funzioni Conteggio delle importazioni
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
colonna Nome #Drop
df = df.drop ('name')
#Cuck the DataFrame
Stampa (df.raccogliere())
#display lo schema
#dopo la rimozione della colonna dei nomi
df.printschema ()

Produzione:

[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, rollno = '001', peso = 67), riga (indirizzo = 'hyd', età = 16, altezza = 3.79, rollno = '002', peso = 34), riga (indirizzo = 'patna', età = 7, altezza = 2.79, rollno = '003', peso = 17), riga (indirizzo = 'hyd', età = 9, altezza = 3.69, rollno = '004', peso = 28), riga (indirizzo = 'hyd', età = 37, altezza = 5.59, rollno = '005', peso = 54)]
radice
|- Indirizzo: String (Nullable = True)
|- Age: Long (Nullable = True)
|- altezza: doppio (nulllable = true)
|- rollno: string (nulllable = true)
|- Peso: lungo (Nullable = True)

Nell'esempio sopra, vedremo che la colonna Nome non è presente nel frame dati

Metodo - 2: drop mutiple colonne

Rimuoveremo una sola colonna alla volta usando la funzione Drop () passando la colonna all'interno della funzione Drop. Se dobbiamo rimuovere più colonne, dobbiamo aggiungere * prima dei nomi delle colonne da rimuovere all'interno ().

Sintassi:

df.drop (*('column_name', 'column_name',…, 'column_name'))

Dove,

  1. DF è il frame dati pyspark input
  2. column_name è la colonna da far cadere.

Esempio :

In questo esempio, elimineremo le colonne di nome, altezza e peso e visualizzeremo il frame dati risultante insieme allo schema.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Import the CountFunction
da pyspark.SQL.Funzioni Conteggio delle importazioni
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
Nome #Drop, colonna di altezza e peso
df = df.drop (*('name', 'altezza', 'peso'))
#Cuck the DataFrame
Stampa (df.raccogliere())
#display lo schema
#dopo la rimozione della colonna dei nomi
df.printschema ()

Produzione:

[Riga (indirizzo = 'guntur', età = 23, rollno = '001'), riga (indirizzo = 'hyd', età = 16, rollno = '002'), riga (indirizzo = 'patna', età = 7 , rollno = '003'), riga (indirizzo = 'hyd', età = 9, rollno = '004'), riga (indirizzo = 'hyd', età = 37, rollno = '005')]
radice
|- Indirizzo: String (Nullable = True)
|- Age: Long (Nullable = True)
|- rollno: string (nulllable = true)

Nell'esempio sopra, vedremo che il nome, l'altezza e le colonne di peso non sono presenti nel frame dati.

Metodo - 3: drop mutiple colonne da un elenco

Rimuoveremo una sola colonna alla volta usando la funzione Drop () passando la colonna all'interno della funzione Drop. Se dobbiamo rimuovere più colonne, dobbiamo aggiungere * prima dei nomi delle colonne da rimuovere all'interno di un elenco - [].

Sintassi:

df.drop (*elenco)

Qui, l'elenco avrà più colonne

list = (column_name ',' column_name ',…,' column_name ')

Dove,

  1. DF è il frame dati pyspark input
  2. column_name è la colonna da far cadere.

Esempio :

In questo esempio, abbandoneremo le colonne del nome, dell'altezza e del peso tramite List1 e visualizzeremo il frame dati risultante insieme allo schema.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Import the CountFunction
da pyspark.SQL.Funzioni Conteggio delle importazioni
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#list di colonne
list1 = ['name', 'altezza', 'peso']
#Drop Colonne dall'elenco1
df = df.drop (*list1)
#Cuck the DataFrame
Stampa (df.raccogliere())
#display lo schema
#dopo la rimozione della colonna dei nomi
df.printschema ()

Produzione:

[Riga (indirizzo = 'guntur', età = 23, rollno = '001'), riga (indirizzo = 'hyd', età = 16, rollno = '002'), riga (indirizzo = 'patna', età = 7 , rollno = '003'), riga (indirizzo = 'hyd', età = 9, rollno = '004'), riga (indirizzo = 'hyd', età = 37, rollno = '005')]
radice
|- Indirizzo: String (Nullable = True)
|- Age: Long (Nullable = True)
|- rollno: string (nulllable = true)

Nell'esempio sopra, vedremo che il nome, l'altezza e le colonne di peso non sono presenti nel frame dati.

Conclusione:

Abbiamo discusso di come abbandonare le colonne usando la funzione Drop () e abbiamo anche discusso di come rimuovere più colonne alla volta con Drop passando un elenco di colonne e passando più colonne.