Pyspark - Funzioni di timestamp

Pyspark - Funzioni di timestamp
In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame.

Discuteremo le funzioni del timestamp in pyspark. Creiamo innanzitutto un frame dati.

Timestamp

Un timestamp è un dati che includono data e ora.

La data include mesi, data e anno.

Il tempo include ora, minuto, secondo e Millsecond.

Possiamo rappresentare il timestamp come - (YYYY, MM, DD, H, M, S, MI.S)

Dove:

  1. YYYY - Rappresenta l'anno in formato a quattro cifre
  2. Mm - rappresenta il mese in formato a due cifre
  3. DD - Rappresenta la data in formato a due cifre
  4. H - Rappresenta ora
  5. M - rappresenta un minuto
  6. S - rappresenta il secondo
  7. Mi.S rappresenta milli-secondi

Utilizzando il modulo DateTime possiamo creare timestamp. Quindi, richiede l'importazione del modulo DateTime.

Creazione di esempio:
appuntamento.DateTime (2022, 2, 16, 2, 46, 30, 144585)

Esempio:
Qui creeremo PysPark DataFrame con 5 righe e 3 colonne con timestamp e visualizzeremo il metodo di data con il telaio di data ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#import tutti i metodi da pyspark.SQL.modulo funzioni
da pyspark.SQL.funzioni importanti *
# Importa modulo DateTime
Importa DateTime
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 3 attributi
Students = ['rollno': '001', 'name': 'sravan', 'ammesse_date': datetime.DateTime (2022, 2, 16, 2, 46, 30, 144585),
'rollno': '002', 'name': 'deepeka', 'ammesse_date': datetime.DateTime (2022, 2, 11, 3, 46, 10, 144582),
'rollno': '003', 'name': 'chandrika', 'ammesse_date': datetime.DateTime (2021, 1, 8, 4, 46, 44, 194585),
'rollno': '004', 'name': 'akash', 'ammesse_date': datetime.DateTime (2022, 4, 16, 6, 46, 45, 144185),
'rollno': '005', 'name': 'thanuja', 'ammed_date': datetime.DateTime (2012, 5, 6, 2, 46, 47, 154585)
"
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Visualizza dati dati
df.raccogliere()

Produzione:

[Riga (ammesse_date = datetime.DateTime (2022, 2, 16, 2, 46, 30, 144585), name = 'sravan', rollno = '001'),
Riga (ammesse_date = datetime.DateTime (2022, 2, 11, 3, 46, 10, 144582), nome = 'Deepika', rollno = '002'),
Riga (ammesse_date = datetime.DateTime (2021, 1, 8, 4, 46, 44, 194585), name = 'Chandrika', rollno = '003'),
Riga (ammesse_date = datetime.DateTime (2022, 4, 16, 6, 46, 45, 144185), nome = 'Akash', rollno = '004'),
Riga (ammesse_date = datetime.DateTime (2012, 5, 6, 2, 46, 47, 154585), name = 'thanuja', rollno = '005')]

formato data()

Questo formato viene utilizzato per estrarre la data/ora dal timestamp dato. Ci vorrà il formato data/ora e otterrà la data/ora in base a questo formato.

Per ottenere la data, il formato è "YYYY-MM-DD". Possiamo posizionare mm/dd/yyyy in qualsiasi ordine.

Sintassi:
date_format (col ("timestamp_column"), "yyyy-mm-dd").alias ("result_column")

Dove:

  1. timestamp_column è la colonna dati Timestamp
  2. result_column è l'etichetta per questa colonna formattata

Per avere il tempo, il formato è “HH: MM: SS.SSS ".

Sintassi:
DataFrame.Seleziona (date_format (col ("timestamp_column"), "HH: MM: SS.SSS ”).alias ("result_column"))

Dove:

  1. timestamp_column è la colonna dati Timestamp
  2. result_column è l'etichetta per questa colonna formattata

Esempio 1:
In questo esempio, estrarremo la data come "data" dalla colonna di timestamp ammessa_date e la visualizzeremo usando il metodo show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#import tutti i metodi da pyspark.SQL.modulo funzioni
da pyspark.SQL.funzioni importanti *
# Importa modulo DateTime
Importa DateTime
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 3 attributi
Students = ['rollno': '001', 'name': 'sravan', 'ammesse_date': datetime.DateTime (2022, 2, 16, 2, 46, 30, 144585),
'rollno': '002', 'name': 'deepeka', 'ammesse_date': datetime.DateTime (2022, 2, 11, 3, 46, 10, 144582),
'rollno': '003', 'name': 'chandrika', 'ammesse_date': datetime.DateTime (2021, 1, 8, 4, 46, 44, 194585),
'rollno': '004', 'name': 'akash', 'ammesse_date': datetime.DateTime (2022, 4, 16, 6, 46, 45, 144185),
'rollno': '005', 'name': 'thanuja', 'ammed_date': datetime.DateTime (2012, 5, 6, 2, 46, 47, 154585)
"
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Estratto data dal timestamp
df.Select (col ("ammesse_date"), date_format (col ("ammesse_date"), "yyyy-mm-dd").alias ("data")).spettacolo()

Produzione:

Esempio 2:
In questo esempio, estrarremo il tempo come "tempo" dalla colonna Timestamp ammessa_date e la visualizzeremo usando il metodo show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#import tutti i metodi da pyspark.SQL.modulo funzioni
da pyspark.SQL.funzioni importanti *
# Importa modulo DateTime
Importa DateTime
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 3 attributi
Students = ['rollno': '001', 'name': 'sravan', 'ammesse_date': datetime.DateTime (2022, 2, 16, 2, 46, 30, 144585),
'rollno': '002', 'name': 'deepeka', 'ammesse_date': datetime.DateTime (2022, 2, 11, 3, 46, 10, 144582),
'rollno': '003', 'name': 'chandrika', 'ammesse_date': datetime.DateTime (2021, 1, 8, 4, 46, 44, 194585),
'rollno': '004', 'name': 'akash', 'ammesse_date': datetime.DateTime (2022, 4, 16, 6, 46, 45, 144185),
'rollno': '005', 'name': 'thanuja', 'ammed_date': datetime.DateTime (2012, 5, 6, 2, 46, 47, 154585)
"
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Estrai tempo dal timestamp
df.Select (col ("ammesse_date"), date_format (col ("ammesse_date"), "HH: MM: SS.SSS ").alias ("tempo")).spettacolo()

Produzione:

ora()

Hour () è un metodo che restituirà ora dal timone dato. Restituirà ore attraverso le righe in una colonna Timestamp.

Sintassi:
DataFrame.Seleziona (ora (col ("timestamp_column"))

Dove, timestamp_column è la colonna dati timestamp.

minuto ()

minuto () è un metodo che restituirà minuti dal timone dato. Restituirà minuti attraverso le righe in una colonna Timestamp.

Sintassi:
DataFrame.Seleziona (minuto (col ("timestamp_column"))

Dove, timestamp_column è la colonna dati timestamp.

secondo()

Second () è un metodo che restituirà secondi dal timestamp dato. Restituirà secondi attraverso le righe in una colonna Timestamp.

Sintassi:
DataFrame.Seleziona (secondo (col ("timestamp_column"))

Dove, timestamp_column è la colonna dati timestamp.

Esempio:
In questo esempio, estrarremo l'ora, i minuti e i secondi dalla colonna Timestamp ammessi_date usando i metodi sopra e visualizzano il telaio di dati utilizzando il metodo show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#import tutti i metodi da pyspark.SQL.modulo funzioni
da pyspark.SQL.funzioni importanti *
# Importa modulo DateTime
Importa DateTime
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 3 attributi
Students = ['rollno': '001', 'name': 'sravan', 'ammesse_date': datetime.DateTime (2022, 2, 16, 2, 46, 30, 144585),
'rollno': '002', 'name': 'deepeka', 'ammesse_date': datetime.DateTime (2022, 2, 11, 3, 46, 10, 144582),
'rollno': '003', 'name': 'chandrika', 'ammesse_date': datetime.DateTime (2021, 1, 8, 4, 46, 44, 194585),
'rollno': '004', 'name': 'akash', 'ammesse_date': datetime.DateTime (2022, 4, 16, 6, 46, 45, 144185),
'rollno': '005', 'name': 'thanuja', 'ammed_date': datetime.DateTime (2012, 5, 6, 2, 46, 47, 154585)
"
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Estrai ore dal timestamp
df.Select (col ("ammesse_date"), ora (col ("ammesse_date"))).spettacolo()
# Estrai minuti dal timestamp
df.Select (col ("ammesse_date"), minuto (col ("ammesse_date"))).spettacolo()
# Estrai secondi dal timestamp
df.Select (col ("ammesse_date"), secondo (col ("ammetto_date"))).spettacolo()

Produzione:

Conclusione

In questo tutorial, abbiamo discusso di come estrarre la data e l'ora utilizzando il metodo Date_Format () e usando hour (), minuto () e secondo (). Abbiamo estratto ore, minuti e secondi dalla colonna Timestamp nel Frame dati Pyspark.