Discuteremo le funzioni del timestamp in pyspark. Creiamo innanzitutto un frame dati.
Timestamp
Un timestamp è un dati che includono data e ora.
La data include mesi, data e anno.
Il tempo include ora, minuto, secondo e Millsecond.
Possiamo rappresentare il timestamp come - (YYYY, MM, DD, H, M, S, MI.S)
Dove:
Utilizzando il modulo DateTime possiamo creare timestamp. Quindi, richiede l'importazione del modulo DateTime.
Creazione di esempio:
appuntamento.DateTime (2022, 2, 16, 2, 46, 30, 144585)
Esempio:
Qui creeremo PysPark DataFrame con 5 righe e 3 colonne con timestamp e visualizzeremo il metodo di data con il telaio di data ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#import tutti i metodi da pyspark.SQL.modulo funzioni
da pyspark.SQL.funzioni importanti *
# Importa modulo DateTime
Importa DateTime
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 3 attributi
Students = ['rollno': '001', 'name': 'sravan', 'ammesse_date': datetime.DateTime (2022, 2, 16, 2, 46, 30, 144585),
'rollno': '002', 'name': 'deepeka', 'ammesse_date': datetime.DateTime (2022, 2, 11, 3, 46, 10, 144582),
'rollno': '003', 'name': 'chandrika', 'ammesse_date': datetime.DateTime (2021, 1, 8, 4, 46, 44, 194585),
'rollno': '004', 'name': 'akash', 'ammesse_date': datetime.DateTime (2022, 4, 16, 6, 46, 45, 144185),
'rollno': '005', 'name': 'thanuja', 'ammed_date': datetime.DateTime (2012, 5, 6, 2, 46, 47, 154585)
"
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Visualizza dati dati
df.raccogliere()
Produzione:
[Riga (ammesse_date = datetime.DateTime (2022, 2, 16, 2, 46, 30, 144585), name = 'sravan', rollno = '001'),
Riga (ammesse_date = datetime.DateTime (2022, 2, 11, 3, 46, 10, 144582), nome = 'Deepika', rollno = '002'),
Riga (ammesse_date = datetime.DateTime (2021, 1, 8, 4, 46, 44, 194585), name = 'Chandrika', rollno = '003'),
Riga (ammesse_date = datetime.DateTime (2022, 4, 16, 6, 46, 45, 144185), nome = 'Akash', rollno = '004'),
Riga (ammesse_date = datetime.DateTime (2012, 5, 6, 2, 46, 47, 154585), name = 'thanuja', rollno = '005')]
formato data()
Questo formato viene utilizzato per estrarre la data/ora dal timestamp dato. Ci vorrà il formato data/ora e otterrà la data/ora in base a questo formato.
Per ottenere la data, il formato è "YYYY-MM-DD". Possiamo posizionare mm/dd/yyyy in qualsiasi ordine.
Sintassi:
date_format (col ("timestamp_column"), "yyyy-mm-dd").alias ("result_column")
Dove:
Per avere il tempo, il formato è “HH: MM: SS.SSS ".
Sintassi:
DataFrame.Seleziona (date_format (col ("timestamp_column"), "HH: MM: SS.SSS ”).alias ("result_column"))
Dove:
Esempio 1:
In questo esempio, estrarremo la data come "data" dalla colonna di timestamp ammessa_date e la visualizzeremo usando il metodo show ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#import tutti i metodi da pyspark.SQL.modulo funzioni
da pyspark.SQL.funzioni importanti *
# Importa modulo DateTime
Importa DateTime
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 3 attributi
Students = ['rollno': '001', 'name': 'sravan', 'ammesse_date': datetime.DateTime (2022, 2, 16, 2, 46, 30, 144585),
'rollno': '002', 'name': 'deepeka', 'ammesse_date': datetime.DateTime (2022, 2, 11, 3, 46, 10, 144582),
'rollno': '003', 'name': 'chandrika', 'ammesse_date': datetime.DateTime (2021, 1, 8, 4, 46, 44, 194585),
'rollno': '004', 'name': 'akash', 'ammesse_date': datetime.DateTime (2022, 4, 16, 6, 46, 45, 144185),
'rollno': '005', 'name': 'thanuja', 'ammed_date': datetime.DateTime (2012, 5, 6, 2, 46, 47, 154585)
"
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Estratto data dal timestamp
df.Select (col ("ammesse_date"), date_format (col ("ammesse_date"), "yyyy-mm-dd").alias ("data")).spettacolo()
Produzione:
Esempio 2:
In questo esempio, estrarremo il tempo come "tempo" dalla colonna Timestamp ammessa_date e la visualizzeremo usando il metodo show ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#import tutti i metodi da pyspark.SQL.modulo funzioni
da pyspark.SQL.funzioni importanti *
# Importa modulo DateTime
Importa DateTime
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 3 attributi
Students = ['rollno': '001', 'name': 'sravan', 'ammesse_date': datetime.DateTime (2022, 2, 16, 2, 46, 30, 144585),
'rollno': '002', 'name': 'deepeka', 'ammesse_date': datetime.DateTime (2022, 2, 11, 3, 46, 10, 144582),
'rollno': '003', 'name': 'chandrika', 'ammesse_date': datetime.DateTime (2021, 1, 8, 4, 46, 44, 194585),
'rollno': '004', 'name': 'akash', 'ammesse_date': datetime.DateTime (2022, 4, 16, 6, 46, 45, 144185),
'rollno': '005', 'name': 'thanuja', 'ammed_date': datetime.DateTime (2012, 5, 6, 2, 46, 47, 154585)
"
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Estrai tempo dal timestamp
df.Select (col ("ammesse_date"), date_format (col ("ammesse_date"), "HH: MM: SS.SSS ").alias ("tempo")).spettacolo()
Produzione:
ora()
Hour () è un metodo che restituirà ora dal timone dato. Restituirà ore attraverso le righe in una colonna Timestamp.
Sintassi:
DataFrame.Seleziona (ora (col ("timestamp_column"))
Dove, timestamp_column è la colonna dati timestamp.
minuto ()
minuto () è un metodo che restituirà minuti dal timone dato. Restituirà minuti attraverso le righe in una colonna Timestamp.
Sintassi:
DataFrame.Seleziona (minuto (col ("timestamp_column"))
Dove, timestamp_column è la colonna dati timestamp.
secondo()
Second () è un metodo che restituirà secondi dal timestamp dato. Restituirà secondi attraverso le righe in una colonna Timestamp.
Sintassi:
DataFrame.Seleziona (secondo (col ("timestamp_column"))
Dove, timestamp_column è la colonna dati timestamp.
Esempio:
In questo esempio, estrarremo l'ora, i minuti e i secondi dalla colonna Timestamp ammessi_date usando i metodi sopra e visualizzano il telaio di dati utilizzando il metodo show ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#import tutti i metodi da pyspark.SQL.modulo funzioni
da pyspark.SQL.funzioni importanti *
# Importa modulo DateTime
Importa DateTime
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 3 attributi
Students = ['rollno': '001', 'name': 'sravan', 'ammesse_date': datetime.DateTime (2022, 2, 16, 2, 46, 30, 144585),
'rollno': '002', 'name': 'deepeka', 'ammesse_date': datetime.DateTime (2022, 2, 11, 3, 46, 10, 144582),
'rollno': '003', 'name': 'chandrika', 'ammesse_date': datetime.DateTime (2021, 1, 8, 4, 46, 44, 194585),
'rollno': '004', 'name': 'akash', 'ammesse_date': datetime.DateTime (2022, 4, 16, 6, 46, 45, 144185),
'rollno': '005', 'name': 'thanuja', 'ammed_date': datetime.DateTime (2012, 5, 6, 2, 46, 47, 154585)
"
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Estrai ore dal timestamp
df.Select (col ("ammesse_date"), ora (col ("ammesse_date"))).spettacolo()
# Estrai minuti dal timestamp
df.Select (col ("ammesse_date"), minuto (col ("ammesse_date"))).spettacolo()
# Estrai secondi dal timestamp
df.Select (col ("ammesse_date"), secondo (col ("ammetto_date"))).spettacolo()
Produzione:
Conclusione
In questo tutorial, abbiamo discusso di come estrarre la data e l'ora utilizzando il metodo Date_Format () e usando hour (), minuto () e secondo (). Abbiamo estratto ore, minuti e secondi dalla colonna Timestamp nel Frame dati Pyspark.