Pyspark - Funzioni matematiche

Pyspark - Funzioni matematiche
In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame.

Discuteremo le funzioni matematiche in pyspark. Creiamo innanzitutto un frame dati

Esempio:
Qui creeremo Pyspark DataFrame con 5 righe e 6 colonne.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students1 = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 2.79, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 9, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedAtaFrame (Students1)
# Visualizza dati dati
df.spettacolo()

Produzione:

Pyspark - Floor ()

floor () è una funzione matematica disponibile in pyspark.SQL.Modulo funzioni utilizzato per restituire il valore del pavimento (sotto) del doppio valore dato.

Possiamo usarlo con il metodo Select () per visualizzare i valori del pavimento per una colonna.

Sintassi:
DataFrame.Seleziona ("Floor (" Colonna "))

Dove:

  1. DataFrame è il Frame dati Pyspark input
  2. la colonna è il nome della colonna in cui viene applicato il pavimento ()

Esempio :
In questo esempio, stiamo raccogliendo i valori del pavimento dalla colonna di altezza tramite il metodo Select () e visualizzarlo usando il metodo collection ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Mort Function Floor
da pyspark.SQL.Funzioni Importa il pavimento
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students1 = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 2.79, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 9, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedAtaFrame (Students1)
# Applica il pavimento sulla colonna di altezza
df.Seleziona (pavimento ('altezza')).raccogliere()

Produzione:

[Riga (pavimento (altezza) = 5),
Riga (pavimento (altezza) = 3),
Riga (pavimento (altezza) = 2),
Riga (pavimento (altezza) = 2),
Riga (pavimento (altezza) = 5)]

Pyspark - ceil ()

ceil () è una funzione matematica disponibile in pyspark.SQL.Modulo Funzioni utilizzato per restituire il valore del CEIL (TOP) del doppio valore dato.

Possiamo usarlo con il metodo Select () per visualizzare i valori CEIL per una colonna.

Sintassi:
DataFrame.Seleziona ("CEIL (" Colonna "))

Dove:

  1. DataFrame è il Frame dati Pyspark input
  2. la colonna è il nome della colonna in cui viene applicato il ceil ()

Esempio :
In questo esempio, stiamo raccogliendo i valori di CEIL dalla colonna di altezza tramite il metodo Select () e lo visualizziamo usando il metodo collection ()

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Mort Function Floor
da pyspark.SQL.Funzioni Importa il pavimento
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students1 = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 2.79, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 9, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedAtaFrame (Students1)
# Applica il CEIL su altezza colonna
df.Seleziona (ceil ('altezza')).raccogliere()

Produzione:

[Riga (ceil (altezza) = 6),
Riga (ceil (altezza) = 4),
Riga (ceil (altezza) = 3),
Riga (ceil (altezza) = 3),
Riga (ceil (altezza) = 6)]

Pyspark - round ()

Round () è una funzione matematica disponibile in pyspark.SQL.Funzioni Modulo utilizzato per restituire il valore arrotondato che è più vicino al doppio valore dato.

Possiamo usarlo con il metodo Select () per visualizzare i valori rotondi per una colonna.

Sintassi:
DataFrame.Seleziona ("round (" colonna "))

Dove:

  1. DataFrame è il Frame dati Pyspark input
  2. la colonna è il nome della colonna in cui viene applicato round ()

Esempio :
In questo esempio, stiamo raccogliendo valori arrotondati dalla colonna di altezza tramite il metodo Select () e lo visualizziamo usando il metodo collection ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Mort Function Floor
da pyspark.SQL.Funzioni Importa il pavimento
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students1 = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 2.79, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 9, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedAtaFrame (Students1)
# Applica la colonna rotonda su altezza
df.Seleziona (round ('altezza')).raccogliere()

Produzione:

[Riga (round (altezza, 0) = 6.0),
Riga (round (altezza, 0) = 4.0),
Riga (round (altezza, 0) = 3.0),
Riga (round (altezza, 0) = 3.0),
Riga (round (altezza, 0) = 6.0)]

Pyspark - funzioni sinusoidali

Sine è una funzione trigonometrica utilizzata per restituire i valori sinusoidali dalla colonna di dati Pyspark Data. Ci sono tre varianti nel seno. Sono sin (), asin () e sinh ().

Dove:

Sin () viene utilizzato per ottenere i valori sinusoidali.

asin () viene utilizzato per ottenere i valori mini inversi.

Sinh () viene utilizzato per ottenere i valori seno iperbolici.

Possiamo usarlo con il metodo Select () per visualizzare i valori risultanti per una colonna.

Si noti che devi importare queste funzioni da Pyspark.SQL.funzioni.

Sintassi:

DataFrame.Seleziona ("sin (" colonna "))
DataFrame.Seleziona ("Asin (" colonna "))
DataFrame.Seleziona ("Sinh (" Colonna "))

Dove:

  1. DataFrame è il Frame dati Pyspark input
  2. la colonna è il nome della colonna in cui vengono applicate le funzioni sinusoidali

Esempio:
In questo esempio, stiamo applicando le funzioni sinusoidali sulla colonna di altezza tramite metodo select () e visualizza i valori utilizzando il metodo collection ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#import funzioni sinusoidali
da pyspark.SQL.funzioni importanti sin, asin, sinh
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students1 = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 2.79, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 9, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedAtaFrame (Students1)
# Applica funzioni sinusoidali sulla colonna di altezza
df.Seleziona (sin ("altezza"), asin ("altezza"), sinh ("altezza")).raccogliere()

Produzione:

[Riga (sin (altezza) =-0.47343399708193507, asin (altezza) = nan, sinh (altezza) = 163.5049831968973),
Riga (sin (altezza) =-0.6039177530112606, asin (altezza) = nan, sinh (altezza) = 22.116902337066122),
Riga (sin (altezza) = 0.34439346725839, asin (altezza) = nan, sinh (altezza) = 8.109799293936714),
Riga (sin (altezza) = 0.34439346725839, asin (altezza) = nan, sinh (altezza) = 8.109799293936714),
Riga (sin (altezza) =-0.6389906043282237, asin (altezza) = nan, sinh (altezza) = 133.86594234289123)]

Pyspark - Funzioni del coseno

Il coseno è una funzione trigonometrica utilizzata per restituire i valori del coseno dalla colonna di dati Pyspark Data. Esistono tre varianti nel coseno. Sono cos (), acos () e cosh ().

Dove:
cos () viene utilizzato per ottenere i valori del coseno.

Acos () viene utilizzato per ottenere i valori del coseno inverso.

cosh () viene utilizzato per ottenere i valori del coseno iperbolico.

Possiamo usarlo con il metodo Select () per visualizzare i valori risultanti per una colonna.

Si noti che devi importare queste funzioni da Pyspark.SQL.funzioni

Sintassi:
DataFrame.Seleziona ("cos (" colonna "))
DataFrame.Seleziona ("ACOS (" colonna "))
DataFrame.Seleziona ("cosh (" colonna "))

Dove:

  1. DataFrame è il Frame dati Pyspark input
  2. la colonna è il nome della colonna in cui vengono applicate le funzioni del coseno

Esempio :
In questo esempio, stiamo applicando le funzioni del coseno sulla colonna di altezza tramite il metodo Select () e visualizziamo i valori utilizzando il metodo Collect ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#IMPORT FUNZIONI COSINE
da pyspark.SQL.Funzioni importanti cos, ACOS, cosh
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students1 = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 2.79, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 9, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedAtaFrame (Students1)
# Applica funzioni del coseno sulla colonna di altezza
df.Seleziona (cos ("altezza"), acos ("altezza"), cosh ("altezza")).raccogliere()

Produzione:

[Riga (cos (altezza) = 0.880829296973609, ACOS (altezza) = nan, cosh (altezza) = 163.50804117907373),
Riga (cos (altezza) =-0.7970466407920117, ACOS (altezza) = nan, cosh (altezza) = 22.139497938917245),
Riga (cos (altezza) =-0.9388254042737362, ACOS (altezza) = nan, cosh (altezza) = 8.171220507851714),
Riga (cos (altezza) =-0.9388254042737362, ACOS (altezza) = nan, cosh (altezza) = 8.171220507851714),
Riga (cos (altezza) = 0.7692145393713327, ACOS (altezza) = nan, cosh (altezza) = 133.86967737075594)]

Pyspark - Funzioni tangenti

Tangente è una funzione trigonometrica utilizzata per restituire i valori tangenti dalla colonna di dati Pyspark Data. Ci sono tre variazioni in tangente. Sono tan (), atan () e tanh ().

Dove:
tan () viene utilizzato per ottenere i valori tangenti.

Atan () viene utilizzato per ottenere i valori tangenti inversi.

Tanh () viene utilizzato per ottenere i valori tangenti iperbolici.

Possiamo usarlo con il metodo Select () per visualizzare i valori risultanti per una colonna.

Si noti che è possibile importare queste funzioni da Pyspark.SQL.funzioni

Sintassi:
DataFrame.Seleziona ("Tan (" colonna "))
DataFrame.Seleziona ("ATAN (" colonna "))
DataFrame.Seleziona ("TANH (" colonna "))

Dove:

  1. DataFrame è il Frame dati Pyspark input
  2. la colonna è il nome della colonna in cui vengono applicate le funzioni tangenti

Esempio :
In questo esempio, stiamo applicando funzioni tangenti sulla colonna di altezza tramite metodo select () e visualizza i valori utilizzando il metodo collection ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#IMPORT FUNZIONI TANGENTE
da pyspark.SQL.funzioni importanti tan, atan, tanh
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students1 = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 2.79, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 9, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedAtaFrame (Students1)
# Applica funzioni tangenti sulla colonna di altezza
df.Seleziona (tan ('altezza'), atan ('altezza'), tanh ('altezza')).raccogliere()

Produzione:

[Riga (tan (altezza) =-0.5374866602514016, Atan (altezza) = 1.3997719475525305, tanh (altezza) = 0.9999812976649076),
Riga (tan (altezza) = 0.7576943708227135, Atan (altezza) = 1.312823345585992, tanh (altezza) = 0.9989793986334531),
Riga (tan (altezza) =-0.36683441424852425, Atan (altezza) = 1.2266375707015524, tanh (altezza) = 0.9924832264829984),
Riga (tan (altezza) =-0.36683441424852425, Atan (altezza) = 1.2266375707015524, tanh (altezza) = 0.9924832264829984),
Riga (tan (altezza) =-0.8307053125262831, Atan (altezza) = 1.39377779115470312, tanh (altezza) = 0.9999720995229238)]

Conclusione

In questo articolo, abbiamo discusso di sei funzioni matematiche. Tra i sei, tre sono di funzioni trigonometriche: seno, coseno e tangenti. In ognuno di questi, abbiamo discusso di tutte le variazioni con esempi. I restanti tre sono: CEIL (), Floor () e Round () Funzioni. Finalmente ci assicureremo che dobbiamo importare queste funzioni da Pyspark.SQL.il modulo delle funzioni in ordine per utilizzare queste sei funzioni.