Pyspark tra la funzione

Pyspark tra la funzione
La funzione tra () in pyspark viene utilizzata per selezionare i valori all'interno dell'intervallo specificato. Può essere utilizzato con il metodo Select ().

Restituirà vero su tutti i valori all'interno dell'intervallo specificato.

Per i valori che non si trovano nell'intervallo specificato, viene restituito false.

Sintassi
dataframe_obj.Seleziona (DataFrame_Obj.età.tra (basso, alto))

Dove,
DataFrame_Object è PysPark DataFrame.

Parametri:
Ci vogliono due parametri.

  1. Il basso sarà l'intervallo di partenza
  2. L'alto sarà la gamma finale.

Ritorno:
Restituisce tutte le righe con valori booleani (true/false).

Esamineremo diversi esempi.

Esempio 1
Qui otterremo i valori nella colonna di età che si trovano compresi tra 10 e 21.

importare pyspark
da pyspark.SQL Import *
Spark_app = SparkSession.costruttore.nome dell'applicazione('_').getOrCreate ()
Studenti = [(4, "Sravan", 23, "Php", "Test"),
(2, "Sravan", 23, "Oracle", "Test"),
(46, "Mounika", 22, ".Net ',' html '),
(12, "Deepika", 21, "Oracle", "HTML"),
(46, "Mounika", 22, "Oracle", "Test"),
(12, "Chandrika", 23, "Hadoop", "C#"),
(12, "Chandrika", 22, "Oracle", "Test"),
(45, "Sravan", 23, "Oracle", "C#"),
(4, "Deepika", 21, "Php", "C#"),
(46, "Mounika", 22, ".Net ',' test ')
"
DataFrame_obj = Spark_app.CreateAtaFrame (Students, ['soggetto_id', 'name', 'age', 'technology1', 'technology2'])
Stampa ("--- Frame Data Effettivo ---")
dataframe_obj.spettacolo()
Stampa ("--- I valori nella colonna di età tra 10 e 21 ---")
dataframe_obj.Seleziona (DataFrame_Obj.età, dataframe_obj.età.tra (10, 21)).spettacolo()

Produzione:

Puoi vedere che i valori nella colonna di età sono stati restituiti tra 10 e 21. Il resto dei valori è tornato falso.

Esempio 2
Qui avremo i valori nella colonna soggetto_id che si trovano nell'intervallo da 40 a 46.

importare pyspark
da pyspark.SQL Import *
Spark_app = SparkSession.costruttore.nome dell'applicazione('_').getOrCreate ()
Studenti = [(4, "Sravan", 23, "Php", "Test"),
(2, "Sravan", 23, "Oracle", "Test"),
(46, "Mounika", 22, ".Net ',' html '),
(12, "Deepika", 21, "Oracle", "HTML"),
(46, "Mounika", 22, "Oracle", "Test"),
(12, "Chandrika", 23, "Hadoop", "C#"),
(12, "Chandrika", 22, "Oracle", "Test"),
(45, "Sravan", 23, "Oracle", "C#"),
(4, "Deepika", 21, "Php", "C#"),
(46, "Mounika", 22, ".Net ',' test ')
"
DataFrame_obj = Spark_app.CreateAtaFrame (Students, ['soggetto_id', 'name', 'age', 'technology1', 'technology2'])
Stampa ("--- Frame Data Effettivo ---")
dataframe_obj.spettacolo()
Stampa ("--- I valori nella colonna soggetto_id tra 40 e 46 ---")
dataframe_obj.Seleziona (DataFrame_Obj.soggetto_id, dataframe_obj.soggetto_id.tra (40,46)).spettacolo()

Produzione:

Puoi vedere che i valori nella colonna soggetto_id sono stati vecchi che sono tra 40 e 46. Il resto dei valori viene restituito falso.

Esempio 3
Qui otterremo i valori nella colonna soggetto_id che si trova nell'intervallo da 60 a 100.

importare pyspark
da pyspark.SQL Import *
Spark_app = SparkSession.costruttore.nome dell'applicazione('_').getOrCreate ()
Studenti = [(4, "Sravan", 23, "Php", "Test"),
(2, "Sravan", 23, "Oracle", "Test"),
(46, "Mounika", 22, ".Net ',' html '),
(12, "Deepika", 21, "Oracle", "HTML"),
(46, "Mounika", 22, "Oracle", "Test"),
(12, "Chandrika", 23, "Hadoop", "C#"),
(12, "Chandrika", 22, "Oracle", "Test"),
(45, "Sravan", 23, "Oracle", "C#"),
(4, "Deepika", 21, "Php", "C#"),
(46, "Mounika", 22, ".Net ',' test ')
"
DataFrame_obj = Spark_app.CreateAtaFrame (Students, ['soggetto_id', 'name', 'age', 'technology1', 'technology2'])
Stampa ("--- Frame Data Effettivo ---")
dataframe_obj.spettacolo()
Stampa ("--- I valori nella colonna soggetto_id tra 60 e 100 ---")
dataframe_obj.Seleziona (DataFrame_Obj.soggetto_id, dataframe_obj.soggetto_id.tra (60.100)).spettacolo()

Produzione:

Puoi vedere che i valori NO nella colonna soggetto_id non sono nell'intervallo specificato. Quindi, per tutte le righe, viene restituito falso.

Conclusione

In questo tutorial Pyspark, abbiamo discusso della funzione tra (). In cui, la funzione tra () seleziona i valori all'interno dell'intervallo specificato. Può essere utilizzato con il metodo Select (). Restituirà vero su tutti i valori che si trovano all'interno dell'intervallo specificato. Per i valori che non si trovano nell'intervallo specificato, viene restituito false.