Pyspark Like e Ilike Functions

Pyspark Like e Ilike Functions
Se vogliamo restituire i valori dalla colonna DataFrame in base alla corrispondenza della stringa in PysPark, allora i metodi like () e ilike () disponibili in pyspark vengono utilizzati per restituire le righe in base ai valori specificati al suo interno.

Possono essere utilizzati con la clausola del filtro o dove la clausola. Li vedremo uno per uno con diversi esempi.

come () funzione

La funzione simile () in pyspark viene utilizzata per verificare se esiste una stringa o un modello in una colonna di PysPark DataFrame. Se esiste, le righe abbinate verranno restituite. Altrimenti, viene restituito un frame di dati vuoto. È sensibile al caso.

Sintassi

DataFrame_Object.filtro (dataframe_obj.colonna.come (pattern/string))
DataFrame_Object.dove (dataframe_obj.colonna.come (pattern/string))

Dove,
DataFrame_Object è PysPark DataFrame.

Parametro:
IL Piace() La funzione ha un parametro.

Può essere uno schema o una stringa in modo tale che la funzione mi piace () verificherà se il valore specificato è presente nella colonna di dati o meno.

Ritorno:
Sulla base di questo valore di colonna, l'intera riga viene restituita.

Innanzitutto, creeremo il frame dati pyspark con 10 righe e 5 colonne.

importare pyspark
da pyspark.SQL Import *
Spark_app = SparkSession.costruttore.nome dell'applicazione('_').getOrCreate ()
Studenti = [(4, "Sravan", 23, "Php", "Test"),
(2, "Sravan", 23, "Oracle", "Test"),
(46, "Mounika", 22, ".Net ',' html '),
(12, "Deepika", 21, "Oracle", "HTML"),
(46, "Mounika", 22, "Oracle", "Test"),
(12, "Chandrika", 23, "Hadoop", "C#"),
(12, "Chandrika", 22, "Oracle", "Test"),
(45, "Sravan", 23, "Oracle", "C#"),
(4, "Deepika", 21, "Php", "C#"),
(46, "Mounika", 22, ".Net ',' test ')
"
DataFrame_obj = Spark_app.CreateAtaFrame (Students, ['soggetto_id', 'name', 'age', 'technology1', 'technology2'])
dataframe_obj.spettacolo()

Produzione:

Ora applichiamo la funzione Mike () sul Frame dati PysPark per restituire i risultati.

Esempio 1
Forniremo la stringa, "Sravan", nella colonna Nome all'interno del metodo Mike () e restituiremo tutte le righe che corrispondono a questa stringa.

#Check per String- Sravan nella colonna Nome e restituisce le righe con il nome - Sravan.
Stampa ("-------- Usando dove () clausola --------")
dataframe_obj.dove (dataframe_obj.nome.come ('sravan')).spettacolo()
#Check per String- Sravan nella colonna Nome e restituisce le righe con il nome - Sravan.
Stampa ("-------- Uso della clausola Filter () --------")
dataframe_obj.filtro (dataframe_obj.nome.come ('sravan')).spettacolo()

Produzione:

Puoi vedere che Sravan si trova tre volte e le righe sono state restituite.

Esempio 2
Forniremo la stringa, "PHP", nella colonna Technology1 all'interno del metodo like () e restituiremo tutte le righe che corrispondono a questa stringa.

#Check per String -PHP nella colonna tecnologica1 e restituisce righe con tecnologia1 - PHP.
Stampa ("-------- Usando dove () clausola --------")
dataframe_obj.dove (dataframe_obj.Tecnologia1.come ('php')).spettacolo()
#Check per String -PHP nella colonna tecnologica1 e restituisce righe con tecnologia1 - PHP.
Stampa ("-------- Uso della clausola Filter () --------")
dataframe_obj.filtro (dataframe_obj.Tecnologia1.come ('php')).spettacolo()

Produzione:

Puoi vedere che PHP non si trova nella colonna Technology1. Quindi, sono state restituite 0 righe.

funzione ilike ()

La funzione ilike () in pyspark viene utilizzata per verificare se esiste una stringa o un modello in una colonna di PysPark DataFrame. Se esiste, le righe abbinate verranno restituite. Altrimenti, viene restituito il frame dati vuoto. È insensibile al caso.

Sintassi

DataFrame_Object.filtro (dataframe_obj.colonna.ilike (pattern/string))
DataFrame_Object.dove (dataframe_obj.colonna.ilike (pattern/string))

Dove,
DataFrame_Object è PysPark DataFrame.

Parametro:
La funzione ilike () ha un parametro.

Può essere uno schema o una stringa in modo tale che la funzione ilike () verificherà se il valore specificato è presente nella colonna di dati o meno.

Ritorno:
Sulla base di questo valore di colonna, l'intera riga viene restituita.

Esempio 1
Forniremo la stringa, "sravan", nella colonna Nome all'interno del metodo ilike () e restituire tutte le righe corrispondenti a questa stringa.

#Check per String- Sravan nella colonna Nome e restituisce le righe con il nome - Sravan.
Stampa ("-------- Usando dove () clausola --------")
dataframe_obj.dove (dataframe_obj.nome.ilike ('sravan')).spettacolo()
#Check per String- Sravan nella colonna Nome e restituisce le righe con il nome - Sravan.
Stampa ("-------- Uso della clausola Filter () --------")
dataframe_obj.filtro (dataframe_obj.nome.ilike ('sravan')).spettacolo()

Produzione:

Spiegazione
Puoi vedere che Sravan si trova tre volte e le righe sono state restituite.

Esempio 2
Forniremo la stringa, "PHP", nella colonna Technology1 all'interno del metodo like () e restituiremo tutte le righe che corrispondono a questa stringa.

#Check per String -PHP nella colonna tecnologica1 e restituisce righe con tecnologia1 - PHP.
Stampa ("-------- Usando dove () clausola --------")
dataframe_obj.dove (dataframe_obj.Tecnologia1.ilike ('php')).spettacolo()
#Check per String -PHP nella colonna tecnologica1 e restituisce righe con tecnologia1 - PHP.
Stampa ("-------- Uso della clausola Filter () --------")
dataframe_obj.filtro (dataframe_obj.Tecnologia1.ilike ('php')).spettacolo()

Produzione:

Spiegazione
Puoi vedere che PHP non si trova nella colonna Technology1. Ma ilike () è insensibile al caso. Quindi, ci vogliono PHP e PHP come lo stesso. Quindi, le righe sono state restituite.

Conclusione

In questo tutorial Pyspark, abbiamo visto due funzioni che restituiscono valori in base alla stringa corrispondenza nella colonna PysPark DataFrame. Le funzioni simili () e ilike () vengono utilizzate per verificare se esiste una stringa o un modello in una colonna di Frame di dati Pyspark. La differenza è come () è sensibile ai casi e ilike () è insensibile al caso.