Se vogliamo restituire i valori dalla colonna DataFrame in PysPark, il metodo contiene () disponibile in PysPark viene utilizzato per restituire le righe in base ai valori specificati al suo interno.
Può essere utilizzato con la clausola del filtro o dove la clausola. Li vedremo uno per uno con i diversi esempi.
Sintassi
DataFrame_Object.filtro (dataframe_obj.colonna.contiene (valore/stringa))
DataFrame_Object.dove (dataframe_obj.colonna.contiene (valore/stringa))
Dove,
DataFrame_Object è PysPark DataFrame.
Parametro:
La funzione contiene () prende un parametro.
Può essere un valore o una stringa che la funzione contiene () verificherà se il valore specificato è presente nella colonna di dati o meno.
Ritorno:
Sulla base di questo valore di colonna, l'intera riga viene restituita.
Innanzitutto, creeremo il frame dati pyspark con 10 righe e 5 colonne.
importare pyspark
da pyspark.SQL Import *
Spark_app = SparkSession.costruttore.nome dell'applicazione('_').getOrCreate ()
Studenti = [(4, "Sravan", 23, "Php", "Test"),
(2, "Sravan", 23, "Oracle", "Test"),
(46, "Mounika", 22, ".Net ',' html '),
(12, "Deepika", 21, "Oracle", "HTML"),
(46, "Mounika", 22, "Oracle", "Test"),
(12, "Chandrika", 23, "Hadoop", "C#"),
(12, "Chandrika", 22, "Oracle", "Test"),
(45, "Sravan", 23, "Oracle", "C#"),
(4, "Deepika", 21, "Php", "C#"),
(46, "Mounika", 22, ".Net ',' test ')
"
DataFrame_obj = Spark_app.CreateAtaFrame (Students, ['soggetto_id', 'name', 'age', 'technology1', 'technology2'])
dataframe_obj.spettacolo()
Produzione:
Ora applichiamo la funzione contiene () sul frame dati Pyspark per restituire i risultati.
Esempio 1
Forniremo la stringa "sravan" nella colonna Nome all'interno del metodo contiene () e restituiremo tutte le righe che corrispondono a questa stringa.
#Check per String- Sravan nella colonna Nome e Restituisci le righe con il nome - Sravan.
Stampa ("-------- Usando dove () clausola --------")
dataframe_obj.dove (dataframe_obj.nome.contiene ('sravan')).spettacolo()
#Check per String- Sravan nella colonna Nome e Restituisci le righe con il nome - Sravan.
Stampa ("-------- Uso della clausola Filter () --------")
dataframe_obj.filtro (dataframe_obj.nome.contiene ('sravan')).spettacolo()
Produzione:
Spiegazione
Puoi vedere che Sravan si trova tre volte e le righe sono state restituite.
Esempio 2
Forniremo la stringa 'php' nella colonna Technology1 all'interno del metodo contiene () e restituiremo tutte le righe corrispondenti a questa stringa.
#Check per String -PHP nella colonna tecnologica1 e restituisce righe con tecnologia1 - PHP.
Stampa ("-------- Usando dove () clausola --------")
dataframe_obj.dove (dataframe_obj.Tecnologia1.contiene ('php')).spettacolo()
#Check per String -PHP nella colonna tecnologica1 e restituisce righe con tecnologia1 - PHP.
Stampa ("-------- Uso della clausola Filter () --------")
dataframe_obj.filtro (dataframe_obj.Tecnologia1.contiene ('php')).spettacolo()
Produzione:
Spiegazione
Puoi vedere che PHP si trova due volte nella colonna Technology1 e le righe sono state restituite.
Esempio 3
Forniremo il valore 46 nella colonna soggetto_id all'interno del metodo contiene () e restituiremo tutte le righe corrispondenti a questo valore.
#Check per valore - 46 nella colonna soggetto_id e restituisce righe con soggetto_id - 46.
Stampa ("-------- Usando dove () clausola --------")
dataframe_obj.dove (dataframe_obj.soggetto_id.contiene (46)).spettacolo()
#Check per valore - 46 nella colonna soggetto_id e restituisce righe con soggetto_id - 46.
Stampa ("-------- Uso della clausola Filter () --------")
dataframe_obj.filtro (dataframe_obj.soggetto_id.contiene (46)).spettacolo()
Produzione:
Spiegazione
Puoi vedere che 46 si trova tre volte nella colonna soggetto_id e le righe sono state restituite.
Esempio 4
Forniremo il valore 1000 nella colonna soggetto_id all'interno del metodo contiene () e restituiremo tutte le righe corrispondenti a questo valore.
#Check for Value - 1000 nella colonna soggetto_id e restituisce righe con soggetto_id - 1000.
Stampa ("-------- Usando dove () clausola --------")
dataframe_obj.dove (dataframe_obj.soggetto_id.contiene (1000)).spettacolo()
#Check for Value - 1000 nella colonna soggetto_id e restituisce righe con soggetto_id - 1000.
Stampa ("-------- Uso della clausola Filter () --------")
dataframe_obj.filtro (dataframe_obj.soggetto_id.contiene (1000)).spettacolo()
Produzione:
Spiegazione
Puoi vedere che 1000 non si trova nella colonna soggetto_id. Quindi, nessuna riga è stata restituita.
Conclusione
Questo tutorial PysPark ha discusso che è possibile filtrare le righe presenti nel frame dati utilizzando il metodo contiene (). Abbiamo visto quattro diversi esempi per capire meglio questo concetto. È possibile utilizzare questo metodo utilizzando le funzioni Where () e Filter ().