Python Urlparse

Python Urlparse
Gli URL spesso includono dati essenziali che potrebbero essere sfruttati durante la valutazione di un sito Web, la ricerca di un partecipante o la distribuzione del materiale in ciascuna area. Sebbene, a volte sembrano piuttosto complessi, Python viene fornito con una varietà di biblioteche utili che ti consentono di analizzare gli URL e recuperare le loro parti costitutive.

In Python 3, il pacchetto Urllib consente agli utenti di esplorare i siti Web all'interno del proprio script. L'URLIB contiene diversi moduli per la gestione delle diverse funzioni URL. Quando si apri un URL nella programmazione Python, la libreria Urllib è cruciale. Ti consente di visitare e interagire con i siti Web utilizzando il loro localizzatore di risorse universali. Questa libreria ci fornisce pacchetti come: Urllib.Richiesta, Urllib.Errore, Urllib.analisi.robotparser.

In questo frammento, nonostante questo sia un argomento di grandi dimensioni per comprendere tutto in una volta, presteremo semplicemente attenzione a Urllib.Modulo di analisi. In particolare, il metodo Urlparse ().

L'Urllib.Il modulo Parse viene utilizzato per analizzare gli URL dei siti Web. Implica che dividendo un URL, possiamo ottenere le sue varie parti. Inoltre, può essere utilizzato per ottenere qualsiasi URL da un URL di origine e un percorso di riferimento.

Caricamento di Urllib:

Python include Urllib come libreria standard. Per usarlo, dobbiamo prima importare questa libreria. Per questo, apriremo lo strumento Spyder e scriveremo il seguente comando:

Importa Urllib

Modulo urlparse ():

Il modulo Urlparse () offre un metodo definito per analizzare un localizzatore di risorse uniforme (URL) in sezioni distinte. Per dirla semplicemente, questo modulo ci consente di separare facilmente gli URL in componenti diversi e filtrare qualsiasi parte particolare dagli URL. Ha semplicemente diviso l'URL in 6 componenti che si riferiscono alla sintassi complessiva di a

URL: schema:/netloc/percorso; parametri?Frammento di query#.

Iniziamo ora il nostro tutorial con un esempio pratico.

da Urllib.analizzare l'importazione urlparse, urlunparse

In questo frammento di codice, la prima cosa che abbiamo fatto è importare l'urlparse e l'urlunparse da Urllib.analizzare. Ciò consentirà tutte le caratteristiche richieste del metodo Urlparse () nel nostro strumento.

da Urllib.analizzare l'urlparse
EsempioUrl = urlparse ('https: // linuxhint.com/')
Print ("URL Components:", Easexurl)

Ora, come possiamo usare il metodo Urlparse (). Abbiamo definito una variabile denominata "Esempiourl" che memorizzerà i valori della stringa. Quindi, abbiamo usato l'operatore di assegnazione "=" per assegnare i valori. Accanto ad esso, abbiamo chiamato il metodo "urlparse ()". All'interno delle parentesi graffe del metodo Urlparse (), tra le virgole invertite, abbiamo definito un URL di un particolare sito Web su cui vogliamo eseguire l'analisi. Le parentesi graffe dell'istruzione print () contengono un testo citato e il nome variabile, separato da una virgola.

L'immagine sotto ci mostra la seguente uscita.

Puoi vedere che l'URL fornito è diviso in 6 componenti. Ora, prima di immergere nell'apprendimento di questi componenti, impareremo prima come rimettere questi componenti all'URL originale.

A tale scopo, il metodo utilizzato è "urlunparse ()".

da Urllib.analizzare l'importazione urlparse, urlunparse
EsempioUrl = urlparse ('https: // linuxhint.com/')
Print ("URL Components:", Easexurl)
Unpar_url = UrlunParse (Esempiourl)
print ("URL originale:", Unpar_url)

Abbiamo già importato l'urlunparse da Urllib.analizzare lo snippet sopra. Ora creeremo una variabile denominata "Unpar_url". Invocando il metodo "urlunparse ()" e scrivendo il nome della variabile, allochiamo l'apertura dell'URL per il metodo Urlparse ().e. "Esempiourl". Nell'ultimo passaggio, utilizzare l'istruzione "Print ()" per visualizzare un testo e il nome della variabile per impartire l'URL.

L'URL analizzato viene visualizzato nell'immagine allegata di seguito.

È stato dimostrato l'uso delle funzioni Urlparse () e Urlunparse (). Ora, esploriamo il significato di ogni elemento del parseresult che è stato restituito.

Componenti urlparse ():

Il metodo urlparse () divide l'URL fornito in 6 blocchi che sono schemi, netloc, percorso, parametri, query e frammento.

Il primo componente è lo schema. Lo schema viene utilizzato per specificare il protocollo che deve essere utilizzato per acquisire le risorse online che potrebbero essere HTTP o HTTPS. Il componente successivo è netloc: Net si riferisce alla rete mentre LOC significa posizione. Quindi, ci racconta della posizione della rete URLS fornita. Il componente sentiero Contiene il percorso preciso che un browser Web deve prendere per acquisire la risorsa fornita. IL parametri sono i parametri degli elementi del percorso. IL Domanda aderisce al componente del percorso e offre un flusso di dati che la risorsa può utilizzare. L'ultimo componente frammento Classifica semplicemente una parte.

Come accennato in precedenza, ciascuno di questi elementi contiene alcuni dati sull'URL. Poiché l'oggetto restituito è fornito come tupla, tutti questi componenti possono anche essere recuperati utilizzando la posizione dell'indice.

da Urllib.analizzare l'urlparse
EsempioUrl = urlparse ('https: // linuxhint.com/')
Stampa (Esempiourl.Schema, "==", Exexurl [0])
Stampa (Esempiourl.netloc, "==", Exexurl [1])
Stampa (Esempiourl.Path, "==", Exexurl [2])
Stampa (Esempiourl.params, "==", Exexurl [3])
Stampa (Esempiourl.query, "==", Esempiourl [4])
Stampa (Esempiourl.Frammento, "==", ExampleUrl [5])

In questo frammento di codice, abbiamo definito gli indici per ciascun componente separatamente all'interno dell'istruzione print (). Abbiamo usato il nome della variabile con il nome del componente rispetto al quale abbiamo menzionato il nome della variabile con la posizione dell'indice in cui si trova nel flusso. Continueremo a utilizzare questa sequenza fino a quando non avremo menzionato tutti i componenti con posizioni di indice corrispondenti.

Le stringhe risultanti possono essere viste nell'immagine qui.

Anche se questi costituiscono la maggior parte del contenuto indicizzato, possono anche essere utilizzate più parole chiave per recuperare alcune funzionalità aggiuntive come nome host, nome utente, password e porta. IL Nome host identifica il nome host dell'URL specificato, il nome utente contiene il nome dell'utente, la password Mantiene la password che l'utente ha fornito, mentre il porta dice il numero di porta.G\

Conclusione

Nell'argomento di oggi, abbiamo discusso del modulo Urlparse () fornito da Urllib.analizzare. Abbiamo spiegato lo scopo e l'usabilità del metodo Urlparse (). Abbiamo elaborato diversi componenti del metodo Urlparse () e anche come facciamo accesso. Implementando i codici di esempio pratici sull'URL di qualsiasi sito Web specificato che impiega lo strumento Spyder, abbiamo cercato di renderlo un apprendimento semplice, comprensibile ma vantaggioso per te.