Urllib.robotparser

Urllib.robotparser
In questo post, imparerai a conoscere il modulo RobotParser nel pacchetto Urllib, che fornisce la classe RobotFileParser per determinare se un determinato agente utente può accedere a un URL specificato nei robot.file txt.

Classe robotfileParser

La classe RobotFileParser fornisce vari metodi per leggere, analisi e risposta alle domande sui robot.file txt in una determinata risorsa.

I metodi supportati includono:

  1. set_url () - definisce l'URL per i robot.file txt.
  2. Read () - Legge i robot.file txt e lo alimenta nei robot.txt parser.
  3. Parse (linee) - analizza l'argomento della linea.
  4. CAN_FETCH (UserAgent) - Verifica se un agente utente specificato può accedere a un URL specificato come specificato nei robot.file txt.
  5. mTime () - Restituisce il tempo i robot.Il file txt è stato recuperato,
  6. modificato () - aggiorna l'ultimo tempo di recupero per i robot.txt all'ora corrente.
  7. Crawl_delay (useragent, URL) - Restituisce il valore del parametro Crawl_Delay.
  8. request_rate (useragent) - restituisce il parametro di richiesta di richiesta come tupla denominata.
  9. site_maps () - restituisce il parametro Sitemap dai robot.file txt come elenco.

Esempio di utilizzo

Il seguente codice mostra l'uso della classe RobotFileParser e i metodi forniti.

Importa Urllib.robotparser
rp = Urllib.robotparser.RobotFileParser ()
rp.set_url ("https: // linuxhint.com/robot.TXT")
rp.Leggere()
req_rate = rp.request_rate ("*")
req_rate.Secondi
rp.crawl_delay ("*")
rp.Can_fetch ("*", "https: // linuxhint.com/iscriviti a linuxhint-com/")
rp.Can_fetch ("*", "https: // linuxhint.com/iscriviti a linuxhint-com/wp-admin ")

Il codice sopra inizia importando il modulo RobotParser e creando un'istanza della classe RobotFileParser.

Quindi passiamo l'URL ai robot.file txt e invia il file al parser. Quindi utilizziamo i metodi forniti per eseguire varie azioni.
Il codice sopra dovrebbe restituire:

5
30
VERO
Falso

Conclusione

In questo articolo, abbiamo discusso di come utilizzare il modulo robotparser dal pacchetto Urllib che consente di eseguire varie azioni come previsto nei robot.file txt. Sentiti libero di esplorare il codice sorgente per ulteriori informazioni.