Questo ha un'implicazione. La sua implicazione è che esistono molti dati utili su Google e che richiede la necessità di raschiare questi dati d'oro. I dati raschiati possono essere utilizzati per l'analisi dei dati di qualità e la scoperta di meravigliose approfondimenti. Può anche essere importante per ottenere ottime informazioni sulla ricerca in un tentativo.
Parlando di raschiatura, questo può essere fatto con strumenti di terze parti. Può anche essere fatto con una biblioteca pitone nota come Scrapy. Scrapy è valutato per essere uno dei migliori strumenti di raschiatura e può essere utilizzato per raschiare quasi tutte le pagine Web. Puoi saperne di più sulla biblioteca Scrapy.
Tuttavia, indipendentemente dai punti di forza di questa meravigliosa biblioteca. Rampilare i dati su Google potrebbe essere un compito difficile. Google scende duramente su qualsiasi tentativo di raschiatura del web, garantendo che la raschiatura degli script non faccia nemmeno tante 10 richieste di graffi in un'ora prima di bandire l'indirizzo IP. Ciò rende inutile questo terzo e script di raschiatura del web personale.
Google offre l'opportunità di raschiare le informazioni. Tuttavia, qualunque raschiatura che verrebbe fatto dovrebbe essere attraverso un'interfaccia di programmazione dell'applicazione (API).
Solo nel caso non sai già cosa sia un'interfaccia di programmazione dell'applicazione, non c'è nulla di cui preoccuparsi, poiché fornirò una breve spiegazione. Per definizione, un'API è un insieme di funzioni e procedure che consentono la creazione di applicazioni che accedono alle funzionalità o ai dati di un sistema operativo, applicazione o altro servizio. Fondamentalmente, un'API consente di accedere al risultato finale dei processi senza essere coinvolto in tali processi. Ad esempio, un'API di temperatura ti fornirebbe i valori Celsius/Fahrenheit di un luogo senza che tu debba andare lì con un termometro per effettuare le misurazioni da solo.
Portandolo nell'ambito di raschiatura di informazioni da Google, l'API che useremo ci consente di accedere alle informazioni necessarie senza dover scrivere alcun script per raschiare la pagina dei risultati di una ricerca su Google. Attraverso l'API, possiamo semplicemente avere accesso al risultato finale (dopo che Google fa la "raschiatura" alla fine) senza scrivere alcun codice per raschiare le pagine Web.
Mentre Google ha molte API per scopi diversi, utilizzeremo l'API JSON di ricerca personalizzata ai fini di questo articolo. Ulteriori informazioni su questa API sono disponibili qui.
Questa API ci consente di effettuare 100 query di ricerca al giorno gratuitamente, con piani di prezzo disponibili per fare più domande se necessario.
Per poter utilizzare l'API JSON di ricerca personalizzata, avremmo bisogno di un ID motore di ricerca personalizzato. Tuttavia, dovremmo prima creare un motore di ricerca personalizzato che può essere fatto qui.
Quando visiti la pagina del motore di ricerca personalizzato, fare clic sul pulsante "Aggiungi" per creare un nuovo motore di ricerca.
Nella casella "Siti to Search", metti semplicemente "www.Linuxhint.com "e nella casella" Nome del motore di ricerca ", inserire qualsiasi nome descrittivo di tua scelta (Google sarebbe preferibile).
Ora fai clic su "Crea" per creare il motore di ricerca personalizzato e fare clic sul pulsante "Pannello di controllo" dalla pagina per confermare il successo della creazione.
Vedresti una sezione "ID motore di ricerca" e un ID sotto di essa, che è l'ID che avremmo bisogno per l'API e ci faremmo riferire più avanti in questo tutorial. L'ID motore di ricerca dovrebbe essere mantenuto privato.
Prima di partire, ricorda che abbiamo inserito "www.Linuhint.com "prima. Con tale impostazione, otterremmo solo risultati dal sito. Se desideri ottenere i risultati normali dalla ricerca Web totale, fai clic su "Imposta" dal menu a sinistra, quindi fai clic sulla scheda "Nozioni di base". Vai alla sezione "Cerca l'intero Web" e attiva questa funzione.
Creazione di una chiave API
Dopo aver creato un motore di ricerca personalizzato e aver ottenuto il suo ID, poi sarebbe quello di creare una chiave API. La chiave API consente l'accesso al servizio API e dovrebbe essere mantenuta al sicuro dopo la creazione proprio come l'ID motore di ricerca.
Per creare una chiave API, visitare il sito e fare clic sul pulsante "Ottieni un tasto".
Crea un nuovo progetto e dai un nome descrittivo. Facendo clic su "Avanti", avresti generato la chiave API.
Nella pagina successiva, avremmo diverse opzioni di configurazione che non sono necessarie per questo tutorial, quindi fai clic sul pulsante "Salva" e siamo pronti per andare.
Accesso all'API
Abbiamo fatto bene a ottenere l'ID di ricerca personalizzato e la chiave API. Successivamente faremo uso dell'API.
Mentre puoi accedere all'API con altri linguaggi di programmazione, lo faremo con Python.
Per poter accedere all'API con Python, è necessario installare il client API di Google per Python. Questo può essere installato utilizzando il pacchetto di installazione PIP con il comando seguente:
PIP Installa Google-Api-Python-Client
Dopo l'installazione corretta, ora puoi importare la libreria nel nostro codice.
La maggior parte di ciò che sarà fatto sarà attraverso la funzione di seguito:
da googleapiclient.Discovery Import BuildNella funzione sopra, il file my_api_key E my_cse_id Le variabili devono essere sostituite dalla chiave API e dall'ID motore di ricerca rispettivamente come valori di stringa.
Tutto ciò che deve essere fatto ora è chiamare la funzione che passa nel termine di ricerca, la chiave API e l'ID CSE.
result = google_search ("caffè", my_api_key, my_cse_id)La chiamata di funzione sopra cercherebbe la parola chiave "caffè" e assegnerebbe il valore restituito al risultato variabile, che viene quindi stampata. Un oggetto JSON viene restituito dall'API di ricerca personalizzata, pertanto qualsiasi ulteriore analisi dell'oggetto risultante richiederebbe una piccola conoscenza di JSON.
Questo può essere visto da un campione del risultato come visto di seguito:
L'oggetto JSON restituito sopra è molto simile al risultato della ricerca di Google:
Raschiare Google per informazioni non vale davvero lo stress. L'API di ricerca personalizzata rende la vita facile per tutti, poiché l'unica difficoltà è nell'analisi dell'oggetto JSON per le informazioni necessarie. Come promemoria, ricorda sempre di mantenere privati il tuo ID motore di ricerca personalizzato e i valori della chiave API.