Speciali

Storie di algoritmi: Google Page Rank

28 March 2019 | Scritto da Pietro Crovari

Come fa Google a trovare sempre quello che cerchiamo?

Recentemente Google ha presentato il progetto Stadia, volendo aprirsi la strada nell’industria dei videogiochi. Con questa mossa, il colosso di Mountain View aggiunge un altro tassello alla sua industria multimiliardaria: advertising, contenuti multimediali, prodotti e servizi cloud, telecomunicazioni, sono solo alcuni dei settori in cui Google è entrata e di cui ha stravolto il mercato grazie ai suoi prodotti ad alta innovazione. Ma non dobbiamo dimenticarci come tutto è iniziato: con un algoritmo, nascosto dietro una semplice barra di ricerca.

 

Per qualsiasi cosa di cui abbiamo bisogno Google ha la risposta per noi. Cerchiamo la ricetta per la torta di compleanno di nostro figlio? Immediatamente veniamo indirizzati a un blog di cucina. Cerchiamo quel paio di scarpe di cui non sappiamo il nome? Troviamo subito un sito di e-commerce che ce le vende, magari a prezzo scontato. Dobbiamo fare una ricerca sulle guerre puniche, immediatamente ci verrà mostrata una lista di siti sui quali trovare tutte le informazioni di cui abbiamo bisogno. Negli ultimi tempi, se cerchiamo brevi informazioni come la data di nascita di qualche celebrità, il risultato dell’ultima giornata di campionato, qualche conversione di valuta o dei calcoli veloci, Google ci fornisce già la risposta, senza dovere entrare in nessuna pagina web (provate a chiedere a Google “Qual è la risposta a tutto?”). Ma come fa Google a trovare sempre quello che cerchiamo?

 

La barra di ricerca è soltanto la punta dell’iceberg. Dietro la apparentemente semplice barra di ricerca bianca, ci sono centinaia di algoritmi dagli scopi più disparati, pronti ad intervenire non appena digitiamo qualcosa. Molti di questi si occupano di interpretare la nostra richiesta per capire cosa vogliamo cercare davvero. Altri cercano di anticipare le nostre intenzioni, fornendoci i migliori suggerimenti di ricerca possibili. Altri ancora hanno il compito di capire quali siano i nostri gusti e interessi per proporci i migliori annunci pubblicitari. Tra tutti, però, l’algoritmo più importante è probabilmente quello che decide l’ordine in cui mostrare i risultati, Page Rank.

 

Page Rank è uno degli algoritmi alla base del motore di ricerca Google. È stato scritto nel 1996 da Larry Page e Sergey Brinn, allora dottorandi dell’università di Stanford, soltanto due anni prima che fondassero la loro startup, Google Inc. Page Rank è stato uno dei fattori chiave che ha contribuito al successo dell’azienda: prima di quel momento, infatti, i motori di ricerca disponevano i risultati senza seguire particolari criteri di ordinamento, rendendo frustrante per l’utente trovare il risultato ottenuto. Tramite questo algoritmo, invece, i risultati sono ordinati per ordine di importanza: i più rilevanti prima, gli altri in coda. Per poter capire come funziona, però, dobbiamo definire cosa vuol dire che una pagina web è “importante”.

 

Importante vuol dire molto citata. I creatori dell’algoritmo, al momento di trovare una grandezza idonea a misurare il grado di importanza di una pagina fecero la seguente assunzione: più una pagina è importante, più altri siti rimanderanno ad essa. Quindi, se molte pagine web contengono un link indirizzato a una determinata pagina, quella pagina sarà considerata importante e quindi occuperà uno dei primi posti dei risultati di ricerca. Al contrario, se nessuna pagina contiene un link alla pagina in esame, probabilmente vuol dire che il contenuto non è importante e quindi verrà messa in secondo piano.

 

Fatta la legge trovato l’inganno. Se Page e Brinn si fossero fermati a questo punto, “barare” per fare in modo di mettere le proprie pagine in cima alle ricerche sarebbe stato molto facile: basta costruire molte pagine finte il cui unico scopo è contenere link alle nostre pagine, così che il loro punteggio cresca notevolmente e vincano sulle rivali. Ma l’algoritmo Page Rank non si ferma qui: il potere di voto non è uguale per qualsiasi pagina, ma dipende dall’importanza delle pagine stesse. Inoltre, potere di voto di una pagina viene ripartito tra tutti i link presenti all’interno della stessa. Se per esempio una pagina ha importanza di valore 6 e contiene 3 link, essa darà a ciascuno dei tre collegamenti un 6/3=2 punti. Il valore complessivo della pagina sarà semplicemente la somma dei valori dei link che puntano alla pagina stessa. In questo modo, se il proprietario della pagina X volesse “barare” per aiutare la propria pagina, creando una serie di pagine “fantoccio” piene di link alla pagina X per aumentare il punteggio di quest’ultima, esso fallirebbe, perché le pagine fantoccio avrebbero un punteggio bassissimo, e quindi porterebbero un contributo quasi nullo al punteggio totale della pagina.

 

Un magnifico meccanismo automatizzato. Il database di Google contiene centinaia di miliardi di pagine web. Pensare di applicare l’algoritmo “a mano” sarebbe impensabile. Sui server di Google, infatti, sono presenti dei piccoli agenti virtuali, chiamati Crawler, il cui scopo è visitare le pagine web ed estrarne i contenuti e i link, per poter aggiornare il database del motore di ricerca e, conseguentemente, poter fare il ranking delle pagine in modo totalmente automatizzato.

 

Ottimizzare i risultati, una vera e propria arte. Sono passati più di 22 anni dalla concezione originale dell’algoritmo e se Google non avesse continuato ad innovare da allora, ora non sarebbe sicuramente dove si trova. Oggi l’algoritmo Page Rank è affiancato da moltissime altre ottimizzazioni per migliorare sempre più l’esperienza finale dell’utente. Per esempio, se la pagina segue delle linee guida sulla sua struttura ne garantiscono un buon livello di usabilità, allora essa sarà favorita nel ranking. Al contrario, se sono presenti pubblicità troppo invasive la pagina verrà penalizzata. Molti criteri come questi sono noti, ma molti sono tenuti nascosti dal colosso di mountain view. Per un’azienda capire come far risultare i propri contenuti in cima a determinate ricerche è un’operazione strategica di essenziale importanza e tutt’altro che banale. Per questo motivo negli ultimi anni è nata un’intera disciplina, la cosiddetta SEO, Search Engine Optimization (ottimizzazione dei motori di ricerca), che studia come impostare i propri contenuti in modo che siano in cima alle ricerche degli utenti.

 

Abbiamo soltanto scoperchiato il vaso di Pandora. Abbiamo scalfito solo la superficie di Google, e già abbiamo capito quanto sia complesso quello che si cela dietro la pagina più famosa di Internet. Ci sono tantissimi altri algoritmi che la rendono tale, elegantissimi e che lavorano tutti insieme come un’unica macchina oliata per rendere la nostra esperienza la migliore possibile. Ma questa è un’altra storia…

Pietro Crovari
Pietro Crovari

Pietro Crovari si è laureato in Ingegneria Informatica a Genova, dove ha proseguito con la Laurea Magistrale. Dopo essere stato 4 mesi al Georgia Insitute of Technology ad Atlanta per come Research Intern, attualmente lavora come Assegnista di Ricerca al Politecnico di Milano. Lavorando per quattro anni al Festival della Scienza di Genova si è innamorato del mondo della Divulgazione Scientifica. Ama due cose nella vita: quello che studia e raccontarlo agli altri. Entusiasta, inguaribile ottimista, affronta ogni giornata con un sorriso e con il desiderio di imparare qualcosa di nuovo!

leggi tutto