Cos’è BERT e quali sono gli impatti SEO

Il 25 Ottobre 2019 Google ha annunciato un update al proprio algoritmo: a partire da quella data per le query nei mercati in lingua inglese (e dal 9 dicembre per le query in altre 70 lingue) Google ha iniziato a interpretare le ricerche da parte degli utenti integrando BERT, modello di NLP (Natural Language Processing) sviluppato nel 2018 da ricercatori della divisione Google AI, con l’obiettivo di migliorare la comprensione dell’intento di ricerca degli utenti Google. Ma cos’è esattamente BERT e come impatta le attività SEO?

Cos’è un modello NLP

Iniziamo andando per gradi: la linguistica computazionale è quella branca che mira a sviluppare modelli che permettano a una macchina la comprensione del linguaggio naturale in un corpus di documenti.

L’obiettivo della linguistica computazionale è avvicinarsi il più possibile a come un essere umano riesce a comprendere un testo e le relazioni tra entità e contesto.

Quel che appare naturale, risulta infatti essere una sfida per un algoritmo e, nel caso di Google, per un motore di ricerca.

Qualche passo indietro: alla ricerca dell’intento degli utenti

Google da anni ha il proprio Santo Graal nella comprensione dell’intento di ricerca degli utenti, condizione necessaria per assicurarsi il miglior palco per i propri annunci e quindi per il proprio guadagno. Negli anni abbiamo visto sforzi del motore in questo senso, con diversi approcci e in maniera sempre più precisa:

  • Raffinamenti di ricerca in maniera “attiva” da parte dell’utente con la Wonder Wheel e l’utilizzo di filtri per tipologia di risultato

"/

  • Raffinamenti di ricerca passivi, tramite segnali basati sulle ricerche precedenti o sull’analisi del comportamento degli utenti con intenti e query simili (RankBrain nel 2017 ad esempio)
  • Completamento dell’esperienza utente per query ambigue tramite SERP arricchite da caroselli, altre domande degli utenti e pannelli knowledgraph multipli per offrire luce su tutti i possibili significati.

"/

Con modalità più o meno efficaci Google ha sempre trovato modalità per migliorare le proprie risposte e non deludere l’intento e le aspettative dell’utente.

Ma, quindi, cosa aggiunge BERT e perché viene definito rivoluzionario da Google stessa?

Bidirezionalità, o meglio, non-direzionalità di BERT

I modelli di linguaggio naturale applicati finora per il training delle macchine erano implementati attraverso vettorizzazione del contenuto testuale (come il TF-IDF) oppure analisi della frequenza e occorrenze dei termini usati, pertanto in maniera direzionale, alla parola in analisi per trovare relazioni tra le entità: la relazione era perciò in un solo senso e all’interno del corpus del testo il contesto tra le entità era percepito in un modo solo parziale.

Con BERT, Google ha implementato la parte di codifica del linguaggio con un Transformer (un meccanismo volto a trovare relazioni tra parole e parti di parola in un testo) in maniera bidirezionale, o meglio senza direzione, andando quindi ad analizzare tutte le parole all’interno del testo e legando insieme tutte le entità presenti. I testi utilizzati nel training di BERT sono stati quelli di Wikipedia, permettendo quindi l’analisi di testi completi ed esaustivi con relazioni ben definite. Il 15% dei testi attraverso un processo chiamato MLM (Masked Language Modeling) sono state coperte, perché BERT fosse in grado di prevederle in base al contesto (NSP: Next Sequence Prediction).

Per fare questo Google ha dovuto creare l’infrastruttura computazionale hardware per supportare il training di BERT: anche da questo punto di vista BERT è risultato innovativo, utilizzando le ultime Cloud TPU.

Grazie a BERT, Google riesce a replicare la capacità ermeneutica umana, derivante in gran parte dal contesto in cui i singoli termini vengono utilizzati.

In maniera parallela a quanto fa in maniera inconscia la nostra mente, con BERT è riuscito – rispetto ad altri algoritmi context-free come word2vec – a replicare in parte il meccanismo di comprensione che ci permette di capire da poche frasi se stiamo parlando di un Boa rettile o di un accessorio per la nostra festa in maschera: il contesto.

Cosa cambia in Google con BERT

BERT affiancherà e non sostituirà RankBrain come parte integrante nell’algoritmo per la comprensione delle query degli utenti: il secondo rimane infatti a supporto dell’associazione tra query simili, sinonimi e misspelling.

Quello che cambia in SERP è una maggiore comprensione del contesto della ricerca dell’utente, affidando quindi i risultati a un’interpretazione meno letterale. Per la query messa come esempio sul blogpost da Google “do estheticians stand a lot at work”. In passato, Google avrebbe cercato un approccio di match della query, laddove ora il match è a livello contestuale, fornendo quindi una risposta più soddisfacente per l’utente:

"/

In un mondo in cui sempre più query son di tipo conversazionale era necessario per Google un approccio di questo tipo, per evitare di perdere utenti a causa di risposte troppo distanti dall’intento.

Anche Bing ha annunciato successivamente di aver da più tempo implementato BERT all’interno del proprio algoritmo, utilizzando sistemi Azure per il training: un segno che la soddisfazione delle risposte in base al contesto è condizione ormai fondamentale per ogni motore di ricerca.

Cosa cambia per la SEO con BERT?

In maniere ironica ed eloquente, Gary Ilyes recentemente sul palco del PubCon ha offerto “A curriculum for optimizing for BERT”: non è possibile ottimizzare un testo o un contenuto per adeguarsi a BERT se non rispondendo all’utente con i propri contenuti.

Parlare di SEO Copywriting è, in un certo senso, superato: non bisogna più pensare di strutturare i testi perché “piacciano” alle macchine ma, al contrario, mettere l’utente e il suo intento di ricerca al centro.

A meno di essere rimasti in sospensione criogenica per gli ultimi 5 anni, questo dovrebbe essere il solo approccio alla SEO: identificare il proprio pubblico, analizzarne possibili domande e dubbi e cercare di creare contenuto di qualità che possa giustificare l’esistenza del contenuto stesso, il tutto senza dimenticare l’unica cosa che possiamo conoscere dell’algoritmo, le SERP e le loro caratteristiche, che ci comunicano come Google ne interpreta l’intento.

Non esiste più da tempo la scrittura “SEO Friendly” o il “SEO Copywriting” ma una scrittura user-centrica in equilibrio con lo scopo del nostro sito o di quello dei nostri clienti: scrivere per soddisfare un bisogno attorno a un tema, non per inflazionare il proprio indice con contenuto sottile o umanamente pessimo a causa di keyword e query stuffing.

Riccardo Gaffuri Head of SEO