SEO e Machine Learning: come classificare i contenuti per l’ottimizzazione di siti editoriali

I portali di news di grandi dimensioni devono fare i conti con una gestione impeccabile dei contenuti, pena il rischio di cali di traffico, perdita di qualità e possibili penalizzazioni.

La scelta spesso è: continuare a pubblicare contenuti simili finendo per cannibalizzare i precedenti e arrivare a perdere parte del proprio traffico? O rischiare di non attirare più i lettori pubblicando di meno?

Il machine learning può essere d’aiuto per fronteggiare il problema: ne abbiamo parlato nel nostro più recente White Paper, che abbiamo realizzato in occasione del Web Marketing Festival 2019.

Non si tratta solo di automatizzazione dei processi: una content audit puntuale, che parta dall’analisi e dall’estrazione di testi sul sito, può portare enormi benefici in termini di selezione e ampliamento dei contenuti stessi.

Contenuti online migliori per siti editoriali migliori

Detto che una content strategy efficace è la base su cui si regge un sito editoriale, far collimare l’esigenza di ampliare contenuti con la storicità non è affatto semplice. Sempre più spesso gli addetti ai lavori si trovano in bilico fra queste due necessità, affrontando queste criticità:

    • Index bloating: è il numero di pagine indicizzate, la crescita è storicamente costante e, senza interventi, destinata a continuare, ma articoli di qualità potrebbero passare in secondo piano a causa della mole del sito;
    • Sovrapposizione e cannibalizzazione dei contenuti: non sempre si tiene traccia di quanto è già stato scritto in passato, ciò porta a una forte sovrapposizione dei contenuti, con decine di articoli simili;
    • Crawling budget e accessibilità dei contenuti: se il crawling budget non è ottimizzato, con una produzione continua di contenuti, vi saranno sicuramente angoli ciechi su articoli che il motore non potrà scansionare;
    • Contenuto sottile: la necessità di pubblicare per monetizzare spinge spesso verso la quantità piuttosto che la qualità. Un grande numero di pagine di dubbia qualità in sovrapposizione non fa altro che rendere l’equilibrio ancora più instabile.

Che cosa fare? Il nostro processo di content strategy

Ricorrere a un processo basato su dati analitici, strumenti di terze parti sulla visibilità organica, analisi e clusterizzazione semantica per scegliere cosa tagliare e cosa mantenere.

Analizziamo step by step la strategia da mettere in atto:

    • Il processo di content audit: da quello di tipo tradizionale a uno automatizzato e ottimizzato grazie al machine learning;
    • Analisi esplorativa: riguarda la distribuzione e segmentazione dei contenuti, e consente di avere un quadro preciso dello stato dei testi sul sito, analizzandone anche la distribuzione per categoria, lunghezza e segmentandoli per efficacia in termini di ranking;
    • Identificazione di anomalie in base ad analisi keyword e clusterizzazione: l’algoritmo ci permette di verificare quali contenuti possono ritenersi anomali. L’algoritmo TF-IDF è un calcolo che ci permette di pesare l’importanza di un termine rispetto ad un documento o ad una collezione di documenti. Tale funzione aumenta proporzionalmente al numero di volte che il termine è contenuto nel documento, ma cresce in maniera inversamente proporzionale con la frequenza del termine nella collezione. L’idea alla base del comportamento è dare più importanza ai termini che compaiono nel documento, ma che in generale sono poco frequenti.

Conclusioni: hai un sito editoriale e vuoi ottimizzarlo?

La content audit ci permette di indicare al cliente lo stato di salute dei testi presenti nel suo sito, nonché il loro livello di ottimizzazione l’uno rispetto all’altro. Il vantaggio non è solo che sia un’attività automatizzata, ma anche un’attività di ottimizzazione scalabile su grandi quantità di dati testuali, migliorando l’utilizzo delle risorse a disposizione.

Questo permette al Cliente di lavorare direttamente sui testi problematici, andando a risparmiare tempo ed effort durante l’attività. L’utilizzo del Machine Learning nel contesto SEO non può prescindere dal fattore umano e deve sempre essere soggetto a una revisione finale da parte di specialisti “umani”, appunto.

I risultati che si possono ottenere da questo approccio alla content strategy non sono un punto d’arrivo ma uno stimolo a migliorare il modello di publishing, andando sempre più verso la qualità e la risposta all’esigenza dell’utente.

Andrea D'Agostino Data Analyst di Pro Web Consulting