L’implacabile Google Panda: Capire e reagire

Google Panda, l’aggiornamento di Google che penalizza i siti che duplicano contenuti è sbarcato in Italia. Se hai notato un brusco calo di visite sul tuo sito è possibile che ci sia lo zampino di Panda. Ma la comunità del web comincia a capire come stanno le cose, ecco qualche soluzione di pronto soccorso. (Aggiornato: Agosto 2011).

Il fatto

Venerdì 25 marzo quattro dei miei siti, risparmiando.net, offertelettronica.net, cellulariofferte.com e negozi-sport.it, capaci da soli di generare quasi 100.000 visite al mese, spariscono dalle prime pagine dei risultati di Google e gli accessi subiscono un drastico calo del 90%, come in figura. Comincio a chiedermi che cosa sia successo.

 

Qualche giorno dopo, quando già mi è chiaro come questo cambiamento non sia facile da invertire, inizio a pensare che la mannaia di Google Panda si è abbattuta su questi siti. Mentre in Italia, su casi simili al mio, quasi nessuno riesce a collegare gli effetti con Panda, in America esistono già i primi bollettini stilati dalle vittime. Oggi su molti forum italiani potete vedere che la gente sta cominciando a capire. Alcuni siti popolarissimi da mesi o addirittura da alcuni anni sono oggi in vendita: un motivo c’è.

Forse volete capire se il calo che un tuo sito può avere avuto sia effetto di Panda. Posto che la certezza assoluta non si ha, perché non arriva al webamster alcun messaggio, ecco

I sintomi

  • Gli accessi del sito calano all’improvviso del 40 al 90% (un calo del 90% significa che se prima facevate 2000 visite/giorno, ora sono 200/giorno)
  • Inserendo su Google combinazioni di parole chiave con le quali uscivate in prima pagina ottenete risultati molto diversi: il tuo sito si trova dalla quinta pagina di risultati in avanti. Su altri motori di ricerca (Yahoo per primo) il tuo sito continua a uscire nelle prime posizioni. – Nelle ricerche di cui sopra, alcuni tuoi concorrenti sono spariti come è successo a te
  • Nelle ricerche di cui sopra, escono nelle prima pagine siti contenenti copie dei contenuti tratti dai vs. siti, oppure siti non pertinenti alla ricerca
  • Il tuo sito è comunque indicizzato da Google (cioè, non hai subito un vero e proprio banning). Questa cosa si verifica inserendo site:www.tuosito.it nella ricerca di Google oppure tramite il Google Webmaster Tools
  • Il Google Webmaster Tools riporta per il tuo sito, aprendo il quadrante Ricerche, un grafico di impressioni (=numero di volte in cui il tuo sito è apparso nei risultati di una ricerca) che mostra una brusca discesa come in figura.

  • Quell’acquisto che prevedevi di fare con gli introiti del tuo sito web ti appare improvvisamente lontano nel tempo e poco realizzabile (scherzo)

Se rilevi la maggior parte dei sintomi di cui sopra, è facile che il tuo sito sia stato penalizzato da Google Panda.

 

Gli obbiettivi del Panda

Come riporta il blog ufficiale di Google anche attraverso il portavoce Matt Cutts, Google Panda è stato messo a punto con l’intenzione di penalizzare i siti con contenuto cosiddetto “di scarsa utilità” e prevalentemente duplicato da altri siti.

Sentite anche le testimonianze delle vittime, sei a quanto pare a rischio:

  • Se il tuo sito aggrega feed RSS da altri siti
  • Se il tuo sito contiene contenuti non originali
  • Se il tuo sito contiene molta pubblicità in proporzione ai contenuti
  • Se il tuo sito forza il visitatore a navigare attraverso una sequenza artificiosa di più pagine zeppe di pubblicità prima di accedere al contenuto vero e proprio

Aggiungo io, la lista qui sopra non è esaustiva e mancano alcuni importanti casi che si possono (fortunatamente) controllare. Questo si è scoperto solo empiricamente, più tardi, come spiegherò fra poco.

Inoltre, limitandoci alla lista di comportamenti proibiti “ufficiale”, dal momento che Google Panda è pur sempre un algoritmo quindi un programma eseguito da un computer, insomma una macchina, a volte sbaglia.

Eh sì, perchè il meccanismo di aggregazione RSS funziona nell’arco di secondi. I diversi siti usano orologi che possono avere imprecisioni anche di alcuni minuti, e come può mai fare Google, che sonda i siti “a campione” in momenti casuali della giornata, per capire chi ha copiato da chi?

Consideriamo il caso seguente:

  1. A crea un post alle 12:00, sfortuna vuole che l’orologio del server sia “avanti” di pochi secondi o minuti
  2. Alle 12.01 il sito B copia il post, lo ripubblica con orario leggermente anticipato 12:00
  3. Google durante una scansione visita prima B e trova il post datato ore 12:00
  4. Google visita A e trova il post originale datato ore 12:01, pensa sia una copia, penalizza.

Ti sembra irragionevole? Ci sono casi come questo già rilevati e documentati.

E’ nato un sito specifico, www.scoop.it,  gestito dal famoso Robin Good, che tratta tra l’altro questi casi di clamorosi errori del Panda e li documenta con meticolosità.

Nel mio piccolo ho notato io stesso i post-copia sul canale Twitter dei miei siti uscire in cima ai post orginali nei risultati delle ricerche.

Volete una prova? Cercate le parole offerte elettronica su Google, il canale twitter che è chiaramente una copia di alcuni contenuti esce in prima pagina, prima del sito ufficiale che è PageRank 5. Folle!

Un aspetto che trovo inquietante del fenomeno Panda è la totale mancanza di trasparenza.

Le visite subiscono un calo drastico ma nessuno ti spiega esattamente che cosa non va e dove intervenire.
Nel caso il tuo sito sia stato attaccato dagli hacker e presenti, per esempio, un virus collegato alla home page le cose vanno molto diversamente. In quel caso Google usa scrivere all’indirizzo, che è sempre bene definire, [email protected] per notificare che è stato trovato un virus sul tuo sito e che è in atto una penalizzazione.
Il messaggio ti mette in grado di trovare e risolvere il probema, ed essere quindi riammesso presto nelle SERP senza particolari guai.
Non è così per Google Panda: non si ha nessuna indicazione sull’entità del problema. Si dà insomma per scontato che “te la sei cercata/non potevi non sapere”, quindi devi capire tu che cosa hai sbagliato. Il fatto è che come si vede, molti comportamenti penalizzanti possono essere spesso compiuti in buona fede. Non mancano poi, come si è detto, casi di siti originali penalizzati per causa di altri che copiano, questi ultimi sono evidentemente fuori dal tuo controllo.

 

Soluzioni possibili

A distanza di qualche mese cominciano a essere documentati alcuni accorgimenti contro l’odioso Panda.

Nella ricerca della soluzione, devi sempre tenere a mente un concetto fondamentale, e cioè il seguente:

Principio: Google Panda è stato introdotto per una ragione ben precisa: i siti si moltiplicano come funghi e crescono esponenzialmente. Google ha capito che non riesce più a tenergli testa ed è corso ai ripari come ha potuto.

In questo scenario, devi ora metterti “nei panni” del gestore di Google. Immagina quali accorgimenti vorresti che i siti utilizzassero per alleviare questo problema.

Incredibilmente, si scopre che questi accorgimenti funzionano, come documentato dal famoso caso di DaniWeb, che vanta (ma il dato è come si suol dire da prendere “con le pinze”) un recupero totale e persino un aumento.

Ciò che il caso di DaniWeb ci insegna è riassunto nei seguenti punti:

  • Ciò che fa “arrabbiare” lo spider e che causa la penalizzazione non sempre è dato da copie esterne o fattori esterni. Osservazioni empriche mostrano che molto più spesso il problema è dato da copie interne al sito di contenuti propri, link inutili: fattori interni che spesso sfuggono al nostro controllo e che sono in realtà perfettamente controllabili.
  • Conclusione: Trova un modo di far lavorare meno lo spider, e lui ti ricompenserà

Ecco quanto personalmente consiglio e che ho potuto testare di persona, in ordine di importanza:

  • Se sei stato penalizzato, non fare modifiche affrettate che possono peggiorare le cose. Le modifiche che possono metterti ulteriormente a rischio sono soprattutto il cambiamento della struttura di permalinks, la rimozione di un ampio numero di pagine senza precauzioni (vedi sotto), l’inserimento di meta-tag NOINDEX su un ampio numero di pagine senza una analisi sensata (vedi sotto). Questi errori provocano penalizzazioni temporanee immediate dovute alla sopraggiunta indisponibilità delle risorse del tuo sito, ciò provoca scivoloni che falsano i restanti interventi.
  • Esamina attentamente, usando il tuo servizio statistiche (Analytics?) la lista dei contenuti più visitati (=pagine) del tuo sito e cerca di capire, in caso di pagine che sostanzialmente duplicano contenuti, quali di queste Google preferisce (appaiono nelle statistiche) e quali invece lui esclude (non appaiono nelle statistiche se non in fondo). Quasi in ogni sito esistono tali pagine, se usi WordPress per esempio sappi che genera in automatico collezioni di articoli dette Category Pages, Tag pages, Author pages, Archives e via così. Queste pagine sono essenzialmente veri incubi per lo spider che perde una vita a scansionare tutte queste pagine che vede come contenuti duplicati. Queste pagine vanno escluse dalla scansione usando un file robots.txt in prima battuta, in seguito magari rese NOINDEX. Utile anche fare in modo che i link verso tali pagine siano NOFOLLOW o meglio ancora rimuoverli. Già escludendo con robots.txt una volta indovinato le pagine da escludere, ho riscontrato un feedback positivo in termini di visite già dopo 2 settimane.
  • Se hai link a siti affiliati su tutto il sito, specie se su sidebar e footer, questi vanno rimossi o al limite resi nofollow.
  • Verifica su Yahoo Site Explorer o Google Webmaster tools se esiste un sito che ti linka da tutte le sue pagine. Chiedi di essere rimosso o, se non puoi ottenere questa cosa, non linkarlo di ritorno. Questa situazione e la precedente configura la tua appartenenza a schemi di scambio link o peggio vendita link ed è oggetto di penalizzazione.
  • Qualcuno sostiene che si ha beneficio, nei casi di siti eterogenei che hanno cioè parte delle pagine di alta qualità e parte delle pagine di bassa qualità, a dividere il sito in più sottodomini di terzo livello. Non sono in grado di dare una valutazione a questo accorgimento non avendolo mai provato, però ha un fondamento: Panda penalizza un dominio nella sua interezza per cui ha senso aspettarsi che ripartendo i contenuti si ripartisca anche il rischio cosicché, per dire, un autore poco capace non penalizzerà più l’intero sito ma solo la sua sezione/sottodominio. E’ bene valutare l’impatto di queste soluzioni, comunque, perchè la fatica di monitorare e tracciare questi sottodomini aumenta e inoltre chi guadagna su affiliazioni può essere vincolato a un singolo dominio per volta.
  • Se il tuo sito aggrega RSS da fonti esterne e non è essenziale fare questa aggregazione RSS, fai a meno di questi contenuti eliminandoli. Prima di eliminare questi post, allestisci una pagina che catturi gli errori 404 not found e ritorni un messaggio con un rassicurante codice HTTP 200, unitamente a una meta-tag NOINDEX. Ciò dovrebbe favorire la rimozione silenziosa della pagina con contenuto duplicato dall’indice di Google, senza attivare alert di “non trovato” nel Google Webmaster Tools che provocherebbero un ulteriore scivolone.
  • Sfrutta il più possibile mezzi di promozione alternativi come newsletter via mail (niente spam però) e una pagina Facebook e/o un canale Twitter ben presentati e aggiornati regolarmente.
  • Inizia a usare motori di ricerca alternativi come DuckDuckGo, Bing e Yahoo e consiglia a tutti di fare altrettanto. Se Google non avesse una posizione dominante sui motori di ricerca (è usato dal 90% degli utenti) gli aggiornamenti dall’effetto disastroso come Panda sarebbero molto più rari e operati con più cautela e soprattutto trasparenza.
  • Informati in rete su ciò che è successo ad altri, commenta i post, racconta la tua esperienza e fai sentire la tua voce.

Non voglio con questo difendere o sostere la produzione di spam e contenuto inutile: credo solo che contrastare questi fenomeni in modo sbrigativo e per giunta con modalità automatiche non trasparenti possa creare più danni che benefici.

Conclusioni

Nel tentativo di ridurre la presenza di siti che duplicano contenuti Google persegue la guerra contro le cosiddette “content farms / fabbriche di contenuti” con il Panda Update, un nuovo algoritmo che ha spazzato via dalle prime pagine dei risultati siti di scarsa qualità… più alcune vittime innocenti.

Al di là degli inevitabili benefici che questo aggiornamento porta, rimane il fatto che non tutti i siti sono della stessa tipologia e che alcuni servizi sul web (come ad esempio i siti di comparazione prezzi e gli aggregatori di news) devono per forza duplicare contenuti e per questo tipo di siti la sopravvivenza è oggi molto più difficile.

Questo articolo è partito dal raccontare una esperienza personale e testimonianze raccolte in rete per descrivere i sintomi della penalizzazione operata dal Panda Update, finendo per elencare alcune soluzioni già identificate e testate.

In conclusione, mi preoccupa l’eventulità che siti costati investimenti di denaro e energie possano essere improvvisamente costretti a chiudere per effetto di modifiche all’algoritmo di ranking dei siti, algoritmo che come è successo può sbagliare, e che opera in modo silenzioso e non trasparente, di fatto non consentendo ai diretti interessati di correre ai ripari in modo efficace.

Mi auguro che in futuro Google voglia introdurre, come già avvenuto per altri aspetti della gestione siti web, appositi avvisi in caso di penalizzazioni, favorendo una maggiore trasparenza e dando agli operatori facoltà di valutare e eventualmente correggere i problemi riscontrati sui loto siti, problemi che a volte, come si è visto, possono essere falsi positivi oppure nati senza mala fede da parte dell’operatore interessato.

 

Riferimenti / per approfondire

Commenti

Chi vuole può commentare questo articolo sulla pagina Facebook.

 

PS. Se possibile, condividete usando i pulsanti qui sotto. Se anche questo sito viene sepolto, non sarà più trovato da nessuno.



me
Su Cristiano Leoni
Cristiano Leoni è sviluppatore di siti web ed è specializzato in tecnologie e soluzioni avanzate per Internet, in particolare PHP, Wordpress e Prestashop.
Puoi seguirlo su Siti Web Bologna su Google+, Siti Web Bologna su Twitter, Siti Web Bologna su Facebook,

Siti Web Bologna - sito personale - Info/Contatti