Come spegnere il sito per un giorno senza che Google lo penalizzi: 503 Service Temporarily Unavailable

Nella giornata di oggi, 18 Gennaio 2012, Wikipedia e tanti altri siti potrebbero essere irraggiungibili. Oscurati. Spenti.

  Il motivo e' una protesta verso le proposte di legge SOPA ("Stop Online Piracy Act") e PIPA ("Protect IP Act"), rispettivamente in discussione, negli USA, presso la Camera e il Senato.
 
Ma quando un sito e' inaccessibile al Googlebot, cosa succede? Non si rischia di perdere qualche posizione nelle SERP del motore di ricerca? Probabilmente queste non sono domande che si pongono coloro che spengono un sito per protesta, ma proviamo comunque a rispondere e a trovare una soluzione.
 
Fra i consigli più completi che ho trovato online, ci sono quelli di Pierre Far, Webmaster Trends Analyst presso Google.
 
In un suo post su Google+, Far suggerisce questi 5 punti:
 
1. Cosa più importante: un webmaster dovrebbe restituire un errore 503 per tutti gli URL interessati al blackout (che possono essere una parte del sito, o l'intero sito). Ciò aiuta in 2 modi:
 
a. Comunica al motore di ricera che quelli non sono contenuti "reali", e che quindi non saranno indicizzati
 
b. Anche se viene mostrato lo stesso contenuto (ad esempio il messaggio "sito offline") su tutti gli URL, ciò non causerà un problema di contenuti duplicati

2. Il tasso di scansione del Googlebot si riduce quando vede un header 503. Ciò e' inevitabile, ma essendo il blackout transitorio non dovrebbe causare problemi a lungo termine e la velocità di scansione riprenderà molto velocemente non appena tutto tornerà come prima. I tempi variano da sito a sito, e comunque dovrebbero essere nell'ordine di pochi giorni.
 
3. Due note importanti sul robots.txt:
 
a. Per come il Googlebot e' attualmente configurato, tutta la scansione si ferma se il robots.txt restituisce un 503. Tale blocco continuerà fino a quanto il Googlebot non vede uno status code 200 o un 404. Pertanto, se oscuri solo una porzione del sito, assicurati che lo status code che restituisce il robots.txt non sia un 503.

b. Alcuni webmaster possono essere tentati di modificare il robots.txt per ottenere un "Disallow: /", nel tentativo di bloccare la scansione durante il blackout. Non farlo! Bloccare il Googlebot in questo modo ha buone probabilità di causare problemi di scansione per un periodo molto più lungo dei pochi giorni indicati al punto 2.
 
4. Compariranno alcuni errori nel Webmaster Tools: significa che Google si e' accorto del blackout. Assicurati di monitorare la sezione "Crawl Errors", soprattutto per un paio di settimane dopo il blackout, per assicurarti che persistano problemi imprevisti.
 
5. In linea generale: non metterti a cambiare troppe cose, in particolare su parametri che impiegano un certo tempo prima che abbiano effetto. Non modificare le impostazioni DNS. Come accennato qui sopra, non modificare il contenuto del file robots.txt, e non alterare la velocità di scansione nei Webmaster Tools. Mantenere più settaggi costanti prima, durante e dopo il blackout minimizzerà gli eventuali piccoli problemi che potranno presentarsi.
 
Il lungo elenco di suggerimenti di Far e' stato ben sintetizzato in un post pubblicato un annetto fa sul Google Italy Blog, e intitolato "come gestire il downtime pianificato di un sito"; in buona sostanza:
 
Invece di utilizzare un codice HTTP 404 (Not Found) o mostrare una pagina di errore con codice di stato 200 (OK), e' meglio utilizzare un codice HTTP 503 (Service Unavailable) che indichi ai crawler dei motori di ricerca che il downtime e' temporaneo.
 
Inoltre, questo permette ai webmaster di fornire sia ai visitatori che ai bot una stima temporanea su quando il sito sarà nuovamente funzionante. Se nota, la durata del downtime può essere specificata in secondi o in relazione alla data e all'ora stimati per il completamento, grazie ad un'intestazione opzionale di Retry-After, che Googlebot può usare per determinare quando scansionare di nuovo l'URL.

Fonte: blo