mercoledì 12 gennaio 2011

Il nuovo sistema Captcha anti-bot di Google search engine è stato crackato



Nonostante le smentite da parte di Google, un ricercatore di sicurezza continua ad affermare che il sistema di protezione  ReCAPTCHA dei siti web da spammer può essere sfruttato attraverso posta indesiderata. Il ricercatore Jonathan Wilkins ha pubblicato un documento di recente che effettua anche una valutazione di sicurezza del reCAPTCHA. In attacchi automatizzati che ha condotto contro il sistema, ha riferito che aveva un tasso allarmante di successo del 17,5 per cento.


CAPTCHA sta per "Completely Automated Public Turing test to tell Computers and Humans Apart", Test di Turing pubblico e completamente automatico per distinguere computer e umani. Si tratta d'un metodo per sventare attacchi automatizzati da spammer su siti web.  Il ReCAPTCHA viene impiegato su una varietà di siti web in cui i visitatori vogliono creare account o effettuare altre azioni che sono spesso sfruttati da script dannosi

Prima che un internauta possa eseguire in un sito un dato compito, come ad esempio la creazione di un account di posta elettronica o l'aggiunta di commenti a un blog posting, a lui o lei viene presentata l'immagine di una parola o una frase che mette in difficoltà in qualche modo. L'immagine distorta è destinata a contrastare scanner e software per il riconoscimento ottico dei programmi utilizzati per automatizzare la compromissione dei siti web da parte degli spammer. 

ReCAPTCHA è stato progettato dai ricercatori della Carnegie Mellon University come un modo per risolvere due problemi in una volta - la scansione di libri più accurata ed evitare script automatici che possono scatenare il caos sui siti web pubblici. L'idea è che gli esseri umani sono in grado di leggere ogni tipo di immagini a forma di caratteri mentre le macchine non possono. Alcuni semplici calcoli rivelano quanto sia allarmante la scoperta di Wilkins. 

Il gestore di una botnet, anche modesta di 10.000 macchine, sarebbe perfettamente soddisfatto con un tasso di successo pari allo 0,01 per cento. Ciò significherebbe 10 account di gmail potrebbero essere creati ogni secondo o 864.000 nuovi account al giorno da cui lo spam potrebbe essere lanciato. I contatori di Google che Wilkins ha preso di mira e testati sono in una vecchia forma di reCAPTCHA quando dal 2008 è stato modificato.


"[T] il suo studio non riflette l'efficacia delle attuali tecnologie di reCAPTCHA contro la macchina risolutore", un portavoce di Google ha detto a The Register. "Abbiamo trovato che il reCAPTCHA è molto più resistente, mentre anche abbiamo trovato un equilibrio giusto con l'usabilità umana, e abbiamo ricevuto feedback molto positivi da parte dei clienti."

Wilkins ha riconosciuto che le sue prove iniziali erano su una versione precedente di reCAPTCHA, ma da quel momento, egli ha condotto test su nuove immagini prodotte dal sistema e li ha trovate essere ancora più deboli di quelle vecchie. In una delle sue prove originali sul sistema, la sua percentuale di successo era 5 su 200. 

Quando questo test è stato eseguito sul reCAPTCHA nuovo, il tasso è stato del 23 in 100. La principale differenza tra le versioni vecchie e nuove di reCAPTCHA, secondo Wilkins, è l'uso di linee orizzontali per oscurare i caratteri nell'immagine. Mentre l'uso delle linee rende più difficile per le macchine di riconoscere la frase di un reCAPTCHA , anche se Wilkins sostiene le linee possono essere facilmente sovvertite da spammer, ma rende anche la frase più difficile da leggere, anche da esseri umani. 

Nuove immagini di reCAPTCHA non presentano le righe, ma aggiungono la distorsione dell'immagine. Sono più facili da leggere per gli umani, ma, ahimè, sono anche più facile da leggere per le macchine di crack. Diversamente dalla maggior parte dei sistemi CAPTCHA, Google utilizza immagini con due parole. Questo perché Google utilizza reCAPTCHA per due scopi. Il ReCAPTCHA è stato progettato dai ricercatori della Carnegie Mellon University come un modo per risolvere due problemi in una volta - la scansione di libri più accurata ed evitare script automatici che possono scatenare il caos sui siti web pubblici.


Come altri sistemi CAPTCHA, è progettato per frustrare gli spammer, ma è inserito anche nelle iniziative di Google per digitalizzare i libri. Quando una parola scansionata in un libro può non essere riconosciuta dal software OCR di Google, è inviata al pool di reCAPTCHA. Così, quando una persona entra in una frase in una forma di reCAPTCHA, Google può scoprire sol suo programma di OCR, senza dover assumere redattori per esaminare i risultati della scansione. 

Un punto debole dei sistemi CAPTCHA, è però il fatto che usano parole che si possono trovare nel dizionario. Questo rende più facile per le macchine rompere le frasi perché hanno qualcosa per confrontarle con gli errori. Inoltre, reCAPTCHA utilizza un sistema "one-off". Ciò significa che una lettera in una parola può essere corretta, e sarà ancora accettata dal sistema. Quindi, se la frase reCAPTCHA contiene la parola "morbido" e un Webster entra digitando "torbido", la sua risposta sarà ancora interpretata come valida. 

Tuttavia, è anche possibile inserire come sfondo una protezione aggiuntiva per i servizi, come ad esempio limitando il numero di richieste provenienti da un unico indirizzo IP. Alcune alternative di CAPTCHA evitano parole del tutto. Microsoft, per esempio, ha sviluppato un programma chiamato Asirra che è totalmente basata su immagini di cani e gatti. Per eseguire un compito protetto da Asirra , una netizen che si presenta con una serie di 12 fotografie e che chiede di identificare ogni foto sia come un cane o gatto. 

Questo metodo viene chiamato Human Interactive Proof, o HIP. Per essere efficaci, i sistemi di HIP hanno bisogno di essere supportati da database di grandi dimensioni, che impostano la potenza di calcolo contro l'attacco di uno spammer. Microsoft lo fa utilizzando il database di foto su Petfinder.com, che contiene circa tre milioni di immagini. Il documento di Wilkins lo trovate in formato PDF a questo indirizzo.

4 commenti:

  1. Articolo molto interessante, ma vorrei porre una domanda:
    Quando non è visibile il codice antibot da che cosa può dipendere e come si può risolvere.

    Mi spiego meglio , se apare il rettangolo col codice, ma il codice non è visibile .. da cosa può dipendere e cosa si può fare per risolvere questo problema?

    Grazie
    Saluti

    RispondiElimina
  2. Grazie, puoi provare ad aggiornare la pagina. Bisogna comunque vedere l'ambiente in cui viene richiesto. Spesso, in alternativa viene data la possibilità di utilizzare il captcha audio.

    RispondiElimina