Beprogramuojant vieną naują projektą, teko spręsti klausimą kaip atfiltruoti spamo botus nuo registracijos formų. Variantai tokiam atvejui gali būti visokie: CAPTCHA, akivaizdūs klausimėliai, matematiniai filtrai, automatiniai filtrai… ir reCAPTCHA.

Kas tai?

Galima sakyti, kad tai - CAPTCHA, pritaikytas eletronizuoti (digitize) knygas. Dalies knygų tekstų simbolių atpažinimo programos negali atpažinti ir kad būtų įmanoma pilnai eletronizuoti tokias knygas, būtinas žmogaus įsikišimas. reCAPTCHA kūrėjai (Carnegie Mellon University) tvirtina, kad per dieną yra užpildoma apie 60 milijonų CAPTCHA formų ir tai yra apie 150 000 darbo valandų, jeigu tarsime, jog žmogus tekstui atpažinti ir suvesti skiria 10 sekundžių. Šios idėjos esmė - pakinkyti tą kiekvieno mūsų dešimties sekundžių darbą, kad jis nenueitų veltui ir atneštų šiokios tokios naudos. Toji nauda - nuskaityti nenuskaitomų knygų tekstai.

Kaip tai veikia?

Internautui pateikiami du žodžiai. Vienas iš jų sistemai yra žinomas, o kitas - skenuotas iš knygos. Jeigu žinomą žodį vartotojas atspėjo, laikoma, kad ir antrasis teisingas. Kad nenuskaitomas žodis taptų patvirtintas, jį identiškai turi įvesti keli skirtingi žmonės.

reCAPTCHA puslapyje pateikiama nemažai informacijos su paaiškinimais, taip pat kodo pavyzdžiai, įskiepiai ir priedai įvairiom kalbom (kaip PHP, Ruby, Python). Pavyzdžiui, WordPress įskiepis guli adresu http://recaptcha.net/plugins/wordpress/ :)

Įdomu būtų pavartyti nors vieną taip elektronizuotą knygelę…

www.recaptcha.net
http://en.wikipedia.org/wiki/ReCAPTCHA