Posterous theme by Cory Watilo

reCAPTCHA

Beprogramuojant vieną naują projektą, teko spręsti klausimą kaip atfiltruoti spamo botus nuo registracijos formų. Variantai tokiam atvejui gali būti visokie: CAPTCHA, akivaizdūs klausimėliai, matematiniai filtrai, automatiniai filtrai... ir reCAPTCHA. Kas tai? Galima sakyti, kad tai - CAPTCHA, pritaikytas eletronizuoti (digitize) knygas. Dalies knygų tekstų simbolių atpažinimo programos negali atpažinti ir kad būtų įmanoma pilnai eletronizuoti tokias knygas, būtinas žmogaus įsikišimas. reCAPTCHA kūrėjai (Carnegie Mellon University) tvirtina, kad per dieną yra užpildoma apie 60 milijonų CAPTCHA formų ir tai yra apie 150 000 darbo valandų, jeigu tarsime, jog žmogus tekstui atpažinti ir suvesti skiria 10 sekundžių. Šios idėjos esmė - pakinkyti tą kiekvieno mūsų dešimties sekundžių darbą, kad jis nenueitų veltui ir atneštų šiokios tokios naudos. Toji nauda - nuskaityti nenuskaitomų knygų tekstai. Kaip tai veikia?
Internautui pateikiami du žodžiai. Vienas iš jų sistemai yra žinomas, o kitas - skenuotas iš knygos. Jeigu žinomą žodį vartotojas atspėjo, laikoma, kad ir antrasis teisingas. Kad nenuskaitomas žodis taptų patvirtintas, jį identiškai turi įvesti keli skirtingi žmonės. reCAPTCHA puslapyje pateikiama nemažai informacijos su paaiškinimais, taip pat kodo pavyzdžiai, įskiepiai ir priedai įvairiom kalbom (kaip PHP, Ruby, Python). Pavyzdžiui, WordPress įskiepis guli adresu http://recaptcha.net/plugins/wordpress/ :) Įdomu būtų pavartyti nors vieną taip elektronizuotą knygelę... www.recaptcha.net http://en.wikipedia.org/wiki/ReCAPTCHA

Posted by

| Viewed
times | Favorited 0 times
Filed under:  

2 Comments

Oct 10, 2007
Lucy said...
Gerai čia pritaikė :)
Oct 10, 2007
Blogorama #217 : nežinau.lt said...
[...] rašo apie įdomų eksperimentą suskaitmeninti knygeles specialaus nuo šlamšto svetainių komentaruose naudojamo CAPTCHA mechanizmo pagalba. Esu skaitęs [...]

Leave a comment...