เนื่องจากที่ผ่านมา มี BOT สมัครเป็นสมาชิกเว็บบอร์ดทุกสัปดาห์ เพื่อทำลิงก์กลับไปยังเว็บไซต์ตน หวังจะให้เว็บของตนเองมีอันดับใน search engine ดีขึ้น และทางเราขี้เกียจมาคอยตามลบลิงก์ขยะเหล่านั้นทิ้งไป
วันนี้ผมจึงเปลี่ยนตัว
CAPTCHA ของเว็บบอร์ดเดิมที่ทำหน้าที่ได้ล้าหลังมาก
(โดน BOT ใช้
OCR แกะออกอย่างง่ายดาย) มาเป็น
reCAPTCHA โดยหวังว่าจะไม่เสร็จ BOT เหล่านี้อีก
รูปแบบการพิมพ์ข้อความจะเปลี่ยนไปเล็กน้อย จากเดิม (CAPTCHA) ที่มีเพียง 1 คำให้กรอกเท่านั้น เปลี่ยนเป็น (reCAPTCHA) ต้องพิมพ์ 2 คำ และให้เว้นวรรคระหว่างคำด้วย
ตัวอย่างเช่น ในหน้าขอสมัครสมาชิกเว็บบอร์ด หากเราเห็นตัว reCAPTCHA ดังรูปข้างล่าง
สิ่งที่เราต้องพิมพ์คือ machine reviewing
ไม่ใช่ machinereviewing
ในกรณีที่รูปภาพด้านล่างไม่ชัด ไม่แน่ใจว่าอ่านข้อความได้ถูกต้องหรือไม่ เราสามารถขอเปลี่ยนภาพใหม่ได้โดยคลิกที่ไอคอน
reCAPTCHA คืออะไร ?
เนื่องจากปัจจุบันมีการใช้ CAPTCHA อย่างแพร่หลายทุกวัน และเป็นการใช้สมองของมนุษย์มาประมวลผลจำนวนมาก คนกลุ่มหนึ่งมองเห็นตรงจุดนี้และคิดว่า แทนที่เราจะใช้สมองนั้นวิเคราะห์ว่ารูปภาพนั้นคือตัวอักษรอะไรเพื่อใช้ในการตรวจสอบว่าท่านเป็นมนุษย์จริงหรือไม่ มันน่าจะใช้ทำประโยชน์ได้มากกว่านั้น ทำอย่างไรจึงจะยิงปืนนัดเดียวได้นกมากกว่า 1 ตัวละ
มีงานเกี่ยวกับ OCR จำนวนมากเกิดปัญหา ให้ความถูกต้องในการแกะตัวอักษรจากรูปภาพได้แย่มาก เนื่องจากต้นฉบับอาจจะไม่ชัดเจนมาก หรือไม่ก็เทคโนโลยีทาง Image Processing ยังไม่สมบูรณ์พอ เช่น
จากรูปข้างบนจะเห็นว่ารูปภาพในหนังสือที่ scan มา เมื่อผ่านโปรแกรมเกี่ยวกับ OCR แล้วให้ความถูกต้องไม่ดีนัก แต่สำหรับมนุษย์เราแกะได้สบายมาก
เพื่อแก้ปัญหานี้และเพื่อตรวจสอบความถูกต้องที่ได้จาก OCR เราน่าจะตัดรูปภาพบางส่วนจากหนังสือเหล่านี้ ส่งไปให้ระบบต่างๆทั่วโลกที่ต้องใช้ CAPTCHA ช่วยตรวจสอบซะเลยว่า มันควรจะเป็นคำว่าอะไร
แต่เพื่อป้องกัน การมั่วนิ่ม ของมนุษย์ หรืออะไรก็แล้วแต่ ตัว reCAPTCHA จึงส่งอีก 1 คำที่ตัว reCAPTCHA รู้ดีว่าคือคำอะไรมาด้วย หากมนุษย์บอกคำนั้นถูก ทาง reCAPTCHA จึงจะสรุปว่า อีกคำนั้นมีความเป็นไปได้ว่าจะถูกด้วย และจะคอยตรวจสอบกับมนุษย์คนอื่นที่บอกคำนี้มาเช่นกัน ว่าตรงกันหรือไม่ หากตรงกันก็ยิ่งมีความเป็นไปได้ว่า มันควรจะแกะได้เป็นคำนั้นจริง
เห็นที่มาของตัว reCAPTCHA แล้ว ผมจึงค่อนข้างมั่นใจว่า BOT ไม่น่าจะแกะได้ง่ายนัก เพราะรูปภาพที่ reCAPTCHA เลือกมา เมื่อแกะด้วย OCR แล้วให้ผลไม่ค่อยถูกต้อง ตัว BOT เองอย่างไรซะก็ไม่มีทางเก่งไปกว่า OCR ได้เลย