Google adquiere reCAPTCHA: Enseñando a leer a la máquina

Prueba de Turing pública y automática para diferenciar máquinas y humanos

El día de ayer Google compró reCAPTCHA, un sistema desarrollado originalmente por la Universidad de Carnegie Mellon y que más tarde se convirtió en una compañía sólida encargada de proporcionar CAPTCHAS o bien letras cifradas que fueran difícilmente interpretadas por bots. De esta manera ayuda a proteger más de 100,000 sitios de spam y fraude, ¿Recuerdan el caso de Christopher Poole (aka moot ó la persona más influyente del mundo)?.

Pero la importancia de la empresa radica no solo en la implementación de un servicio Web gratuito para brindar CAPTCHAs en lenguajes de programación como PHP o plugins para WordPress, sino en el método que utiliza para brindar esta imágenes que solo los humanos pueden interpretar y que al mismo tiempo ayuda a digitalizar textos.

Dado a que lo textos digitalizados generalmente provienen de los archivos escaneados periódicos y libros antiguos, a los programas de OCR les resulta difícil reconocer estas palabras porque la tinta y el papel se han degradado a lo largo del tiempo, pero si estas se convierten en CAPTCHAs para resolverse por humanos se simplifica el proceso de reconocimiento.

Sistema reCAPTCHA

El texto escaneado es objeto de análisis por dos diferentes programas de reconocimiento óptico de caracteres (OCR), en los casos en que los programas no están de acuerdo la imagen/palabra en cuestión se convierte en un CAPTCHA. La palabra se muestra junto con una palabra de control ya conocida, entonces el sistema asume que si los humanos escriben la palabra de control correctamente, la palabra en cuestión también es correcta.

La identificación realizada por cada programa de OCR se le da un valor de 0.5 puntos y cada interpretación de un humano le da un punto completo, cuando la identificación alcanza 2.5 votos la palabra es considerada válida, al mismo tiempo que son recicladas constantemente como palabras de control.

Cerca de 200 millones de CAPTCHAs son resueltos por humanos alrededor del mundo cada día, es por eso que esta tecnología resulta muy valiosa para proyectos como Google Books y Google News Archive Search.

Actualmente reCAPTCHA está digitalizando los archivos del New York Times, Veinte años han sido digitalizados y el proyecto espera tener los 110 años efectuados en 2010.

Ahora “la maquina” de Google no solo almacenrá datos y conocerá tu perfíl como consumidor, sino que también aprenderá a leer con nuestra ayuda.

Link: Scanning For Google Books And Google News (TechCrunch / Gracias Fernando)