RECAPTCHA

Reconocer a humanos mientras se digitalizan textos

vota:
¡Haz clic para puntuar esta entrada!
(Votos: 1 Promedio: 4)

La idea que sustenta a Recaptcha es simple: aprovechar más y mejor el trabajo que la gente ya hace ante un ordenador para conseguir otros resultados.

Su antecesor, el Captcha, se concibió para asegurarse que el que está detrás del ordenador es una persona y no una máquina. Es un sistema para evitar que robots y spambots accedan a un sistema informático, a través de una prueba desafío-respuesta utilizada para determinar cuándo el usuario es o no humano.  Esta prueba consiste en que la persona introduzca un conjunto de caracteres que aparecen en una imagen distorsionada en la pantalla. Una máquina no es capaz de comprender e introducir la secuencia de forma correcta.

Pues bien, el hecho de que centenares de millones de personas estén reconociendo, todos los días, palabras escritas con trazos borrosos, debería servir para algo más que para detectar si son personas humanas. Lo que hizo el creador del reCaptcha, Luis Van Ahn, es añadir a la primera palabra borrosa que sirve para filtrar si eres humano, una segunda palabra, sacada de libros antiguos, para que los usuarios ayudaran a digitalizar esos textos. Es decir, los usuarios usan con el reCaptcha dos palabras para reconocer. La primera, como control, y la segunda sacada de un libro antiguo que necesita ser reconocida y digitalizada.

Los sistemas OCR de reconocimiento digital automático son capaces de convertir imagen en texto, pero cuando el libro es muy viejo, al ordenador le cuesta trabajo decidir cuál palabra es la correcta. Así que se requiere de un ser humano, y ahí es cuando reCaptcha entra en juego. Gracias a ese mecanismo, en poco tiempo, es posible incorporar a un tesauro miles de millones de palabras escritas en caracteres no reconocibles por máquinas.

Esto lo vio Google, como herramienta para avanzar más rápidamente en su proyecto de digitalización de libros publicados, y entonces compró la aplicación, que usó para el escaneo de textos a gran escala como Google Books y Google News Archive Search. También se ha utilizado para digitalizar viejas ediciones del New York Times.

Este vídeo TEDx de Luis Van Ahn, explica ReCaptcha.

vota:
¡Haz clic para puntuar esta entrada!
(Votos: 1 Promedio: 4)

VER MÁS EJEMPLOS DE ESTE MOLDE

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

CONTACTO

CEA+empresas

C/Arquímedes

PCT Cartuja, 41092

Sevilla ESPAÑA

Telf.: 95 448 89 00

info.masempresas@cea.es