Cuando ocurre un desastre natural o una tragedia, nunca falta gente que se dedica a inventar información y subirla a Internet, quizás con el ánimo de ser chistosos, o simplemente para divertirse confundiendo a la gente. Así para el huracán Sandy aparecieron fotos de gente buceando en las estaciones de metro o tiburones en la ciudad, o para el terremoto de 2010 en Chile salieron personas diciendo que Ricardo Arjona había muerto o que el Huáscar había desaparecido de Talcahuano.
Los investigadores Carlos Castillo (Qatar Research Institute), Marcelo Mendoza (Universidad Técnica Federico Santa), y Bárbara Poblete (Departamento de Ciencias de la Computación de la Universidad de Chile) escribieron en 2010 en paper [PDF] analizando los tuiteos emitidos tras el terremoto de 8,8 grados de magnitud, llegando a varias conclusiones que ahora aplicaron en un algoritmo.
Este “detector automático de eventos” usa 16 características para determinar la credibilidad de tuits noticiosos, y será publicado en la revista Internet Research el próximo mes.
“Nuestros datos muestran que es posible separar eventos que corresponden a noticias confirmadas de aquellos que en realidad son rumores”, explicó a FayerWayer Marcelo Mendoza, doctor en Ciencias de la Computación de la Universidad de Chile y académico de la UTFSM. “Twitter registra volúmenes muy significativos de tweets que no tienen valor informativo. Sin embargo, nuestro algoritmo puede detectar tweets informativos y extraer información relevante desde ellos”.
Entre las conclusiones de 2010, los investigadores determinaron que los rumores falsos tenían una alta probabilidad de ser tuiteados junto a un signo de interrogación, o una indicación de duda o negación. También concluyeron que los tuits verdaderos tienden a ser más largos e incluir URLs, que las personas que tuitean cosas verdaderas suelen tener más seguidores, y que los mensajes que son ciertos suelen ser más negativos que positivos en el tono en que están escritos. Además, los tuiteos verdaderos no suelen incluir signos de interrogación, exclamación o pronombres en primera o tercera persona.
El nuevo algoritmo desarrollado por Castillo, Mendoza y Poblete funciona bastante bien, logrando clasificar como “verdaderos” a los tuiteos verdaderos un 86% de las veces.
“El algoritmo realiza análisis agregado, es decir, caracteriza “grupos” de tweets (no tweets aislados). La fortaleza radica principalmente en la caracterización de eventos a partir de grandes volúmenes”, dice Mendoza. “Más tweets permiten mejores estimaciones”.
Por supuesto, no es un sistema perfecto y quizás una persona entrenada en el uso de redes sociales podría obtener un mejor resultado intentando determinar la veracidad de un mensaje. De todos modos, un algoritmo funciona muchísimo más rápido que una persona, y podría servir como un “primer filtro” para marcar los tuiteos dudosos.
De acuerdo al trabajo que saldrá publicado, “antes de que una noticia se transforme en trending topic es posible estimar la credibilidad de ella. Nosotros aplicamos nuestro algoritmo a los tweets del terremoto del 27-F mostrando que era posible validar las alarmas del tsunami antes de que éstas llegaran a Juan Fernández. Con un tráfico adecuado, la validación de la credibilidad de un evento puede realizarse durante los primeros 15 a 20 minutos transcurridos desde el primer tweet relacionado con el evento”, afirma Mendoza.
Quizás podría ahorrarnos algo de confusión entre los usuarios de la red social, aunque siempre habrá gente ingeniosa que intentará engañar al resto.
Link: Social media hoaxes: Could machine learning debunk false Twitter rumors before they spread? (Slate)