Biblioteca del Congreso estadounidense archivó todo Twitter hasta el 2010. Buscar algo tarda 24 horas

Twitter y la Biblioteca del Congreso estadounidense firmaron un acuerdo el 2010 para que la institución pudiera tener acceso a todos los tuits públicos entre el 2006 y abril del 2010 con el fin de resguardarlos para la posteridad.

Finalmente, la institución anunció que tras tres años terminó de archivar todos los 170 mil millones de tuits de Twitter, desde sus inicios hasta el 2010, a una velocidad de 500 millones de tuits al día, y juntándolos en un archivo de 133,2 terabytes (que incluye dos copias comprimidas del archivo).

Si bien es una buena noticia pues permitiría acceder a masivas cantidades de información pública para ser analizada por parte de profesionales como sociólogos (aunque el acuerdo con Twitter estipula que no se podrá acceder a través de Internet ni hacer públicos los tuits), hay un pequeño problema: Una búsqueda puede tardar hasta 24 horas para encontrar un tuit entre el 2006 y el 2010.

O sea, si bien la Biblioteca del Congreso logró su tarea de registrar todo lo escrito por Twitter desde sus inicios hasta el 2010 (a lo que continuará sumando nuevos tuits hasta llegar a un desfase de seis meses con los escritos el día de hoy), es una cantidad tan masiva de información que para mejorar las búsquedas se requerirá invertir “en cientos, sino miles, de servidores. Lo que es un costo prohibitivo y poco práctico para la institución“, aseguraron en la Biblioteca del Congreso estadounidense.

Link: Library of Congress will complete Twitter archive through 2010 this month, now has 170B tweets on file (The Next Web)