#PanamaPapers: ¿Cómo procesaron los 2.6TB filtrados?

Soy Digital

Quienes están acostumbrados a manejar grandes volúmenes de datos saben la tarea titánica que esto podría representar. ICIJ utilizó un software capaz de manejar a este elefante digital.

Juan José López Torres @jjlopezt

A medida que avanzan los días tras el escándalo de los “Papeles de Panamá“, se van desvelando las maneras en que ocurrió la gigantesca filtración, el tiempo que demoró y las herramientas que fueron empleadas para ello.

En una publicación de la BBC en Español, se supo que el International Consortium of Investigative Journalists (ICIJ) empleó una poderosa herramienta para procesar los 2.6TB de datos que filtró un empleado descontento con las actividades de la firma de offshore, Mossack Fonseca, que escandalizado al planeta.

Nuix, el software que permitió el análisis de más de 11 millones de documentos, tiene la capacidad de procesar TeraBytes de datos a diario y poner los resultados con velocidad para ser analizados.

“Ha sido diseñado para la búsqueda y correlación de información a través de grandes cantidades de datos, de forma rápida y eficiente, convirtiéndolo en una alterna superior a otras aplicaciones forenses”, reseña ondata.es, distribuidor en España de la herramienta.

Le interesará saber: #PanamaPapers: Crónica de una capa 8 enfadada

De esa forma, fue posible realizar cruces de variables para determinar la relación entre los jefes de estado señalados, además de funcionarios públicos y empresarios acaudalados. Entre esas variables sobresalieron nombre de empresas, montos de efectivo, direcciones de correo y de IP, y datos tan finitos como números de seguro social, teléfono y tarjetas de crédito.

Sin importar que los datos estuvieran dispersos, o en bases de datos y formatos PST, OST, NSF o mbox, o si eran multiusuarios, como EDB, Domino o Groupwise, la herramienta forense escrudriñó los datos filtrados para encontrar coherencias acusatorias contra los implicados.

Incluso, aunque haya habido archivos borrados, Nuix fue capaz de establecer diagramas de conexión entre las distintas cuentas de correo y sus respectivas actividades en el tiempo. Dicho de otra forma, supo manejar a un elefante digital en la misma habitación.

“Los investigadores pueden reducir de forma drástica las tareas repetitivas por medio de la generación de flujos de trabajo automáticos y de patrones de búsqueda inteligentes transferibles entre casos“, asegura ondata.es

Mediante este software, fue posible determinar que la estructura de almacenamiento mantenía la información de cada firma en carpetas individuales, que contenían correos, contratos, transcripciones y documentos escaneados.

Así inició todo: #PanamaPapers: 2.6TB de escándalos comprometedores

“En algunas instancias, hay varios miles de páginas de documentación. Primero, la data tuvo que ser sistemáticamente indexada para facilitar y hacer posible la búsqueda a través de este mar de información. En este extremo, el diario usó Nuix, el mismo programa con el que trabajaron los investigadores internacionales“, afirmó ICIJ.

El proceso requirió de una infraestructura de hardware sofisticada para procesar los miles de datos. De esa forma, la ICIJ y el diario cargaron millones de documentos en computadoras de alto rendimiento. Usaron OCR para transformar la información en datos para las máquinas lectoras y facilitar la búsqueda de archivos y transformó las imágenes en documentos de texto.

“Este fue un paso importante: posibilitó a los periodistas a  combinar a través de una larga porción de lo filtrado como les fue posible usando una máscara de búsqueda simple, similar a la de Google“, agregó la entidad.

Según el centro, en total, fueron filtrados 4 804 618 correos, 3 047 306 formatos de bases de datos, 2 154 264 PDF, 1 117 026 imágenes, 320 166 documentos de texto, y otros 2 242 tipos de documentos.

Este artículo está clasificado como: , , , , , ,

Comentarios

Para poder comentar debe iniciar su sesión:

INGRESAR