#PanamaPapers: El plan maestro para el gigantesco análisis

Soy Digital

El ICIJ recomendó al diario alemán Süddeutsche Zeitung el uso de Nuix, una solución capaz de procesar millones de datos en un solo día e incluso hacer cruces de variables dispersas.

IDG

Para analizar los más de 11 millones de documentos extraídos de las bases de Mossack Fonseca, se necesitó del software Nuix. Esta es la declaración de Carl Barron, consultor senior de soluciones Nuix, sobre cómo se desarrolló la historia.

Barron dijo que Nuix ha tenido una fuerte relación con el Consorcio Internacional de Periodistas de Investigación (ICIJ) durante más de cinco años, incluyendo una alianza con respecto a la sonda de fraude corporativo de Australia. Es por este motivo que el ICIJ recomendó Nuix al diario alemán Süddeutsche Zeitung, que después auspició los documentos para la investigación “Panama Papers”.

“SZ nos consultó y trabajó con nosotros en los procesos de construcción de hardware y de flujo de trabajo”, afirmó Barron. “Nos implicamos con ambas partes [SZ y el ICIJ]. La investigación actual inició alrededor de septiembre del año pasado, pero no estoy seguro que los datos se hayan producido en un solo lote, puesto que solo nos llevaría alrededor de 1.5 días para indexar los archivos de 11.5 millones de los 2. terabytes “, relató.

Los datos en poder de la ICIJ y Süddeutsche Zeitung contenían algunos retos de reconocimiento de carácter óptico (OCR).

No se pierda: #PanamaPapers: ¿Cómo procesaron los 2.6TB filtrados?

Según Barron, había grandes cantidades de correos electrónicos. Se desglosa en 11.5 millones de archivos diferentes y casi cinco millones de email. Había, también, archivos PDF e imágenes que necesitaban ser OCR para poner convertirlas en lenguaje natural.

Nuix se utiliza para indexar documentos, por lo que los investigadores buscaron e identificaron relaciones a través de los archivos.

“Nuix es un motor de indexación muy poderoso que permite extraer el texto de estos archivos y los metadatos y, a continuación, puede ejecutar consultas muy simples o complejas, que se pueden utilizar para ver relaciones como los nombres de los documentos o el remitente del resto de mensajes”, añadió Barron.

El proyecto se inició a partir de un pequeño escritorio y SZ más tarde compró un servidor de Windows para procesar los datos. El tamaño del volumen de información era “bastante normal”, dijo Barron.

Después de alguna consultoría de despliegue inicial en hardware y flujo de trabajo, SZ y el personal ICIJ fueron capaces de analizar el tesoro detrás de un firewall para mantener la privacidad de los documentos.

Este artículo está clasificado como: , , , , , ,

Comentarios

Para poder comentar debe iniciar su sesión:

INGRESAR