Quando il dittatore conviene – the making of

di Davide Mancino – datajournalism.it

Qualche giorno fa è uscita su Wired la mia inchiesta in due parti sulla vendita di armi in Siria e, più in generale, sull’export italiano di equipaggiamenti militari. Se n’è parlato un po’ anche sul gruppo di discussione dedicato al data journalism, dove c’era qualche curioso del dietro le quinte del lavoro. A grandi linee è andata così.

Il punto di partenza è stato il lavoro del CAAT, dove si sono presi la briga di fare scraping dei documenti ufficiali europei sul traffico di armi e infilare tutto in un bel database. “Ah beh, allora era già tutto pronto”, direte voi. Ecco, no. Questo è il file come appare appena aperto in Calc:

Come vedete ci sono diversi problemi:

1) Manca l’intestazione delle colonne;

2) La colonna G, che intuitivamente sembra indicare i totali, contiene dei numeri che non hanno molto senso (13 euro? Cosa hanno venduto, uno stuzzicadenti?).

Bisogna capire che stiamo guardando. Alcune cose sono chiare da subito:

1) Ogni riga rappresenta una transazione di qualche tipo;

2) La colonna A indica l’anno della transazione;

Scorrendo in basso capiamo che la colonna C rappresenta il paese di origine, quella D di destinazione. Ne mancano altre 4.

Un po’ di spiegazioni sono sullo stesso sito del CAAT, altre su Github:

1) La colonna B indica se la nazione oggetto della transazione era sotto embargo (valore “1”) o meno (valore “0”);

2) La colonna E indica il “cosa”: di che equipaggiamento si parla in ogni riga? Al CAAT hanno usato le convenzioni dell’UE contenute in questo documento. Troviamo 22 diverse categorie (da ML 1 a ML 22, ovvero “armi leggere”, “aerei e droni”, “veicoli” eccetera);

3) La colonna F specifica invece il tipo di transazione: può essere la quantità di licenze approvate, il valore delle stesse, il valore dei beni esportati, o la ragione per cui una licenza è stata rifiutata (in base ai criteri definiti in un altro documento UE).

Per semplificarmi la vita ho preso queste informazioni e le ho usate per fare una serie di sostituzioni nel foglio di calcolo. Ho anche fatto un po’ di pulizia generale togliendo doppi spazi e altri orrori simili, salvando man mano le tabelle:

Abbiamo così un foglio che comincia ad avere un po’ di senso:

Allo stesso tempo, però, esso mischia ancora mele e pere: non ha senso tenere insieme numero di licenze rifiutate e approvate, valore dei prodotti venduti in licenza (cioè autorizzazioni) e valore dei prodotti effettivamente esportati. Sono tutte cose diverse, per ciascuna delle quali ho fatto dei filtri e costruito quattro diverse tabelle.

Mi interessavano i numeri delle autorizzazioni alla vendita in licenza, perché sono gli unici disponibili per tutte le nazioni europee e che consentono di fare confronti sensati. Germania e Gran Bretagna, per esempio, non sempre forniscono dati sulle esportazioni effettive.

A questo punto, qualche settimana fa, la Siria era appena tornata sui media di tutto il mondo, così ho pensato di dare un’occhiata per vedere chi esportava lì e quanto tramite delle pivot. Visto che c’ero ho anche aggiunto un altro po’ di nazioni potenzialmente interessanti:

(immagine a risoluzione maggiore qui)

Già qui di storie da raccontare ce ne sarebbero parecchie. Intanto però si vede subito che su un totale di 27,7 milioni diretti in Siria quasi 17 arrivano dall’Italia. Ecco la notizia.

Ora fidarsi è bene, non fidarsi è meglio: e se al CAAT avessero commesso un errore? Automatizzando l’estrazione di dati da grandi file di testo è sempre possibile che scappi qualcosa. Sarebbe davvero poco simpatico sparare il titolaccio in homepage per poi essere smentiti il secondo dopo.

Con un po’ di ricerche e domande in giro sono arrivato ad altre due fonti: Giorgio Beretta di unimondo.org, esperto di affari militari, e in secondo luogo alla bibbia dell’export della difesa italiana: la relazione annuale del Governo.

In teoria sarebbe bastato cercare i totali nei documenti per vedere se combaciano, una roba da poco. Ancora una volta: no. Mai sottovalutare la capacità dei ministeriali italiani di complicare le cose. Infatti i documenti non sono veri e propri file di testo, ma immagini scannerizzate da documenti stampati, perdipiù a una risoluzione tale da renderli enormi e ingestibili.

(Per dare un’idea: cercando i dati italiani 2012 l’ufficio stampa della Camera mi comunica che il file è troppo grande e non può mandarlo per mail perché i servizi pubblici di posta non ce la fanno. Soluzione proposta: spedire i volumi tramite posta fisica.)

Tocca dunque infilare i file in un OCR, unire i diversi tomi in un documento unico per ogni anno, e lavorare con quello. Se volete dare un’occhiata alla differenza, i documenti “ripuliti” sono qui (notate come quasi solo in questi ultimi sia possibile fare ricerche di parole chiave nel testo). D’altra parte si trattava di migliaia e migliaia di pagine, se avessi voluto leggerli ci sarebbe voluta un’infinità di tempo (e probabilmente avrei sbagliato qualcosa). Per sicurezza controllo i dati anche nei documenti europei, e i totali combaciano.

Un dettaglio importante: per motivi che mi sfuggono le relazioni ufficiali italiane indicano o l’importo della transazione o il tipo di equipaggiamento. Spesso a una prima occhiata è impossibile capire esattamente cosa abbiamo venduto a chi, e infatti i dati del CAAT non indicano informazioni sulla Siria. Come ho scritto nella visualizzazione alla fine del primo articolo, bisogna incrociare i totali fra vari documenti.

Nel frattempo Giorgio Beretta mi segnala alcuni dei suoi ottimi articoli sul tema Siria (fra cui questo e questo), che mi consentono di ricostruire in dettaglio la storia degli equipaggiamenti dal 1998 a oggi.

Infine con Guido Romeo decidiamo di dividere l’inchiesta in due parti: nella prima si parla soltanto di Siria, mentre nella seconda ampliamo un po’ il punto di vista e mostriamo – tramite una mappa interattiva che ho costruito in base agli stessi dati – quali equipaggiamenti militari ha venduto l’Italia dal 2001 al 2011.

In origine il primo pezzo avrebbe dovuto includere una timeline, poi in corso d’opera ho preferito usare Prezi, un semplice ma potente strumento per realizzare presentazioni. In base ai risultati sembra che non sia così male per lo storytelling: è forse la cosa più vicina a un video che si possa fare senza ricorrere a un video vero e proprio.

Il budget segreto al Washington Post

Il Washington Post ha pubblicato, in esclusiva, un’analisi data-driven del budget “nero” delle agenzie di intelligence americane. Al di là del valore dell’inchiesta, interessante di per sé, è un bell’esempio di lavoro che mescola in modo efficace forma e contenuto.

Uscito l’altro ieri, oggi appare così:1

 

Ovvero diviso in due parti: articolo “classico” (titolo) e visualizzazione dei dati (occhiello).

 

 

 

Il pezzo è invece questo:

2

L’immagine iniziale (animata, nell’originale) rimanda alla visualizzazione. Il testo fa esattamente quello che un testo deve fare: raccontare la storia. Come mi è stato detto una volta: “I dati possono dirti come, ma non perché“. Questo sta a noi scoprirlo (e, se vogliamo, è anche la cosa più divertente).

È interessante anche il modo in cui la visualizzazione viene presentata:

3

Lo stile è, se possibile, il contrario esatto di quello usato dai giornali italiani. Semplice, minimale, in bianco e nero, senza banner né altri elementi a interferire con la lettura. Una delle difficoltà di questo tipo di lavori è che richiedono spazio: moltissimo spazio.

Spesso – a volte lo faccio anch’io, per necessità – si crea un’immagine che rimanda alla visualizzazione a tutto schermo. Tutto sommato non è male come soluzione, ma al Post (e anche al Times, da quel che vedo) tendono a essere molto più radicali. Le immagini funzionano molto meglio quando sono grandi, e mappe o infografiche non fanno eccezione. Dunque la soluzione diventa uno stile (si parva licet) alla Apple: via gli orpelli e tutto quello che non serve.

Ovviamente questo si applica soltanto alle visualizzazioni, non a tutti i contenuti (altrimenti i pubblicitari s’arrabbiano e i conti esplodono). Eppure non mi sembra una cattiva idea: vale sempre la pena sperimentare.