Il canone RAI di Anonymous

Pochi giorni fa Anonymous Italia ha pubblicato un leak di diversi documenti sottratti, a quanto si capisce, a un ammiraglio italiano.

Non mi interessa qui entrare nel merito dei contenuti, che è cosa lunga e complicata e va fatta con tutte le verifiche e le sicurezze del caso. Per quello c’è tempo.

Il punto della questione è un altro.

tweet

E cioè: siamo sicuri che un data dump di questo tipo sia una buona idea? Se un leak ha senso, è perché le informazioni che contiene hanno rilevanza pubblica. E questo è esattamente il motivo per cui operazioni di questo tipo non si fanno così a casaccio. Basta ricordare come ha agito Edward Snowden.

Nessuno – a parte pochi integralisti, prezzolati o male informati – si sogna di dire che Snowden ha fatto quel che ha fatto per interesse personale. Aveva in mano una miniera d’oro, e l’unica cosa che lo separava dal pubblicarla in rete era solo un “invio” sulla tastiera. Perché non è andata così? Perché basta avere un epsilon di coscienza per capire che le azioni hanno conseguenze.

In questa massa di informazioni c’è qualcosa di interesse pubblico? Forse sì, forse no. C’è qualcosa che può violare la privacy delle persone coinvolte? Metterle in imbarazzo? Rivelare segreti che non solo fanno danno, ma in realtà non svelano nulla di cruciale? Di nuovo: forse sì, forse no. Il difficile sta proprio nello scoprire quando è sì e quando è no, ma questo deve essere fatto – è il punto chiave quando si decide se rivelare o meno un segreto.

Se Anonymous ritiene di avere dei leak io, come giornalista, mi impegno a prenderli sul serio e cercare una storia, se ce n’è una. Ma non ha senso pubblicare un minestrone mal digerito che contiene di tutto. Non è che proprio servono questi potenti mezzi per documentare gli orari degli autobus da Roma a L’Aquila (sì, nei file c’è anche quello).

Né frasi come questa possono essere una scusa:

La mole di dati è impressionante, perciò ci è stato possibile studiarne solo un piccola parte, quindi ci appelliamo a ogni essere umano perché scarichi tutti file [sic] e legga di persona.

Invece è proprio il contrario: un bel jolly per chi ha davvero qualcosa da nascondere. La cosa più stupida è dare munizioni a chi dice: “Vedete? Lo dicevamo noi che sono solo dei ragazzini irresponsabili. Non prendeteli sul serio, loro e gli attivisti e i giornalisti e i cittadini che s’impicciano degli affari degli altri”. La cosa più stupida, l’ultima di cui c’è bisogno.

Per fortuna c’è un ottimo esempio su come fare queste cose. Snowden, ancora, e cioè lavorare sul materiale (con esperti, giornalisti, tecnici – non importa), selezionare quello che davvero è di interesse pubblico, verificarlo (maiuscolo, grassetto, sottolineato e corsivo), e solo poi renderlo noto. Come ha fatto Gleen Greenwald, come hanno fatto Guardian e New York Times.

La disobbedienza civile è una cosa seria. Non funziona, se non ci si assume le responsabilità delle proprie azioni e non si riflette sulle conseguenze. Altrimenti ti credi Rosa Parks, ma sei soltanto uno che fa finta di non avere il televisore a casa quando c’è da pagare il canone RAI. Sai che novità.

Nuovi giornalismi al Fatto Quotidiano

A proposito dell’inchiesta di Beatrice Borromeo sul sesso fra adolescenti, Marco Travaglio sale in cattedra per puntualizzare che:

Sappiamo benissimo che raccontare fenomeni anche molto diffusi non significa generalizzare: la storia di Tizio e Caio è la storia di Tizio e Caio.

Abbagliato da tale rivoluzionaria teoria, mi permetto umilmente di suggerire un altro filone dove concentrare gli sforzi degli impavidi cronisti del Fatto.

Povertà in Italia. Dalla nostra inviata speciale a Cortina, con intervista esclusiva a Jerry Calà. BOX: Quando il Silvio diceva “Ma i ristoranti sono pieni”.

Lorsignori ne approfittino pure, finché sono in tempo. Non accampo mica diritti, io.

Frenitalia, la mappa dei treni che non arrivano mai

di Davide Mancino – per la fondazione <ahref
(qui il post originale)

L’inchiesta Frenitalia è il risultato di quasi un anno di lavoro.

L’idea mi è venuta chiacchierando con dei colleghi al Festival del Giornalismo di Perugia, nel 2013. Si parlava di treni, e come succede sempre quando si parla di treni tutti hanno una storia da raccontare. A chi era capitato di passare una notte in carrozza, chi aveva un controllore come miglior amico o arcinemico, chi aveva accumulato talmente tante ore di ritardo che ormai, in una specie di sindrome di Stoccolma, diceva: “È vero non sono un gran che, ma può sempre andare peggio, no?”.

Dopo una settimana passata a seguire lezioni di data journalism vedevo numeri ovunque, così gli ingranaggi hanno cominciato a girare e mi sono chiesto: “Ma al di là degli aneddoti, ci sarà un modo per capire se i treni italiani funzionano bene o male?”. È sempre così: si parte da una domanda innocente e si finisce per passare mesi a fare ricerche.

Così salta fuori che di dati ce ne sono pochissimi, o comunque non sono disponibili, e anche quando sono disponibili sono molto generici. “Queste informazioni non te le daranno mai”, mi ha detto una fonte. Tutto per un servizio che – non dimentichiamolo – è e resta pubblico, dunque pagato dalle nostre tasse.

Nei panni di un lettore, in realtà, la domanda era semplice: “Non mi interessano statistiche né formule complicate. Io di solito vado dal punto A al punto B. Posso sapere se i treni in questa tratta sono puntuali oppure no?”.

Più in là mi sono iscritto alla Data Journalism School (organizzata da Fondazione Ahref e ISTAT) e ho pensato di sottoporgli questo progetto. L’idea gli è piaciuta e mi ha consentito di frequentare il corso senza pagare l’iscrizione, a condizione di pubblicare per loro i risultati.

Il fondamento dell’inchiesta è stato il sito Viaggiatreno, di Trenitalia, in cui ciascuno può inserire il numero del proprio treno e vedere se è puntuale o meno. Un amico programmatore, Francesco Zarrelli, è stato così gentile da scrivere per me uno scraper e questi sono stati i primi due mesi: lavoro, test, nuove modifiche, altro lavoro, nuovi test.

Poi è arrivata la parte più noiosa: far girare il programma per tre mesi – ogni giorno – dal 12 settembre fino al 10 dicembre, così da poter analizzare il maggior numero di dati possibili per un certo numero di corse. L’ideale sarebbe stato farlo per tutti i treni, ma presto ci siamo resi conto che avrebbe richiesto un sforzo molto al di là delle nostre possibilità tecniche.

Raccolti i dati li ho elaborati, cercando di presentarli nel modo più semplice e interessante possibile: da qui l’idea di una mappa e di un lavoro che ha la struttura del long-form journalism – sulla scia (in piccolo, s’intende) di webdoc come Snowfall del New York Times.

Come ho ricordato nell’articolo, i dati raccolti vanno presi con il giusto grado di scetticismo che dovremmo avere verso qualsiasi cosa leggiamo. Sono stati raccolti e studiati al meglio delle mie possibilità e competenze, ma – lo sottolineo – non si tratta di uno studio scientifico. Esiste sempre un margine di errore, tanto più se si tratta di un esperimento (almeno a mia conoscenza) mai tentato in Italia. Il mio invito è prendere questa inchiesta come una base per fare di più e meglio in futuro.

Perché fare una cosa del genere? Ho realizzato Frenitalia per mostrare che l’apertura dei dati al pubblico può creare un ecosistema informativo nuovo, più adatto alla società complessa in cui viviamo. Le informazioni esistono, possono e devono essere raccontate, se vogliamo che le cose cambino.

Alla fine della fiera però lo scopo resta lo stesso: realizzare quella che è sempre stata una delle promesse del giornalismo – un cittadino informato è un cittadino migliore. Come scriveva Luigi Einaudi, la necessità è sempre quella di “conoscere per deliberare”.

Buona lettura.

Leggi l'inchiesta

Transparency report e dati sui dati: we’re so meta!

Per i più curiosi, ecco alcune informazioni in più sui dati che io e Alice Corona abbiamo usato nella nostra inchiesta sui transparency report per Wired.

I dati sul numero di utenti oggetto delle richieste potrebbero non indicare esattamente il numero di utenti coinvolti nella realtà. Lo stesso utente infatti potrebbe essere oggetto di più richieste; lo stesso individuo potrebbe essere proprietario di più utenti; l’account richiesto dalle autorità potrebbe di fatto essere inesistente.

Google
I dati sulla rimozione forniti da Google non esaudiscono il quadro della censura online: oltre alla rimozione dei contenuti, i governi possono anche procedere a bloccare l’accesso a determinati contenuti all’interno della loro giurisdizione.

Microsoft
Microsoft ha dichiarato che, per mettere in proporzione i dati sulla grande mole di richieste ricevute, gli utenti affetti nel primo semestre del 2013 sarebbero solo circa lo 0.01% del totale. Non abbiamo dati per confrontare questa cifra con le altre aziende.

Twitter
Nel caso di governi che inviano meno di 10 richieste, invece di indicare il numero esatto la società ha deciso di indicare “<10” come valore . Per fini statistici abbiamo convertito questo numero in 5,5.

Yahoo
I dati non includono informazioni sulle richieste fatte a entità di Yahoo che hanno ricevuto meno di 9 richieste (Yahoo! Colombia e Yahoo! Hispanic Americas); oltre che i dati su Yahoo! Japan, che opera in  modo indipendente da Yahoo! Inc.
I dati di Yahoo inoltre non includono quelli sul servizio Tumblr, acquisito di recente.

Stati Uniti
Per fini statistici, in alcuni casi abbiamo arrotondato i dati sul numero di richieste effettuate dagli Stati Uniti a un valore intermedio. I dati originali delle richieste erano invece i seguenti:
Apple: 1.000-2.000
Facebook: 11.000-12.000.

Il post è stato aggiornato dopo la pubblicazione iniziale.

Telecom Italia, 15 anni di capitalismo all’italiana

di Davide Mancino – Wired Italia

Dalla privatizzazione del 1997 alla vendita agli spagnoli di Telefonica. Una storia senza soldi e alle spalle dei piccoli azionisti

Quella di Telecom Italia non è solo la storia della più grande azienda italiana di telecomunicazioni. È una storia politica, fatta di manager, spioni, portaborse, ministri e salotti. Una vicenda di potere che ci fa capire come mai, fra le economie europee in crisi, l’Italia è una delle più vulnerabili.

Il resto del mio storify su Wired Italia qui.

Telecom Italia

Aborto, perché la 194 è stata la scelta giusta

di Davide Mancino – Wired Data

L’aborto rimane uno temi dei più controversi a livello politico e sociale, ma qual è il bilancio della sua legalizzazione, a 35 anni dall’entrata in vigore della legge 194 che ha regolamentato l’interruzione volontaria di gravidanza? Fra gli atti medici, questo è l’unico regolato da una legge specifica. Tra gli scopi della 194 (oggetto anche di un combattuto referendum nel 1981) c’era lo scopo di contrastare la pericolosa epidemia di aborti clandestini. Molto ha fatto la crescente consapevolezza da parte delle donne, ma almeno da questo punto di vista i numeri parlano chiaro: la legalizzazione è stata la scelta giusta.

Il seguito è su Wired Data qui.

194

Quando il dittatore conviene – the making of

di Davide Mancino – datajournalism.it

Qualche giorno fa è uscita su Wired la mia inchiesta in due parti sulla vendita di armi in Siria e, più in generale, sull’export italiano di equipaggiamenti militari. Se n’è parlato un po’ anche sul gruppo di discussione dedicato al data journalism, dove c’era qualche curioso del dietro le quinte del lavoro. A grandi linee è andata così.

Il punto di partenza è stato il lavoro del CAAT, dove si sono presi la briga di fare scraping dei documenti ufficiali europei sul traffico di armi e infilare tutto in un bel database. “Ah beh, allora era già tutto pronto”, direte voi. Ecco, no. Questo è il file come appare appena aperto in Calc:

Come vedete ci sono diversi problemi:

1) Manca l’intestazione delle colonne;

2) La colonna G, che intuitivamente sembra indicare i totali, contiene dei numeri che non hanno molto senso (13 euro? Cosa hanno venduto, uno stuzzicadenti?).

Bisogna capire che stiamo guardando. Alcune cose sono chiare da subito:

1) Ogni riga rappresenta una transazione di qualche tipo;

2) La colonna A indica l’anno della transazione;

Scorrendo in basso capiamo che la colonna C rappresenta il paese di origine, quella D di destinazione. Ne mancano altre 4.

Un po’ di spiegazioni sono sullo stesso sito del CAAT, altre su Github:

1) La colonna B indica se la nazione oggetto della transazione era sotto embargo (valore “1”) o meno (valore “0”);

2) La colonna E indica il “cosa”: di che equipaggiamento si parla in ogni riga? Al CAAT hanno usato le convenzioni dell’UE contenute in questo documento. Troviamo 22 diverse categorie (da ML 1 a ML 22, ovvero “armi leggere”, “aerei e droni”, “veicoli” eccetera);

3) La colonna F specifica invece il tipo di transazione: può essere la quantità di licenze approvate, il valore delle stesse, il valore dei beni esportati, o la ragione per cui una licenza è stata rifiutata (in base ai criteri definiti in un altro documento UE).

Per semplificarmi la vita ho preso queste informazioni e le ho usate per fare una serie di sostituzioni nel foglio di calcolo. Ho anche fatto un po’ di pulizia generale togliendo doppi spazi e altri orrori simili, salvando man mano le tabelle:

Abbiamo così un foglio che comincia ad avere un po’ di senso:

Allo stesso tempo, però, esso mischia ancora mele e pere: non ha senso tenere insieme numero di licenze rifiutate e approvate, valore dei prodotti venduti in licenza (cioè autorizzazioni) e valore dei prodotti effettivamente esportati. Sono tutte cose diverse, per ciascuna delle quali ho fatto dei filtri e costruito quattro diverse tabelle.

Mi interessavano i numeri delle autorizzazioni alla vendita in licenza, perché sono gli unici disponibili per tutte le nazioni europee e che consentono di fare confronti sensati. Germania e Gran Bretagna, per esempio, non sempre forniscono dati sulle esportazioni effettive.

A questo punto, qualche settimana fa, la Siria era appena tornata sui media di tutto il mondo, così ho pensato di dare un’occhiata per vedere chi esportava lì e quanto tramite delle pivot. Visto che c’ero ho anche aggiunto un altro po’ di nazioni potenzialmente interessanti:

(immagine a risoluzione maggiore qui)

Già qui di storie da raccontare ce ne sarebbero parecchie. Intanto però si vede subito che su un totale di 27,7 milioni diretti in Siria quasi 17 arrivano dall’Italia. Ecco la notizia.

Ora fidarsi è bene, non fidarsi è meglio: e se al CAAT avessero commesso un errore? Automatizzando l’estrazione di dati da grandi file di testo è sempre possibile che scappi qualcosa. Sarebbe davvero poco simpatico sparare il titolaccio in homepage per poi essere smentiti il secondo dopo.

Con un po’ di ricerche e domande in giro sono arrivato ad altre due fonti: Giorgio Beretta di unimondo.org, esperto di affari militari, e in secondo luogo alla bibbia dell’export della difesa italiana: la relazione annuale del Governo.

In teoria sarebbe bastato cercare i totali nei documenti per vedere se combaciano, una roba da poco. Ancora una volta: no. Mai sottovalutare la capacità dei ministeriali italiani di complicare le cose. Infatti i documenti non sono veri e propri file di testo, ma immagini scannerizzate da documenti stampati, perdipiù a una risoluzione tale da renderli enormi e ingestibili.

(Per dare un’idea: cercando i dati italiani 2012 l’ufficio stampa della Camera mi comunica che il file è troppo grande e non può mandarlo per mail perché i servizi pubblici di posta non ce la fanno. Soluzione proposta: spedire i volumi tramite posta fisica.)

Tocca dunque infilare i file in un OCR, unire i diversi tomi in un documento unico per ogni anno, e lavorare con quello. Se volete dare un’occhiata alla differenza, i documenti “ripuliti” sono qui (notate come quasi solo in questi ultimi sia possibile fare ricerche di parole chiave nel testo). D’altra parte si trattava di migliaia e migliaia di pagine, se avessi voluto leggerli ci sarebbe voluta un’infinità di tempo (e probabilmente avrei sbagliato qualcosa). Per sicurezza controllo i dati anche nei documenti europei, e i totali combaciano.

Un dettaglio importante: per motivi che mi sfuggono le relazioni ufficiali italiane indicano o l’importo della transazione o il tipo di equipaggiamento. Spesso a una prima occhiata è impossibile capire esattamente cosa abbiamo venduto a chi, e infatti i dati del CAAT non indicano informazioni sulla Siria. Come ho scritto nella visualizzazione alla fine del primo articolo, bisogna incrociare i totali fra vari documenti.

Nel frattempo Giorgio Beretta mi segnala alcuni dei suoi ottimi articoli sul tema Siria (fra cui questo e questo), che mi consentono di ricostruire in dettaglio la storia degli equipaggiamenti dal 1998 a oggi.

Infine con Guido Romeo decidiamo di dividere l’inchiesta in due parti: nella prima si parla soltanto di Siria, mentre nella seconda ampliamo un po’ il punto di vista e mostriamo – tramite una mappa interattiva che ho costruito in base agli stessi dati – quali equipaggiamenti militari ha venduto l’Italia dal 2001 al 2011.

In origine il primo pezzo avrebbe dovuto includere una timeline, poi in corso d’opera ho preferito usare Prezi, un semplice ma potente strumento per realizzare presentazioni. In base ai risultati sembra che non sia così male per lo storytelling: è forse la cosa più vicina a un video che si possa fare senza ricorrere a un video vero e proprio.

Il budget segreto al Washington Post

Il Washington Post ha pubblicato, in esclusiva, un’analisi data-driven del budget “nero” delle agenzie di intelligence americane. Al di là del valore dell’inchiesta, interessante di per sé, è un bell’esempio di lavoro che mescola in modo efficace forma e contenuto.

Uscito l’altro ieri, oggi appare così:1

 

Ovvero diviso in due parti: articolo “classico” (titolo) e visualizzazione dei dati (occhiello).

 

 

 

Il pezzo è invece questo:

2

L’immagine iniziale (animata, nell’originale) rimanda alla visualizzazione. Il testo fa esattamente quello che un testo deve fare: raccontare la storia. Come mi è stato detto una volta: “I dati possono dirti come, ma non perché“. Questo sta a noi scoprirlo (e, se vogliamo, è anche la cosa più divertente).

È interessante anche il modo in cui la visualizzazione viene presentata:

3

Lo stile è, se possibile, il contrario esatto di quello usato dai giornali italiani. Semplice, minimale, in bianco e nero, senza banner né altri elementi a interferire con la lettura. Una delle difficoltà di questo tipo di lavori è che richiedono spazio: moltissimo spazio.

Spesso – a volte lo faccio anch’io, per necessità – si crea un’immagine che rimanda alla visualizzazione a tutto schermo. Tutto sommato non è male come soluzione, ma al Post (e anche al Times, da quel che vedo) tendono a essere molto più radicali. Le immagini funzionano molto meglio quando sono grandi, e mappe o infografiche non fanno eccezione. Dunque la soluzione diventa uno stile (si parva licet) alla Apple: via gli orpelli e tutto quello che non serve.

Ovviamente questo si applica soltanto alle visualizzazioni, non a tutti i contenuti (altrimenti i pubblicitari s’arrabbiano e i conti esplodono). Eppure non mi sembra una cattiva idea: vale sempre la pena sperimentare.

Intellettuali d’Italia (parte II)

Poi si sono messi a discutere fra loro di libri che stavano leggendo o che avevano appena finito di leggere. In realtà era Sasso a condurre la conversazione, con la sua voce senza pause che lavorava a velare di ironia o di malizia o di venerazione letteraria un’enome quantità di nomi e frase e titoli rovesciati tra le sue parole come nobili detriti.

[…]

Si rifaceva con un repertorio quasi illimitato di citazioni e accostamenti e salti all’indietro e giudizi di altri riferiti ad altri, con una capacità innaturale ma molto perfezionata di muoversi in un universo freddo di nomi e titoli e date.
Mi sembrava che alcuni autori lo interessassero più per il loro nome che per quello che avevano scritto: e più erano duri ed estranei a un orecchio mediterraneo, più compiaciuta suonava la sua piccola voce nel pronunciarli.
Giocava a dare per scontato che Polidori avesse con loro la stessa familiarità, e sapeva credo benissimo quando non era così; lo stuzzicava e lo snidava allo scoperto e gli giostrava intorno, con frammenti sempre più oscuri di pagine tra le sue zannette di ratto, reso frenetico dal gusto della rivalsa.

[…]

Sasso era pronto ad attirarlo di nuovo per i corridoi polverosi della sua erudizione; tirava fuori a raffica nuove citazioni in latino e tedesco e greco antico, faceva allusioni o domande a cui Polidori non poteva rispondere senza esporsi in modo pericoloso.

[…]

“Ma è sempre così?”.
“Sempre”, ha detto Polidori, e malgrado tutto c’era una venatura di ammirazione nella sua voce. Ha detto “È da vent’anni che facciamo questi pranzi allucinanti. Ha una gelosia feroce per me, ma mi vuole anche molto bene. È un uomo di grandissima intelligenza, oltre che mostruosamente colto”.
Gli ho detto “Quello si vede”; ma era un tipo di cultura per cui non avevo mai provato molta invidia.

–Andrea De Carlo, Tecniche di seduzione

Intellettuali d’Italia (parte I)

CAPITOLO I
L’IGNORANZA È FORZA

Bispensiero sta a significare la capacità di condividere simultaneamente due opinioni palesemente contraddittorie e di accettarle entrambe. L’intellettuale di Partito sa in quale direzione i suoi ricordi debbono essere alterati: sa quindi perfettamente che sottopone la realtà a un processo di aggiustamento; ma mediante l’esercizio del bispensiero riesce nel contempo a persuadere sestesso che la realtà non è violata.
Il procedimento ha da essere conscio, altrimenti non riuscirebbe a essere condotto a termine con sufficiente precisione, ma deve anche essere inconscio poiché altrimenti non saprebbe andar disgiunto da un senso vago di menzogna e quindi di colpa.

Il bispensiero giace proprio nel cuore del sistema cosiddetto Socing, dal momento che l’atto essenziale del Partito consiste nell’usare un inganno cosciente e nello stesso tempo mantenere una fermezza di proposito che s’allinea con una totale onestà.
Spacciare deliberate menzogne e credervi con purità di cuore, dimenticare ogni avvenimento che è divenuto sconveniente, e quindi, allorché ridiventa necessario, trarlo dall’oblio per tutto quel tempo che abbisogna, negare l’esistenza della realtà obbiettiva e nello stesso tempo trar vantaggio dalla realtà che viene negata… tutto ciò è indispensabile, in modo assoluto.

Persino nell’usare la parola stessa bispensiero occorre mettere in opera il bispensiero stesso, poiché usando la parola si ammette implicitamente che si sta adattando una realtà; con un primo, ingenuo atto di bispensiero tale ammissione viene soppressa, e così all’infinito, con una menzogna che si preoccupa sempre d’arrivar prima della verità.

Insomma, è proprio mediante il bispensiero che il Partito è stato capace (e può continuare ad esserlo, per quanto ne sappiamo, per migliaia d’anni) di arrestare il corso della storia.

–George Orwell, 1984