Image Alternative text

Investigace s pomocí databází: ověřování kvality dat

Publikováno: 06/11/2017

Autorkou článku publikovaného v Příručce verifikace pro investigativní novináře organizace Evropské centrum pro žurnalistiku je ​Giannina Segnini​. 

Giannina Segnini je v současnosti hostující profesorkou na Škole žurnalistiky na Columbia University v New Yorku. Do února 2014 vedla tým novinářů a inženýrů v La Nacion v Kostarice. Tým se naplno věnoval psaní investigativních článků na základě shromažďování, analýzy a vizualizace veřejných databází. Od roku 2000 Segnini školila stovky novinářů v tématech investigativní žurnalistiky, datové žurnalistiky a tzv. Computer Assisted Reporting (CAR). Její semináře se konaly v Latinské Americe, ve Spojených státech, Evropě a Asii. 

Segnini třikrát získala Státní ocenění za žurnalistiku Jorge Vargase Gene, Státní ocenění za žurnalistiku Pio Víqueze, Cenu za výjimečnost v žurnalistice Gabriela Garcíi Márqueze, Cenu Ortega y Gasset založenou deníkem El País ve Španělsku, cenu za Nejlepší novinářské vyšetřování korupční aféry od Transparency International pro Latinskou Ameriku a Karibik (TILAC) a cenu Marie Moors Cabot od Columbia University. Segnini byla také Nieman Fellow (2001–2002) na Harvard University.

Nikdy dřív neměli novináři tolik možností přístupu k informacím jako dnes. Každý den vznikají více než 3 exabyty dat, což je něco kolem 750 milionů DVD. Toto číslo se navíc každých 40 měsíců zdvojnásobuje. Globální produkce dat se v dnešní době měří v yottabytech. (Jeden yottabyte je 250 bilionů DVD dat.) Už teď se diskutuje o nové jednotce, kterou bude potřeba vyvinout, jakmile překonáme yottabyte.

Nárůst objemu a rychlost datové produkce možná v mnoha novinářích vyvolává pocit zahlcení. Spousta z nich není zvyklá pracovat při svém výzkumu nebo psaní článku s obrovským množstvím dat. Avšak ani snaha o využití dat a dostupných technologií by neměla zastínit nutnost být při práci přesní. Abychom mohli plně využít hodnotu dat, musíme být schopni rozlišit mezi kvalitními a pochybnými informacemi a umět mezi vším balastem najít skutečné příběhy.

Jednou z důležitých lekcí, kterou jsem získala za dvě dekády používání dat k investigaci, je to, že data lžou – stejně jako lidé. A možná i víc. Data jsou – přece jen –  často tvořena a spravována lidmi.

Data mají být reprezentací reality určitého momentu v čase. Tak jak tedy poznáme, že soubor dat odpovídá skutečnosti?

Během datové investigace musíme udělat dva klíčové ověřovací úkoly: prvotní vyhodnocení se musí provést ihned po získání dat; a výsledky musí být ověřeny na konci investigace nebo ve fázi analýzy.

 

Počáteční ověření

Prvním pravidlem je o všem a o každém pochybovat. Neexistuje nic jako zcela spolehlivý zdroj, jestliže máme použít data v rámci precizní novinařiny.

Věřili byste naprosto nekriticky databázi publikované Světovou bankou? Většina novinářů, kterým jsem tuto otázku položila, odpověděla, že ano; považují Světovou banku za spolehlivý zdroj. Pojďme si tuto domněnku otestovat s dvěma soubory dat od Světové banky, abychom si na nich mohli ukázat, jak ověřit data, a jak si uvědomit, že i takzvané věrohodné zdroje mohou poskytnout chybná data. Celý tento proces je znázorněný dole.

….

Jsou data kompletní?

Prvním krokem, který doporučuji provést po získání dat, je prozkoumat extrémní hodnoty (nejvyšší a nejnižší) pro každou proměnnou v souboru dat a pak spočítat, kolik záznamů (řad) je uvedeno v rámci každé z možných hodnot.

Například Světová banka publikuje databázi s více než 10 000 nezávislými ohodnoceními svých více než 8 600 projektů vzniklých od roku 1964.

Pouhým srovnáním hodnot ve sloupci Náklady na půjčku od nejmenší po největší rychle zjistíme, jaké množství záznamů má v tomto sloupci nulu.

Když si vytvoříme kontingenční tabulku, abychom spočítali, kolik projektů má nulové náklady ve vztahu k celkovému množství záznamů, zjistíme, že více než polovina z nich (53 %) stojí nula peněz.

To znamená, že ten, kdo provede kalkulaci nebo analýzu za každou zemi, region nebo rok zahrnující náklady na projekty, by udělal chybu, kdyby nezaúčtoval všechny položky bez stanovených nákladů. Soubor dat v této podobě povede k nepřesnému závěru.

Banka publikuje ještě jednu databázi, která prý obsahuje jednotlivá data za každý projekt, který financuje (nejen vyhodnocuje) od roku 1947.

….

Už po otevření souboru api.csv v Excelu (verze ze 7. prosince 2014) je zřejmé, že data jsou nepřesná a obsahují mnoho proměnných, které jsou nakombinovany v jedné buňce (jako třeba jména sektorů nebo zemí). Co je ale pozoruhodnější, je fakt, že tento soubor neobsahuje všechny dotované projekty od roku 1947.

Databáze v podstatě pouze zahrnuje 6 352 z více než 15 000 projektů financovaných Světovou bankou od roku 1947. (Poznámka: Banka nakonec tuto chybu opravila. 12. ledna 2015 daný soubor obsahoval 16 215 záznamů.)

Po krátké chvíli strávené zkoumáním dat vidíme, že Světová banka neuvádí ve svých databázích náklady na všechny projekty, že zveřejňuje nejasná data a nezahrnuje všechny své projekty do alespoň jedné verze dat. Jakmile si toto uvědomíte, co byste teď očekávali od kvality údajů zveřejňovaných zdánlivě méně spolehlivými institucemi?

Další příklad nekonzistence databáze jsem zjistila během workshopu, který jsem dělala v Portoriku. Používali jsme při něm veřejné smlouvy z databáze od Comptroller’s Office. Asi 72 veřejných smluv za celý předchozí rok mělo negativní hodnoty (–10 000 000 USD) v polích nákladů.

Vynikajícím nástrojem k rychlému prozkoumání a vyhodnocení kvality databází je Open Refine. Na prvním snímku níže vidíte, jak se dá Open Refine použít k spuštění číselné „fazety“ v poli Množství (Cuantía). Číselná fazeta seskupí čísla do košů číselných rozsahů. To vám umožní si zvolit jakýkoli rozsah, který zahrnuje následný počet košů.

Druhý snímek dole ukazuje, že si můžete vygenerovat histogram s rozsahem hodnot obsažených v databázi. Záznamy pak mohou být vyfiltrovány dle hodnot posouváním šipek uvnitř grafu. To samé můžete udělat u kalendářních dat a textových hodnot.

Jsou tam duplikované záznamy?

Jednou z běžných chyb, kterou lidé dělají, když pracují s daty, je neschopnost rozpoznat duplikované záznamy.

Kdykoli zpracováváme disagregovaná data nebo informace o lidech, společnostech, událostech nebo transakcích, prvním krokem je najít unikátní identifikační proměnnou pro každou položku. V případě databáze vyhodnocení projektů Světové banky má každý projekt svůj unikátní kód neboli „projektové IČ“. Databáze jiných právnických osob můžou obsahovat unikátní identifikační číslo nebo – v případě veřejných smluv – číslo smlouvy.

Pokud počítáme, kolik záznamů je v databázi uvedeno pro každý projekt, uvidíme, že některé jsou duplikovány až třikrát. Bez eliminace duplikátů by proto byl jakýkoliv výpočet dle země, regionu nebo kalendářního data chybný.

V tomto případě jsou záznamy duplikovány, protože pro každý z nich bylo provedeno více typů hodnocení. Abychom mohli eliminovat duplikáty, musíme si vybrat, které ze  všech hodnocení je nejspolehlivější. (Zde to vypadá, že záznamy Performance Assessment Reports /PARs/ jsou nejspolehlivější, protože nabízí mnohem silnější hodnocení. Ty vyvíjí Nezávislá hodnotící skupina /Independent Evaluation Group – IEG/, která nezávisle a nahodile testuje 25 % projektů Světové banky každý rok. IEG vysílá své experty, aby vyhodnotili výsledky těchto projektů a vytváří nezávislá hodnocení.)

  1. Jsou data přesná?

Jedním z nejlepších způsobů, jak vyhodnotit důvěryhodnost souboru dat, je použít vzorek záznamů a porovnat jej s realitou.

Jestliže si seřadíme databázi Světové banky – která prý obsahovala všechny projekty vzniklé díky této instituci – v poli Náklady v sestupném pořadí, přijdeme na nejnákladnější projekt v Indii. Je v kolonce 33 a ukazuje celkovou částku 29 833 300 000 USD.

Když si číslo tohoto projektu vyhledáme na Googlu (P14447), dostaneme se k původní schvalovací dokumentaci jak na projekt, tak jeho vklad, což představuje náklady ve výši 29 833 milionů USD. Znamená to tedy, že číslo je přesné.

Doporučujeme takto postupovat vždy při hodnocení správnosti dat velkého vzorku záznamů.

Posouzení integrity dat

Od chvíle, kdy je vložíme do počítače, do té doby, než se k nim dostaneme, prochází data několika procesy: vstupním, ukládacím, přenosovým a registračním. Během kterékoli fáze je mohou lidé a informační systémy zmanipulovat.

Je tedy vcelku běžné, že se vztahy mezi tabulkami nebo poli ztrácejí nebo míchají, nebo že se některé proměnné neaktualizují. Proto je nezbytné provádět testy integrity.

Není například neobvyklé najít v databázi Světové banky projekty označené jako „aktivní“ mnoho let po jejich schválení, i když je pravděpodobné, že mnohé z nich již aktivní nejsou.

Pro kontrolu jsem vytvořila kontingenční tabulku a seskupila projekty dle roku schválení. Poté jsem filtrovala data tak, aby zobrazovala pouze ta, která byla ve sloupci „status“ označena jako „aktivní“. Nyní vidíme, že 17 projektů schválených v letech 1986, 1987 a 1989 je v seznamu v databázi stále aktivních. Téměř všechny jsou v Africe.

V takovém případě je nutné, aby Světová banka přímo objasnila, zda jsou tyto projekty po téměř třiceti letech stále aktivní.

Mohli bychom samozřejmě provést další testy, abychom vyhodnotili soudržnost dat Světové banky. Bylo by například dobré zjistit, zda mají všichni příjemci půjček (v databázi jsou označení jako Dlužníci neboli Borrowers) vztah k organizacím a/nebo přímo k vládám v daných zemích, které jsou uvedeny v poli Název země (Countryname). Nebo zda jsou zařazeny do správných oblastí (Regionname).

Dešifrování kódů a akronymů

Jedním z nejlepších způsobů, jak odradit novináře, je ukázat mu složité informace, které jsou plné zvláštních kódů a terminologie. Tento trik preferují byrokraté a organizace, které mají nízku míru transparentnosti. Očekávají, že nebudeme rozumět tomu, co nám dávají za informace. Kódy a zkratky lze ale také použít ke snížení počtu znaků a tak ke zvýšení kapacity úložiště. Téměř každý databázový systém – veřejný nebo soukromý – používá ke klasifikaci informací kódy nebo zkratky.

Spousta lidí, právnických osob a věcí na tomto světě má k sobě přiřazen jeden nebo více kódů. Lidé mají identifikační čísla, čísla sociálního pojištění, klientská čísla v bance, čísla daňových poplatníků, čísla v rámci věrnostních programů, čísla studentů, čísla zaměstnanců atd.

Například kovová židle je ve světě mezinárodního obchodu zařazena pod kódem 940179. Každá loď na světě má jedinečné číslo přidělené Mezinárodní námořní organizací (IMO). Mnoho věcí má své jedinečné číslo: nemovitosti, vozidla, letadla, firmy, počítače, chytré telefony, zbraně, tanky, pilulky, rozvody, manželství...

Je proto nezbytné naučit se dešifrovat kódy a pochopit, jak jsou používané, abychom porozuměli logice databází a – co je důležitější – vztahy mezi nimi.

Každý ze 17 milionů nákladních kontejnerů na světě má jedinečný identifikátor a můžeme jej sledovat, jakmile pochopíme, že první čtyři písmena identifikátoru se vztahují k totožnosti jeho majitele. V této databázi můžete dohledat vlastníka. Nyní se tyto čtyři písmena tajemného kódu stávají prostředkem k získání více informací.

Databáze vyhodnocených projektů Světové banky je plná kódů a akronymů a instituce překvapivě nezveřejňuje jednotný slovník, v kterém by byl význam všech těchto kódů popsaný. Některé zkratky jsou dokonce zastaralé a citováné pouze ve starých dokumentech.

Sloupec Nástroj závazku například klasifikuje všechny projekty v závislosti na 16 typech úvěrových nástrojů, jež Světová banka používá k financování projektů: APL, DPL, DRL, ERL, FIL, LIL, NA, PRC, PSL, RIL, SAD, SAL, SIL, SIM, SSL a TAL. Abychom tyto údaje pochopili, je nezbytné přijít na význam těchto zkratek. Jinak nebudete vědět, že ERL odpovídá nouzovým úvěrům poskytnutým zemím, které právě prošly ozbrojeným konfliktem nebo přírodní katastrofou.

Kódy SAD, SAL, SSL a PSL se vztahují k spornému programu strukturálních úprav, který Světová banka měla během 80. a 90. let. Poskytovala půjčky státům v hospodářské krizi výměnou za to, že tyto země prováděly změny ve své hospodářské politice s cílem snížit své fiskální deficity. (Program byl zpochybněn kvůli sociálnímu dopadu, který měl v několika zemích.)

Podle svého tvrzení se banka od konce 90. let zaměřuje spíše na úvěry na „rozvoj“ než na úvěry na „úpravy“. Podle databáze však mezi roky 2001 a 2006 bylo schváleno více než 150 úvěrů v rámci režimu strukturálních úprav.

Jsou to chyby v databázi nebo byl program Strukturálních úprav prodloužen do tohoto století?

Tento příklad ukazuje, že rozluštění kódů a akronymů nejen pomáhá při vyhodnocení kvality dat, ale zároveň v nich můžeme najít zajímavé souvislosti.

       6. Ověření dat po jejich analýze

Poslední ověřovací krok je zaměřen na vaše zjištění a analýzu. Je to možná nejdůležitější část ověřovacího procesu a zkouška ohněm, která ukáže, zda vaše téma nebo počáteční hypotéza obstála.

V roce 2012 jsem pracovala jako redaktorka multidisciplinárního týmu v La Nación v Kostarice. Rozhodli jsme se prozkoumat jednu z nejdůležitějších vládních dotací známou jako „Avancemos“. Dotace se vyplácela chudým studentům ve veřejných školách formou měsíčního stipendia a měla je odrazovat od chození za školu.

Po získání databáze všech studentů-příjemců jsme k nim přidali jména jejich rodičů. Poté jsme využili další databáze, které se vztahovaly k nemovitostem, vozidlům, platům a společnostem v zemi. To nám umožnilo vytvořit si přehled rodinných majetků. (Tyto informace jsou v Kostarice považovány za veřejné údaje, které jsou k dispozici Nejvyššímu volebnímu soudu.)

Naše hypotéza spočívala v tom, že někteří ze 167 000 studentů-příjemců v chudobě nežili, a proto by neměli dostávat měsíční dotaci.

Před analýzou jsme vyhodnotili a vyčistili všechny záznamy a ověřili vztahy mezi každou osobou a jejím majetkem.

Analýza mimo jiné odhalila, že otcové přibližně 75 studentů měli měsíční mzdu vyšší než 2 000 USD (minimální mzda pro nekvalifikovaného pracovníka v Kostarice je 500 USD), a dále, že více než 10 000 z nich vlastní drahé nemovitosti nebo vozidla.

Ale dokud jsme nenavštívili jejich domovy, nebyli bychom schopní prokázat, co nám samotná data nikdy nemohla říci: tyto děti žily ve skutečné chudobě se svými matkami, protože jejich otcové je opustili.

Nikdo se na jejich otce předtím neptal, když jim poskytoval dotaci. V důsledku toho stát mnoho let financoval z veřejných prostředků vzdělání dětí, které opustili jejich nezodpovědní otcové.

Tento příběh ilustruje tu nejlepší lekci, kterou jsem se během svých let vyšetřování údajů naučila: Dokonce ani nejlepší analýza dat nemůže nahradit žurnalistiku a investigaci přímo v terénu.

 
Kořeny, současnost a budoucnost politického factcheckingu

Bill Adair, zakladatel kultovního Pulitzerovou cenou oceněného projektu Politifact, sdílí ve videolekci zkušenosti a vize z oboru politického factcheckingu.

Technologické možnosti ověřování informací

Technoložka, spisovatelka a umělkyně An Xiao Mina ve videolekci představuje možnosti využití technologií při ověřování informací a seznamuje se svým výzkumem memů a občanských protestů.

Předpoklady a důsledky kecání - Video lekce Johna Petrocelliho

Existuje lhaní, a pak existuje kecání. Jedno z toho je pro dnešní dobu zvláště typické. Sociální psycholog John Petrocelli seznamuje se svým výzkumem kecání a vysvětluje, proč jsme ochotni uvěřit nesmyslům.