Datenjournalismus – die Geschichte hinter den Daten

Das Global Editors Network (GEN), eine plattformübergreifende Gemeinschaft von mehr als 1.000 Chefredakteuren und 1.300 media innovators organisiert seit 2012 jedes Jahr die Verleihung der Data Journalism Awards, mit denen weltweit herausragende Arbeiten auf dem Gebiet des Datenjournalismus ausgezeichnet werden. Thema der letzten Veranstaltung in Wien am 15. bis 17. Juni 2016 war „The Rise of Platform-Driven News“. Der Fall der Panama Papers gewann in der Kategorie „Investigation of the year“. Allein die Recherche beinhaltete 2,6 Terabyte Daten, 11,5 Millionen Dokumente, 214.000 Briefkastenfirmen und ein Team von 370 Journalisten aus über 100 Medienorganisationen aus 76 verschiedenen Staaten. Wie war es für den einzelnen Journalisten möglich, während dieser einjährigen Rechercheaktion diese Unmenge an Daten zu untersuchen? Mehr noch, wie war die reibungslose Zusammenarbeit zwischen 76 Nationen möglich, wobei diese vertraulichen Informationen stets unter Verschluss gehalten werden mussten? Durch open-source Technologien. Durch diese Art des technischen Fortschritts hat sich nun auch die journalistische Arbeit gewandelt und allmählich formt sich eine neue Art des Journalismus, bekannt als data-driven journalism.

Die Abhandlung „A new Style of News Reporting: Wikileaks and Data-driven journalism” von Stefan Baack, beschreibt die technologische Herausforderung, mit der sich konventionelle Medien derzeit konfrontiert sehen sehr treffend: Zeitungsgesellschaften kämpfen nach wie vor mit dem schnellen Wandel der Medien und anstelle mit den neuen technologischen Möglichkeiten zu experimentieren, um damit die Informationsqualität zu erhöhen, tendieren Journalisten vor allem dazu sie zur Beschleunigung der Nachrichtenproduktion zu verwenden. Ungeachtet dessen befindet sich data-driven journalism im Aufwind und seine Vorzüge werden bei großen wie kleinen Nachrichtenagenturen weltweit allmählich immer mehr geschätzt.

Diese Form des Journalismus unterscheidet sich im Übrigen grundlegend vom  data journalism, wie Lewis und Westlund 2014 in ihrem Artikel „Big Data and Journalism“ beschreiben: „Der Journalismus ist seit langem vertraut mit der Nutzung von Daten und Datenbanken zur Aufstellung von Nachrichten und als journalistische Nachweise. Das zeigt sich in Jahrzehnten der Computer assistierten Berichterstattung (CAR) und sogar in älteren Formen der Informationsvisualisierung“. Data-driven journalism hingegen entdeckt neue Möglichkeiten, wie berichtenswertes überhaupt gefunden werden kann. „Normalerweise haben Journalisten ein Thema und suchen anschließend nach belastbaren Daten hierzu. Data-driven journalism nimmt sich einer riesigen unsortierten Rohdatenmenge an und versucht dann aus ihr interessante Fakten und gar eine Geschichte zu extrahieren. Damit ist der Prozess beim data-driven journalism umgekehrt zu dem des herkömmlichen Journalismus“ (Fulda, Neubert 2013). Wikileaks, eine internationale gemeinnützige Organisation, die geheime gehaltene Informationen aus anonymen Quellen veröffentlicht, ist allgemein anerkannt, diese Form des Journalismus entwickelt und stark zu dessen Trend beigetragen zu haben. Die Plattform stellt eine gigantische Menge unsortierter Daten, die von Medien weiter analysiert werden können, um die Geschichte hinter diesen Daten zu finden. Wenngleich zur Suche von wichtigen Daten technische Kenntnisse nicht zwingend erforderlich sind, werden dennoch Programmierer benötigt, um eine Bedienoberfläche zu schaffen, die es Lesern und Redakteuren erlaubt, die Daten zu filtern und zu verarbeiten – anders ist das sinnvolle Durchsuchen bei diese Datenmengen nicht möglich.

Auch wenn Daten seit Anbeginn der Geschichte des Journalismus genutzt werden, dreht sich die Herausforderung heute um den Wandel der Medienwelt, in der Journalisten arbeiten, und der Zugänglichkeit des Informationsmaterials „gleichermaßen für Journalisten, die hieraus eine Geschichte machen wollen und für Leser, die sich diese näher anschauen möchten“ (Baack, 2013).

Big Data meets Journalism

„Big Data strategies are the next Big Thing for Media Companies“. Diese Aussage markiert die Einleitung des Berichtes „Big Data for Media, 2014“ vom Reuters Institute for the Study of Journalism. Martha Stone und das Reuters Institute leiteten eine zweijährige Studie zur Analyse dieses rasanten Trends und zur Identifizierung der Möglichkeiten, die sich mit Big Data für Medienorganisationen ergeben samt einer Aufzeichnung der bewährten Verfahrensweisen mit Big Data. Die Ergebnisse waren erstaunlich: Bereits innerhalb der zwei Jahre, in der die Bearbeitung der Studie lief „hat sich die Bedeutung von Big Data für die Medienlandschaft drastisch verändert“. Big Data bezeichnet einen weitläufigen Begriff, der sich auf Datensätze bezieht, die zu groß und/oder zu komplex sind, um sie mit Standard-Hardware oder -Sofware zu verarbeiten.

Dieser Trend betrifft beinahe alle Industriezweige – die Medienindustrie stellt hier keine Ausnahme dar. Einige Beispiele für die Praktiken, wie die Medien Big Data bereits nutzen sind Analysen von Nutzerstatistiken für das bessere Verständnis ihrer Zielgruppen, Werkzeuge zum Verstehen öffentlicher und privater Datenbanken für das Storytelling und Werkzeuge zur Verwaltung der sozialen Medien (Stone, 2014).

Eine beträchtliche Zahl von Authoren begann über die letzten Jahre, data-driven journalism als eine sehr bedeutsame Entwicklung anzusehen. Beispielsweise erklärte der Begründer des Internets, Tim Berners-Lee, im Data Journalism Handbook (2012): «Data-driven journalism ist die Zukunft. Journalisten müssen also Daten-versiert sein. Einst bekam man die Geschichten durch Gespräche mit Leuten in Bars und es wird wohl in vielen Fällen auch noch so sein. Nun wird es allerdings auch darum gehen, über Daten zu grübeln, sich selbst mit den nötigen Analysewerkzeugen auszustatten und herauszupicken, was wichtig ist. Nüchtern betrachtet hilft man Menschen dadurch, zu sehen, wo wirklich alles ineinander greift und was eigentlich im Land los ist“.

Tatsächlich tragen Journalisten eine signifikante Rolle, Daten verständlich und dadurch erst für normale Bürger zugänglich zu machen. Beispielsweise haben das Vereinigte Königreich und die Vereinigten Staaten von Amerika beide eine Open Government Initiative, welche jedoch erst durch die Arbeit einiger Journalisten wirklich zugänglich wurde, eben durch das Angebot interaktiver Oberflächen und Illustrationen, welche den Daten erst echten Informationswert verleihen (Baack, 2013).

Der Datenjournalist Jerry Vermanen bezeichnet data-driven journalism daher vermutlich zurecht als „einen neuen Grundstock an Fähigkeiten zur Suche, zum Verständnis und zur Visualisierung digitaler Quellen in einer Zeit, in der traditionelle journalistische Grundfähigkeiten nicht mehr ausreichen. Das ersetzt nicht den traditionellen Journalismus, sondern erweitert ihn. In einer Zeit, in der Quellen vor allem digital sind, kann und muss der Journalist diesen Quellen nahe sein“.

Wie allerdings schon weiter oben festgestellt wurde, angesichts des Wandels vom traditionellen zum Onlinemedium, mit dem Zeitungsgesellschaften kämpfen, und dass die Online-Version einiger Zeitungen lediglich die schmalere Printausgabe ist, muss die Integration des data-driven journalism in die traditionelle Presse insgesamt als noch sehr langsamer Prozess angesehen werden. Ungeachtet dessen haben sich einige Zeitungsgesellschaften wie The Guardian und The New York Times diesem Trend bereits sehr früh angenommen. Tatsächlich erarbeitete The New York Times bereits 2013 eine Akzent-Landkarte, basierend auf den Daten der Harvard Dialektumfrage – daraus wurde letztlich der meist gelesene Post des Jahres.

Damit verändert sich nachhaltig der Beruf des Journalisten, welcher sich nun beinahe zwingend mit Datenverarbeitung auseinandersetzen muss: „Diese Entwicklung ist gut darin sichtbar, dass führende Nachrichtenagenturen Teams aus Datenspezialisten zusammengestellt haben, der Entwicklung von Seminaren und Studiengängen zu datenfokusiertem Journalismus und den datenzentrierten Praktiken der Nachrichten-Startups, sogenannter „Explainer“, wie FiveThirtyEight und Vox“ (Lewis, Westlund, 2014).

Der Fall der Panama Papers

Die Journalistin des Internationalen Consortium of Investigative Journalists (ICIJ), Mar Cabra, veröffentlichte im Mai diesen Jahres den Artikel “How the ICIJ used Neo4j to unravel The Panama Papers”. Sie beteiligte sich 2013 an der Untersuchung des Offshore Leaks und später an den Untersuchungen der China und Swiss Leaks (2014) sowie schließlich der Panama Papers (2016). Wie bereits am Anfang dieses Artikels hervorgehoben, war der Erfolg der Panama Papers nur Dank der Verwendung von open-source Software möglich, durch welche diese Unmenge Daten verarbeitet werden konnte.

Um eine vertrauliche Kommunikation innerhalb des großen, multinationalen Teams von Journalisten zu ermöglichen, benutzten sie ein open-source basiertes soziales Netzwerk namens Oxwall. Dieses Tool erlaubte es den Journalisten, Links miteinander zu teilen, Beiträge zu veröffentlichen, Dateien auszutauschen und eine individuelle Kommunikation miteinander abzuhalten – verschlüsselt und isoliert.

Das Team verarbeitete 2,6 Terabyte Daten, darunter beispielsweise 4.804.618 eMails, 2.154.264 PDF-Dateien und 1.117.026 Bilder. Letztere mussten wiederum durch optical character recognition (OCR) weiterverarbeitet werden mit open-source Programmen wie Apache Tika und Tesseract. Das ist die Umwandlung von Bildern (handschriftliche oder gedruckte Texte) zu einer üblichen Textcodierung (ASCII, Unicode). Als Suchmaschine nutzten sie Project Blacklight, ebenfalls open-source, und zur Visualisierung des Inhalts der Graphendatenbanken, die aus den Dokumenten erstellt wurden, Linkurious.

Dieses Projekt gelang, obwohl die Mehrheit der Reportern, die an dieser Untersuchung teilnahmen, nicht technisch versiert war. Und das war hier wiederum nur möglich durch die Zusammenarbeit mit entsprechenden Fachleuten und der Verwendung von open-source Software, die sehr intuitiv, flexibel vor allen Dingen individuell anpassbar ist. Derlei Symbiosen sind künftig wohl nur bei Projekten von ähnlicher Größenordnung zu erwarten. Und so müssen nicht nur Journalisten in Zukunft diese verschiedenen Personen in sich vereinen, um mit dem technischen wie gesellschaftlichen Schritt zu halten.

Sara Shedden Casanovas ist Werkstudentin bei cdt consulting und beschäftigt sich seit einiger Zeit mit den Vorteilen der Sharing Economy. Sie ist Gründerin der Berliner Initiative Shyft, die Interessierte zusammenbringt, um über Zukunftsmodelle für unsere Gesellschaft zu diskutieren. Außerdem ist Sie als Jugendbotschafterin bei ONE aktiv. / Bild: kantver, Fotolia

Der Beitrag hat Ihnen gefallen und Sie möchten am Thema dranbleiben? Jetzt den Digitalisierung jetzt! Newsletter abonnieren oder die Facebook-Seite liken!

 

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s