Die Big-Data-Versteherin
Von Xenia El Mourabit
„Ich hab immer gedacht, wenn ich nicht in die Forschung komme, werde ich Journalistin“, sagt Katharina Morik. Was vielleicht geringschätzig klingen mag, ist keineswegs so gemeint. Die Professorin für Künstliche Intelligenz an der Technischen Universität Dortmund sieht viele Parallelen zwischen Journalisten und Wissenschaftlern. Beide recherchieren, kommunizieren, stellen Fragen und vor allem: Um etwas ganz Neues herauszufinden oder zu schaffen, müssen beide Berufsgruppen die Blickrichtung wechseln und die Dinge aus einer anderen Perspektive betrachten. Doch trotz aller Begeisterung überlässt Morik den Journalismus anderen, forscht stattdessen zu maschinellem Lernen und beschäftigt sich mit Algorithmen für Data-Mining.
Beim Data-Mining wird mit Hilfe von Algorithmen Wissen aus Daten gewonnen. Katharina Morik bezeichnet diese Datenmengen jeweils als eigene Welt. Da gebe es eine Autowelt, eine Welt der Krebspatienten oder die Welt der Patienten mit Essstörungen. Je nachdem, um welches Thema ihre Arbeit sich gerade drehe.
Eine Datenwelt, mit der Morik sich beschäftigt, umfasst beispielsweise Gen-Informationen von ungefähr 160 Kindern mit einem Neuroblastom, einer Tumorerkrankung, die bei Säuglingen und Kleinkindern auftritt. Gemeinsam mit dem Klinikum Essen versucht die Informatikerin herauszufinden, welche der genetischen Informationen ursächlich für die Krankheit sind oder den Krankheitsverlauf beeinflussen. Ziel ist es, Vorhersagen treffen zu können, zum Beispiel darüber, für welches Kind eine Chemotherapie sinnvoll ist. Zur Beantwortung solch komplexer Fragestellungen wären laut Morik eigentlich Fallzahlen in der Größenordnung von etwa 200.000 kranken Kindern nötig. Sie versucht nun mit Hilfe von Algorithmen einen Weg zu finden, trotz kleiner Fallzahlen jene Faktoren zu identifizieren, die beeinflussen, ob ein Kind zum Beispiel eine Chemotherapie braucht. Bis dahin sei es aber noch ein langer Forschungsweg, deutet Morik an.
Niemand weiß, wie viele Daten es in diesem Augenblick bereits gibt
Die Datenwelten von heute seien zum Teil so groß, sagt Morik, dass ihr Transport – etwa per Satellit – sehr aufwendig sein könne. Ein Beispiel für diese Art von Big Data: Beim Ice Cube Project, einem teilchenphysikalischen Experiment am Südpol, werden pro Jahr 365 Terabyte an Daten erhoben. Zur Auswertung müssen diese von der Antarktis zur Universität von Wisconsin kommen. Per Satellit würde das 10 Jahre dauern, so die Informatikerin. Die Daten auf einer Festplatte zu verschiffen dauere knapp einen Monat und sei somit deutlich schneller.
Die Menge der auf dem Planeten vorhandenen Daten nehme sehr schnell zu, sagt Informatikerin Morik. Welche Daten etwa das World Wide Web umfasst, sei zu großen Teilen unbekannt, da sich dies enorm schnell verändere. Beispielsweise wisse niemand, wie viele Webseiten es gerade gebe. Es seien komplizierte Rechnungen nötig, um deren Anzahl auch nur schätzen zu können.
Als konkretes Beispiel für die Nutzung von großen Datenmengen nennt Morik die sogenannte multimodale Routenplanung, bei der Strecken mit verschiedenen kombinierten Verkehrsmitteln geplant werden können. Das bedeutet, es müssen Fuß- und Autowege, Zug- Bus- und Bahnstrecken sowie diverse Fahrpläne und spontane Änderungen wie Staus, Verspätungen oder Ausfälle miteinander abgeglichen und verrechnet werden. Noch vor eineinhalb Jahren hätte sie eine solche Anwendung wegen der großen Datenmengen kaum für möglich gehalten, sagt Morik. Heute sieht sie es auf ihrem Smartphone und ist begeistert.
Ein Diskurs auch über die Gefahren von Big Data
Doch Big Data könne eben nicht nur Positives bewirken, wie bei der Verkehrsplanung, beim Schonen von Ressourcen oder dem Finden der richtigen Krebstherapie, sagt Morik. Mit Hilfe der Datenberge könne man auch Schaden anrichten, etwa die politische Meinung der Bevölkerung beeinflussen. Über beide Seiten von Big Data müsse deshalb endlich ein öffentlicher Diskurs entstehen, damit Menschen, die die Prinzipien des Data-Mining nicht kennen, nicht von den neuen Prozessen und ihren gesellschaftlichen Auswirkungen überrollt würden. Es sei die Verantwortung von Politik und Bildungssystem, einen öffentlichen Diskurs zu schaffen. Auch Journalisten in ihrer Rechercheur- und Kommunikatorrolle sieht Morik dabei gegenüber der Gesellschaft in der Pflicht. Deshalb brauche es Datenjournalisten.
„Datenjournalisten müssen Big Data begreifen!“
Datenjournalismus bedeutet für Morik nicht, dass Journalisten selbst Zahlen, Statistiken oder Studien auswerten und am Ende daraus ein visuell aufwendiges Produkt entsteht. Der Schwerpunkt ist für sie ein anderer: „Datenjournalisten müssen Big Data begreifen!“ Unter diesen Voraussetzungen unterscheiden sich die Aufgaben, die Morik Datenjournalisten zuschreibt, kaum von dem, was allgemein unter gutem Journalismus verstanden wird: ein wichtiges Thema in die Öffentlichkeit tragen und dadurch öffentliche Diskussionen anregen, recherchieren, zusammenstellen, tagesaktuell berichten, Politikern Fragen stellen, Gesetzesvorhaben durchleuchten, das Vorgehen von Firmen kritisch hinterfragen – kurz gesagt: der Aufgabe als vierte Gewalt im Staat nachkommen. Das selbständige Erforschen von Daten ist in diesem Bild des Datenjournalismus eher Aufgabe der Wissenschaftler – also von Katharina Morik und ihren Kollegen.
Artikel aktualisiert am 17.12.2015
Video-Mitschnitt der Auftaktdiskussion des Daten-Labors 2015 mit Holger Wormer, Stefan Hornborstel, Katharina Morik, Ralf Spiller und Volker Stollorz