14
Unser digitalisiertes Leben
2015/2016
»Neue Werkzeuge
müssen her«
Volker Markl über Daten als das neue Öl im
21. Jahrhundert, Apache Flink und die Umwandlung
stummer Gedanken in Sprache
Interview Sybille Nitsche
H
err Professor Markl, Sie leiten das Berlin-Big-Data-
Center. Es ist eines von zwei deutschen Kompe-
tenzzentren, die das Bundesforschungsministerium
auf dem Gebiet Big Data finanziert. Warum in Berlin?
Volker Markl:
Der Grund ist, dass in Berlin an verschiedenen
wissenschaftlichen Institutionen hervorragende Forschungs-
arbeit auf dem Gebiet der Datenverarbeitung geleistet wird.
Das ist eine der Stärken von Berlin.
Aber Daten sind schon immer angefallen, und weder
Datenbanken noch dass man daraus Wissen generiert,
ist neu. Warum braucht man denn gleich zwei nationale
Kompetenzzentren, um Daten auszuwerten?
Nun, die Daten, die heutzutage anfallen, sind mit denen von
vor 30, 40 Jahren nicht mehr
vergleichbar. Wir Informati-
ker sprechen von den drei
großen Vs, die die Daten
heute charakterisieren. Das
sind „Volume“, „Velocity“
und „Variability“. Also die
Datenmengen sind riesig, sie
fallen mit einer ungeheuren
Schnelligkeit an, müssen in Echtzeit ausgewertet werden
und sie sind extrem heterogen. In einem Auto sind 200 Sen-
soren eingebaut; pro Stunde werden 1,3 Gigabyte Sensorda-
ten aus dem Fahrzeug gesendet und ein großer deutscher
Automobilkonzern erhält pro Tag 30 Gigabyte Daten aus
Autos. Das ist eine regelrechte Datenexplosion. Gleichzeitig
werden die Datenanalysen aus den Bereichen der Statistik
und des maschinellen Lernens immer komplexer. Der Data
Scientist, also der Experte, muss über extrem umfangreiche
Kenntnisse verfügen, um diese Daten zu beherrschen. Ich
rede gern von der eierlegenden Wollmilchsau. Von denen
gibt es nicht viele.
Dann müssen sie ausgebildet werden – eine genuine
Aufgabe der Universitäten.
Selbst wenn wir das tun, denke ich, wird es nicht so viele
geben, denen man diese extrem heterogenen Kenntnisse in
Mathematik, Statistik, Informatik und in den Anwendungs-
gebieten wie zum Beispiel der Physik oder Medizin wird
vermitteln können. Wir müssen einen anderen Weg gehen.
Welchen?
Wir müssen dem Data Scientist Werkzeuge an die Hand
geben, die ihn davon befreien, in die tiefsten Ebenen
der Programmierung vorzudringen, wo er all die genann-
ten Kenntnisse benötigt. Und an der Entwicklung solcher
Werkzeuge, die die Datenanalyse und das skalierbare, also
schnelle Datenmanagement erheblich vereinfachen, forschen
wir im Berlin Big Data Center. Das ist unser Ziel.
Wie weit sind Sie bereits vorangeschritten?
Wir haben das sogenannte Apache-Flink-System entwickelt.
Das ist eine Technologie, die für jedermann frei und kosten-
los verfügbar ist. Apache Flink findet inzwischen weltweit
Beachtung. Es gibt eine Community von über 150 Personen,
die das System nutzt und damit hilft, es weiterzuentwickeln.
Interessant ist auch, zu wissen, dass es derzeit weltweit nur
wenige Konkurrenten gibt bei der Entwicklung solcher Werk-
zeuge. Insofern würde ich behaupten, dass wir hier in Berlin
in der obersten Liga bei Big Data mitspielen.
Wie lange hat denn die Entwicklung von Apache Flink
gedauert – zwei, drei Jahre?
» Big Data ein Milliarden-
Markt!? – Im Moment noch
reines Wunschdenken. «