TU intern · Nr. 7–9/2016Seite 9 forschung Ein einziger Tweet mag für sich genommen noch nicht viel sagen. Kombiniert mit an- deren Informationen können diese 140 Zeichen jedoch von unschätzbaremWert sein. Je sinnvol- ler die Verknüpfung, Kombination und Analyse von Daten erfolgt, je mehr Datenquellen zur Verfügung stehen, desto präziser, zuverlässiger und wertvoller ist das Ergebnis. Industrieunter- nehmen, die Informationen über Kunden, Zulie- ferer, Rohstoffquellen,Transportwege oder auch den Wettbewerb schneller und systematischer nutzen als andere, werden einen klaren Wettbe- werbsvorteil haben. Das ist das Geheimnis von „Big Data“: Riesige Datenmengen werden in Be- ziehung zueinander gesetzt, umWissen zu erzeu- gen – und um am Ende damit Geld zu verdienen. Das Ganze hat nur einen Haken: „Je größer oder komplexer der Datenberg, je schneller die Daten erzeugt werden, desto länger braucht ein Compu- ter, um diesen zu analysieren“, erklärt Professor Volker Markl, Leiter des Fachgebiets für Daten- banksysteme und Informationsmanagement der TU Berlin, Direktor am Deutschen Forschungs- zentrum für Künstliche Intelligenz (DFKI) und Leiter des Berlin-Big-Data-Centers. In den meis- ten Anwendungsfällen von Big Data wollen Un- ternehmen die Ergebnisse aber nicht erst nach ein paar Wochen erhalten. Mit „Apache Flink“ hat einTeam von Studierenden undWissenschaftlern unter seiner Leitung in den vergangenen acht Jahren eine Software-Lösung gebaut, die genau dieses Problem löst – und mittlerweile weltweit zurAnalyse von Big Data eingesetzt wird. „,Apache Flink‘ arbeitet nach dem System: Tei- le und herrsche“, erklärt Markl. Das bedeutet: Der Datensatz wird auf beliebig viele Compu- ter in einem System aufgeteilt; jeder einzelne Computer muss dann nur noch einen Teil der Gesamtmenge analysieren. „Apache Flink“ zer- teilt die Daten allerdings nicht nur in einzelne Päckchen, sondern koordiniert auch die weitere Arbeit. „Wenn ich eine Fragestellung anhand von Big Data beantwortet haben will, dann muss sichergestellt sein, dass ,Apache Flink‘ zu jeder Zeit den Überblick hat, auf welchem Rechner welcher Teil des Datensatzes zu finden ist und wie daraus das Endergebnis zusammengesetzt wird“, veranschaulicht Markl die Komplexität der Software. Stolz wie ein Vater Als der Informatiker im Jahr 2008 mit seinen Doktoranden Stephan Ewen und Fabian Hüske die ersten Schritte in Richtung der parallelen Verarbeitung großer Datenströme unternahm, war Big Data noch Zukunftsmusik, und jede Be- mühung in diese Richtung galt als Grundlagen- forschung. Das Team um Markl entschloss sich 2014, den Forschungsprototyp bei der Apache Software Foundation (ASF) einzureichen, einer Stiftung zur Förderung von Open-Source-Soft- ware, und ihn so einer weltweiten Community zu präsentieren. Je mehr Interessenten über die Stif- tung mit dem Berliner Team in Kontakt kamen, desto deutlicher kristallisierten sich Alleinstel- lungsmerkmale heraus. Nutzer, die sich für Flink entscheiden, schätzen vor allem die Möglichkeit, auch Daten mit hoher Datenrate analysieren zu können – im Fachjargon „Streaming“ genannt. Die dafür in Flink vorhandene Technologie der parallelen Verarbeitung von Datenströmen er- möglicht eine schnelle Datenanalyse von ständig neuen Daten beinahe in Echtzeit. „Ein Software-Projekt, das eine Vision war, die man dann aber mit seinen Kollegen umge- setzt hat, von der Grundlagenforschung in die Open-Source-Community und an reale Nutzer gibt, ist, als würde man dem eigenen Kind beim Erwachsenwerden zuschauen“, gesteht Volker Markl. Einerseits ist der Informatiker stolz wie ein Vater, andererseits musste er auch Kontrolle abgeben. „In den letzten Jahren wurde das Pro- jekt so groß! In der Community sind mittlerweile weltweit über zweihundert Programmierer aktiv, die an ,Apache Flink‘ weiterarbeiten“, so Markl. In „data Artisans“, einer Ausgründung aus sei- ner Forschungsgruppe, haben Dr. KostasTzoumas und Dr. Stephan Ewen das System für den Ein- satz in realen Anwendungen fit gemacht – und dafür über sechs Millionen Euro Risikokapital- finanzierung erhalten. Inzwischen ist „Flink“ durch Beiträge der internationalen Open-Source- Community zu einem robusten System gewor- den, das weltweit kommerziell in geschäftskri- tischen Anwendungen genutzt wird. Bei Apache ist „Flink“ unlängst von der Inkubationsphase zu einem „Top Level“-Projekt befördert worden – eine Art Ritterschlag in IT-Kreisen. 2015 fand in Berlin der erste „Apache-Flink“-Kongress statt. Die Konferenz wurde von 250 Teilnehmern aus der ganzenWelt besucht. Markl freut sich schon darauf, beim zweiten Kongress vom 12. bis 14. September 2016 in Berlin zu hören, wie „Flink“ von Firmen in Handel, Logistik, Finanzen, In- dustrie 4.0 eingesetzt wird, und welche neuen Features Mitglieder der „Flink“-Community in das System einbauen. Michael Metzger Prof. Seif Haridi Königlich Technische Hoch- schule Stockholm/ Swedish Institute of Computer Science Aktuell ist „Apache Flink“ die beste Datenanalyse-Umge- bung für Echtzeit-Analysen. Es ist das Flaggschiff europä- ischer Forschung im Bereich von Analyse-Software, die in breiten Anwendungsfeldern eingesetzt wird. Dr. Kostas Tzoumas data Artisans Das Start-up data Artisans wurde von Personen, die von Anfang an am Projekt „Apache Flink“ mitgearbeitet ha- ben, aus der TU Berlin heraus gegründet. Ich denke, Flink ist ein fantastisches Beispiel einer erfolgreichen Technolo- gie-Entwicklung ausgehend von akademischer Grundla- genforschung über eine breite Open Source Community bis hin zu einer marktreifen Anwendung. Prof. Dr. Erhard Rahm Universität Leipzig und BMBF Kompetenzzentrum ScaDS Im Big-Data-Zentrum ScaDS Dresden/Leipzig wird „Apa- che Flink“ zur Realisierung eines Gradoop genannten Systems zur schnellen Analyse sehr großer Mengen ver- netzter Daten eingesetzt. Dank Flink konnte das System in kurzer Zeit entwickelt werden – die Berechnungen werden zudem automatisch auf viele Rechner und Pro- zessoren verteilt. Apache Flink Berliner Computerprogramm erobert die Welt Big Data wird von immer mehr Unternehmen als Geldquelle angezapft. Doch welcher Computer ist schnell genug, um diese riesigen Datenmengen zu analysieren? Die Software „Apache Flink“ aus der TU Berlin hat eine schlaue Lösung gefunden Viele Stärken bei der Datenauswertung „Apache Flink“ ist eine Open-Source-Soft- ware, die die verteilte Analyse von Big Data ermöglicht. Bei diesem Analyse-Prozess werden große Datenmengen auf mehreren Computern in einem Netzwerk verteilt, de- ren addierte Rechenkapazität schnellere Datenverarbeitung ermöglicht. Apache Flink übernimmt dabei nicht nur dieVerteilung der Daten, sondern auch die Koordination der ein- zelnen Rechenschritte. Eine große Stärke des Programmes liegt in der Parallelisierung, also im Unterteilen der Datenmengen auf mehre- reVerarbeitungsprozesse. Eine weitere Stärke ist das „Pipelining“, eine Technologie, die Datenstreaming ermöglicht. Auf diese Weise beschränkt sich die Analyse nicht auf abge- schlossene Datenpakete, sondern es können stets neue Daten in den Prozess eingespeist werden – eineVoraussetzung etwa für Daten- auswertung in Echtzeit. Michael Metzger Weitere Infos unter: http://flink.apache.org www.dima.tu-berlin.de http://bbdc.berlin Aus der Praxis Die „Flink“-Community ist mittlerweile zu großer Stärke angewachsen. Sie traf sich unter anderem zum „Flink“-Forward-Kongress im Oktober 2015 in der Berliner Kulturbrauerei © © TU Berlin/PR/Ulrich Dahl © © privat © © privat © © privat © © privat Volker Markl hat die Software „Apache Flink“ entschei- dend mitentwickelt © © Fotolia/maciek905