Wie sich die "Sintflut der Daten" beherrschen lässt   

erstellt am
16. 09. 10

EU fördert Projekt von Informatikern der Universität Jena zur Lösung hochdimensionaler Probleme
Jena (idw) - Mit jedem Click im World Wide Web und jedem Schnappschuss mit einer Digitalkamera wächst die Menge der Daten, die gespeichert und ausgewertet werden kann. Das Wachstum ist so groß, dass Experten heute bereits von der "Sintflut der Daten" sprechen. "Dabei geht es nicht allein darum, dass immer mehr Daten ausgewertet werden müssen", sagt Prof. Dr. Joachim Giesen von der Friedrich-Schiller-Universität Jena. "Die gespeicherten Daten werden auch immer komplexer", weiß der Inhaber des Lehrstuhls für Theoretische Informatik II. So nehme zum Beispiel nicht nur die Anzahl der gespeicherten Digitalfotos zu, sondern auch deren Auflösung. Ein mögliches Maß für die Komplexität von Daten ist ihre Dimensionalität. Die Dimension eines Digitalfotos ist z. B. gerade die Anzahl seiner Pixel. Will man solche Daten auswerten, steht man früher oder später vor einem Problem: "Der Rechenaufwand wächst meistens viel schneller in der Anzahl der Dimensionen als in der Anzahl der Datenpunkte", sagt Joachim Giesen. "Selbst die schnellsten Rechner stoßen bei hochdimensionalen Problemen unweigerlich an ihre Grenzen."

Die Kunst, dem sogenannten "Fluch der Dimensionen" zu entkommen, bestehe darin, niedrigdimensionale Strukturen in hochdimensionalen Daten zu finden, die für die Lösung des jeweiligen Problems entscheidend sind, so der Jenaer Geometrie-Experte. Genau dies ist das Ziel des neuen Forschungsprojekts "Computational Geometric Learning". Prof. Giesen koordiniert den internationalen Forschungsverbund von zehn Gruppen aus sechs europäischen Ländern. Die EU fördert das Vorhaben in den kommenden drei Jahren mit insgesamt 2,4 Millionen Euro, etwa 380.000 davon fließen nach Jena.

In vielen Anwendungen ist die Anzahl der relevanten Dimensionen sehr klein im Vergleich zur Dimensionalität der Daten. Ausgenutzt wird das heute schon z. B. in der Komprimierung von Audio- oder Bilddaten, die im reduzierten MP3- oder JPEG-Format gespeichert und übertragen werden. Die Jenaer Informatiker und ihre Projektpartner werden versuchen, niedrigdimensionale Strukturen auch in anderen hochdimensionalen Daten ausfindig zu machen. "Es geht darum, universelle Algorithmen zu entwickeln, mit denen sich auch sehr komplexe Daten in angemessener Zeit analysieren lassen", unterstreicht Prof. Giesen. Während sein Jenaer Team dabei vor allem an den Grundlagen arbeitet, wollen andere Projektpartner die neu entwickelten Algorithmen anwenden und auf ihre Praxistauglichkeit testen, etwa in der Analyse der Konfigurationsräume von Robotern, der Analyse möglicher dreidimensionaler Strukturen von Eiweiß-Molekülen oder der Verteilung der Galaxien in unserem Universum.

Im Laufe des Projekts wollen die Informatiker u. a. die Open Source Softwarebibliothek CGAL (Computational Geometry Algorithms Library) um Algorithmen zur Lösung hochdimensionaler Fragestellungen erweitern. "Über diese Bibliothek ist die schnelle Verbreitung der Projektergebnisse zu anderen Wissenschaftlern und Anwendern möglich", sagt Prof. Giesen.
     
zurück