Kognitives Sehen in der Kaffeeküche  

erstellt am
29. 05. 07

Am Modell von immer wiederkehrenden Abläufen in einer Kaffeeküche untersuchen WissenschafterInnen der Technischen Universität (TU) Wien das menschliche Sehsystem.
Wien (tu) - "Die Kaffeeküche ist ein intelligenter Raum, der mit Kameras ausgestattet ist. Sie soll beispielsweise automatisch erkennen, ob in der Küche gerade eine Besprechung stattfindet oder der Kaffee bald zur Neige geht. Menschen auf diese Dinge aufmerksam zu machen und in ihren Tätigkeiten zu unterstützen, sind die zentralen Aufgaben eines kognitiven, persönlichen Assistenten. Jeder kennt es von den berühmten Fahrerassistenzsystemen, die von Einparkhilfen bis zur Gefahrenerkennung reichen", berichtet Markus Vincze vom Institut für Automatisierungs- und Regelungstechnik an der Fakultät für Elektrotechnik der TU Wien. Ein anderes denkbares Szenario wäre die Bedienungsanleitung der Kaffeemaschine visuell darzustellen. Vincze: "Jemand, der das Gerät noch nie bedient hat, sieht auf einem Display oder in die Brille eingeblendet eine Person, die gerade den richtigen Knopf drückt."

Zusammen mit seinem Kollegen Adrian Ion vom Institut für Rechnergestützte Automation (Professor Walter Kropatsch) und sieben weiteren Partnern aus Österreich und Deutschland arbeitet Vincze seit rund drei Jahren an einem Projekt mit dem Titel "Kognitive Bildverarbeitung" (http://fsp.acin.tuwien.ac.at/). Der Versuch besteht darin das künstliche Sehen oder "Computersehen" dem menschlichen Sehsystem näher zu bringen. Untersuchungen zeigten, dass für den Menschen speziell die Erwartungshaltung enorm wichtig ist. Zum Beispiel werden Gegenstände, die nicht in eine Umgebung passen, sehr viel schneller erkannt als in dieser Umgebung übliche Objekte.

Adrian Ion fand dazu bei einer Studie heraus, welche Schlüsselszenen seine Probanden im Zuge einer Handlung (z.B. beim Kaffee kochen oder Verdecken des Balls beim "Schalenspiel") als relevant erachteten. Die daran teilnehmenden Personen waren aufgefordert die Aktionen schriftlich wiederzugeben. Von den Beschreibungen wollen die beiden Wissenschafter auf die "technische" Bildverarbeitung rückschließen. Vincze: "Wir sprechen hier von Abstraktionsniveaus. Aus einer Menge an Bild- oder Pixeldaten muss auf verschiedene Ebenen abstrahiert und abgeleitet sowie die für die Reaktion relevanten Objekte (z.B. die Hand und der Knopf) müssen herausgefiltert werden. Was für das menschliche Sehsystem als Information relevant ist, ist es auch für das technische System. Welche Dinge muss man sehen, erkennen, verstehen und sich merken, um in weiterer Folge richtige Handlungen daraus ableiten zu können." Menschen bringen sehr viel aus Ihrer Erfahrung mit. Sie sehen etwas und verbinden das ganze sofort mit einem abstrakten Konzept. Ion: "Für uns ist es total einfach einen Knopf auf der Kaffeemaschine zu drücken. Ein Rechner kann im besten Fall Koordinaten der einzelnen Bewegungen messen." Für die technische Beschreibung bedarf es aber besonders robuster Koordinaten. Damit ist gemeint, dass sie in möglichst vielen unterschiedlichen Situationen funktionieren sollten. Um beim Beispiel der Kaffeemaschine zu bleiben, heißt dies, dass kein Mensch die Maschine ganz gleich bedient. "Dieses Loch zwischen einer abstrakten sprachlichen Beschreibung und dem was man im Bild verarbeitet, möchten wir mit unserer Forschung etwas verkleinern", verdeutlicht Adrian Ion. Der trans-disziplinäre Ansatz wird vom FWF (Wissenschaftsfond) im Rahmen eines nationalen Forschunsgnetzwerkes gesponsert.
 
zurück