Immer mehr UserInnen fühlen sich vom unstrukturierten Überangebot
im Internet in Sachen Produktinformationen und Serviceleistungen überfordert.
Wien (tu) - Am Beispiel des Kaufs einer Digitalkamera mit vorangehender Suche im WWW beschäftigen
sich InformatikerInnen der Technischen Universität (TU) Wien mit dem automatisierten Strukturieren, Extrahieren
und Verbinden von verschiedenen Webdaten. Die Formatierung der Internetseiten spielt dabei eine besondere Rolle.
"Wie kann man Webdaten, die im Allgemeinen sehr unstrukturiert sind und im Layout auf den menschlichen Betrachter
optimiert sind, so verarbeiten, dass daraus automatisch ein ,wissensbasiertes System' entsteht", erläutert
Robert Baumgartner, Lektor am Institut für Informationssysteme der TU Wien. Gelänge dies, würde
der Kunde am Beispiel der Digitalkameras auf einen Knopfdruck sämtliche über ein Modell verfügbare
Daten aus dem Internet prompt auf einer Seite geliefert bekommen. Ähnliches kennt man bereits von diversen
Flugsuchmaschinen, die Billigflüge miteinander vergleichen.
Im Gegensatz zu den meisten anderen Forschungsprojekten basiert der Ansatz von Robert Baumgartner und seinem Team
auf Formatierungsinformationen. "Wir analysieren die visuelle Oberfläche von Webpages, die auf dem Browser
dargestellt wird und transformieren beispielsweise die in solchen Produktbeschreibungen üblicherweise enthaltenen
Tabellen, Aufzählungen und Texte in strukturierte Beschreibungen. Es geht um die Anzahl der Leerzeichen, der
Spalten und Tabellen", verdeutlicht Projektassistent Bernhard Krüpl. Ein Schwerpunkt liegt hierbei vor
allem auf den häufig verwendeten pdf-Dokumenten. Baumgartner: "Ziel ist es die inhaltliche Struktur aus
der grafischen Struktur zu erkennen. Eine Dokumentontologie (Netz von Hierarchien, in dem Informationen über
logische Beziehungen miteinander verknüpft sind) kann aufgebaut werden. Das Dokument erhält im ,reverse
engineering process' eine semantische Darstellung, die im Sinne der Entwicklung des ,Semantic Web' auch maschinenlesbar
ist."
Metaflugmasken und wissensbasierte Kundenberatungssysteme zählen zu den möglichen Produkten dieses Forschungsgebietes
und würden für InternetuserInnen eine große Erleichterung darstellen. Bisherige bereits bestehende
Suchmaschinen sind "hart" programmiert und können sich dem rasch ändernden Umfeld nur schwer
anpassen. Mehrere Forschungsprojekte (AllRight, Nextwrap, Metamorph), die derzeit zu diesem Thema an der TU Wien
laufen, werden u.a. von der Förderschiene des BMVIT "FIT-IT Semantic Systems and Services" unterstützt.
Kooperationen erfolgten mit der Universität Klagenfurt, der Universität Graz, sowie den beiden Firmen
Configworks und Lixto Software. |