Der leichte Zugang zu Informationen spielt in unserer Wissensgesellschaft, in der heute Suchmaschinen, Webkataloge und Informationsportale zur Informationsrecherche herangezogen werden, sowohl privat als auch kommerziell eine bedeutende Rolle. In Anbetracht der stetig wachsenden Zahl an verfügbaren Dokumenten im Internet, wird es für die Nutzer jedoch immer schwieriger, die tatsächlich gesuchten Informationen ohne großen Aufwand zu finden. Darum steigt der Bedarf nach intelligenten Technologien, die relevante Informationen aus dem Rohstoff „Text“ schnell und vollständig erschließbar machen und einen deutlichen Mehrwert gegenüber der herkömmlichen Volltext-Suche schaffen.
neofonie will im Forschungsprojekt „:engine“ die neuen Verfahren und Algorithmen der aktuellen Forschung aus den Bereichen „Information-Retrieval“, „Text-Mining“ und „Informations-Extraktion“ auf ihren Nutzen untersuchen, anpassen und für die Suche optimieren. Da eine maschinell gestützte Informationsbeschaffung heute ohne Meta-Daten und Methoden zur automatischen Strukturierung nicht mehr effizient durchführbar ist, sollen vor allem Technologien zur Erzeugung und Nutzung semantischer Meta-Information entwickelt werden, die in Kombination mit anderen Verfahren eine hoch skalierbare und zukunftssichere Informations-Infrastruktur erzeugen. Insbesondere soll ein Verfahren entwickelt werden, das aus einem Dokumentenbestand automatisch sogenannte Topics extrahiert. Topics können vereinfacht als Wortwolke verstanden werden. Beispielsweise könnte ein Topic über „Autofahren“ entstehen, das durch Worte wie Auto, Fahrzeug, Autobahn, Straße, Lenkrad etc. beschrieben würde. Ein Dokument des Bestandes kann durch mehrere Topics repräsentiert werden, die einer verdichteten semantischen Beschreibung des Dokumentes entsprechen. Diese kann vielfältig genutzt werden, z.B. zur Verbesserung des Relevanz-Rankings, zum Clustering des Dokumentenbestandes, zum Auto-Tagging oder zur Disambiguierung von Suchbegriffen. Die im Projekt entwickelten Technologien sollen in erster Linie bei Spezialsuchen und Informationsportalen zum Einsatz kommen.