Suchen

Dienstag, 28. Mai 2024

Online-Suche 2.0

KI macht komplexe Seiteninhalte zugänglich
Redaktion: DFKI
PRESSEMITTEILUNG
Kaiserslautern/gc. Mittels RAG soll ein Sprachmodell so optimiert werden, dass es auf Informationen außerhalb der eigenen Trainingsdaten referieren, und diese in eine Beantwortung mit einfließen lassen kann. Im Fall des Projekts sollen dafür die entsprechenden Webseiten als Wissensquellen fungieren.

Wenn das Projekt den Vorstellungen entsprechend gelingt, sind Antworten auf Fragen wie „Aus welchen Ländern kommen die MA, die Computerlinguistik studiert haben und an Speech Recognition arbeiten?“ nur noch eine Fingerübung für die DFKI-Technologie. Sie eröffnet also unter anderem die Möglichkeiten auf Basis der website-spezifischen RAGs Dinge zu erfahren, die ansonsten kaum ersichtlich oder kombinierbar sind.
Ein weiterer Vorteil: „Die Websites werden so automatisch barrierefrei, denn sie können in sehr vielen Sprachen, per Text, Sprache, Bild etc. und in vereinfachter Sprache präsentiert werden“, meint Schmeier. Gleichzeitig würde die Pflege von Webseiten um ein Vielfaches unkomplizierter werden.
Echte Antworten
Herkömmliche Suchmaschinen geben Dokumente als Ergebnisse an die suchende Person zurück. RAGs wiederum geben wirkliche Antworten – allerdings sind viele Probleme, die bei RAGs aus Websites auftauchen, bislang ungelöst.
Der Lösungsansatz der Forschenden am DFKI: „Durch die Art der Indizierung, also die Verwandlung der Website-Inhalte in die Inhalte des RAGs, können wir allgemeine Lösungen für die RAGs finden, die sich auch auf andere Quellen anwenden lassen“, erklärt Schmeier. Ermöglicht würde dies beispielsweise durch die explizite Berücksichtigung von Verweisen innerhalb von Dokumenten auf andere Dokumente.
Schwierigkeiten innerhalb des Projekts
Alle Informationen für entsprechende Suchanfragen erschließbar zu machen, scheint eine Mammutaufgabe, die so manche Hürden mit sich bringt. Selbst wenn seitens der AI-Anwendung alles glattläuft, so liegt die Schwierigkeit in der Individualität der Websites.
„Beim Parsen der Websites, um eine robuste textuelle Repräsentation der Websites zu erstellen, gab es bisher anwendungsspezifische Herausforderungen“, berichten die Forschenden. Während der Arbeit im Projekt muss sich das Team um Sven Schmeier mit immer neuen Ausnahmen im Design und Layout von Websites auseinandersetzen.
Auf dem Weg zur Lösung
Geforscht wird aktuell an zwei Fronten. Einerseits an der Erstellung eines Benchmark-Datensatzes für Multi-Hop-Informationen Retrieval über Webinhalte – das heißt Rohwebsites. Andererseits werden Reasoning-Fähigkeiten der Open-Source LLMs zur Navigation von Webinhalten unter Verwendung eigener textueller Webrepräsentationen erprobt.
Die aktuellen Zero-Shot-Tests zeigen jedoch, dass die genutzten Sprach-Modelle nicht die optimalen Aktionen basierend auf der Fragestellung/Webinhalt wählen. Darüber hinaus haben die Forschenden bereits wesentliche Unterschiede zwischen den Open-Source-LLMs Llama2 70b und GPT4 festgestellt.
Die Suche nach einem passenden Sprachmodell geht also weiter. In einer nächsten Testreihe soll Gemini ultra 1.5 getestet werden – in der Hoffnung eine noch bessere, Performanz zu erreichen. Das von den Forschenden eigens erstellte Datenset sowie die verbesserten Reasoning-Fähigkeiten der Gemini-Modelle sollen im Tandem zu diesem Effekt beitragen.
Wissenschaftliche Ansprechpartner:
Language Technology (DFKI)
Sven.Schmeier@dfki.de
+49 30 23895 1815