QUEST: Best Paper & Best Presentation Award bei der IEEE ICNLP 2026

Unser Paper „QUEST: A Multi-Metric Framework for Analyzing Consensus in LLM Outputs“ wurde auf der 8th International Conference on Natural Language Processing (IEEE ICNLP 2026) in Xi’an, China, mit dem Best Paper Award sowie dem Best Presentation Award ausgezeichnet. Präsentiert wurde die Arbeit von Dr.-Ing. Robin Nicolay, Postdoc am Lehrstuhl für Hybride Methoden in der KI und dem maschinellen Lernen der Universität Rostock.

Wie zuverlässig sind die Antworten großer Sprachmodelle – und woran lässt sich das erkennen, wenn keine Referenzantwort vorliegt? Diese Frage steht im Mittelpunkt von QUEST, einem webbasierten Evaluierungsframework, das den direkten Vergleich mehrerer LLMs anhand syntaktischer und semantischer Ähnlichkeitsmaße ermöglicht. Das System kombiniert Levenshtein-Distanz, Jaccard-Ähnlichkeit und Cosinus-Ähnlichkeit über Satzeinbettungen, um quantitative Konsensscores abzuleiten. Hohe Übereinstimmung zwischen Modellen dient dabei als Proxy für Verlässlichkeit; geringe Übereinstimmung signalisiert epistemische Unsicherheit oder mögliche Halluzinationen.
Die Evaluierung anhand medizinischer Fragen zeigt, dass das Framework zwischen faktisch geklärten, ambivalenten und fiktiven Anfragen differenzieren kann. Dies ist ein wichtiger Schritt hin zu erklärbaren und auditierbaren KI-Systemen, insbesondere für den Einsatz in regulierten Bereichen wie der klinischen Sprachverarbeitung. Die Arbeit entstand im Kontext des KiMeKo-Projekts, einem vom BMFTR (Fördernummer: 01IS24056D) geförderten Verbundvorhaben zur Entwicklung KI-basierter Medizinprodukte.

Eine Demonstration des Tools ist hier zu finden.