Solo.io hat im Rahmen der KubeCon EU 2026 mit agentevals ein Open-Source-Werkzeug vorgestellt, das die Qualität von KI-Agenten messbar machen soll. Aus dem Bereich der LLMs (Large Language Models) kennt man den Vergleich von Eingabe und Ausgabe. Doch dieser Ansatz genügt bei Agenten nicht, denn sie greifen auf weitere Werkzeuge, Informationssysteme oder sogar andere KI-Komponenten zurück. Wie gut und effektiv ist die Schleife von Aufrufen? Das umfasst die Daten, die hin- und herfließen, aber auch die Auswahl der externen Instanzen und deren Anzahl. Weiterlesen nach der Anzeige (Bild: AtemisDiana/Shutterstock) Mehr zu Observability bietet die Online-Konferenz Mastering Observability von iX und dpunkt.verlag am 16. April 2026. Die Konferenz widmet sich unter anderem den Herausforderungen automatisierter Observability für KI- und agentenbasierte Systeme. Agenten evaluieren, bevor sie in Produktion gehen Für diese Auswertung macht sich agentevals bereits bekannte Methoden aus dem Machine Learning zunutze und verwendet vorhandene Telemetriedaten. Außerdem können Anwender eigene Metriken definieren und Schwellenwerte festlegen. Letzteres bezeichnet das Projekt als „Golden Eval Sets“. Beispielhafte Auswertung von agentevals mit einer Liste von Evaluators Damit lassen sich Agenten evaluieren, bevor sie in Produktion gehen. Tut die Software, was sie soll? Arbeitet sie kosteneffizient und mit den richtigen Mitteln? Agentenbasierte KI arbeitet konstruktionsbedingt nicht deterministisch – gleiche Eingaben können also unterschiedliche Ergebnisse liefern. Agentevals soll einen Teil dieser Vorhersagbarkeit wiederherstellen. Am einfachsten gelingt die Integration über OpenTelemetry, ein offenes Observability-Framework für verteilte Systeme. Hier lassen sich entsprechende Agenten ohne Codeänderung anweisen, ihre Telemetriedaten an die agentevals-Plattform zu schicken. Ebenso lassen sich historische Daten auswerten. Ein bereits entsprechend dokumentierter Agentenlauf lässt sich im Na...
First seen: 2026-03-26 09:04
Last seen: 2026-03-29 15:54