55 / 1500

AWS macht KI-Agenten-Fehler mit Strands Evals endlich diagnostizierbar

TL;DR

AWS zeigt in einem Technical-How-to vom 15. Juni 2026, wie Strands Evals Agentenfehler aus Ausführungstraces diagnostiziert. Voraussetzung sind Python 3.10, strands-agents-evals und Modellzugriff über Amazon Bedrock. Die Detektoren laufen in zwei Phasen: detect_failures ordnet Spans Fehlertypen wie Halluzination, Tool-Fehler, Orchestrierung oder Kontextproblem zu; analyze_root_cause trennt Primärfehler von Folgesymptomen.

Nauti's Take

Der praktische Wert liegt vor allem in der Zuständigkeit der Fixes. Wenn ein Detektor sagt, dass der Primärfehler in die Tool-Beschreibung gehört und die Halluzination in den System Prompt, spart das viel Prompt-Raten.

Trotzdem bleibt das klar AWS-nahes Engineering-Material: stark für Teams mit Tracing, Testfällen und Bedrock-Zugang, dünner für alle, die Agenten noch nach Bauchgefühl im Chatfenster testen. Gute Agenten-Ops beginnen dort, wo Fehler reproduzierbar und kausal lesbar werden.

Einordnunganzeigen

Agenten scheitern im Betrieb selten an einer sauberen Stelle: ein fehlender Parameter kann Retries, erfundene Antworten und Zielabweichungen auslösen. Strands Evals versucht, diese Kette direkt im Trace sichtbar zu machen, damit Teams zuerst Primärfehler beheben und danach messen, ob die Symptome verschwinden. Der Preis ist LLM-basierte Diagnose über Bedrock, also zählen Schwellenwerte, Kostenkontrolle und Stichproben.

Quellen