Microsoft macht Agenten-Skills zu trainierbaren Parametern
TL;DR
Microsoft Research stellt SkillOpt vor: Agenten-Skills werden nicht mehr manuell prompt-artig nachgebessert, sondern wie trainierbare Parameter außerhalb eines eingefrorenen Modells optimiert. Der Prozess nutzt Rollouts, Reflexion über erfolgreiche und gescheiterte Trajektorien, kleine Text-Edits, Validierung auf einem Holdout-Split und Feedback aus abgelehnten Änderungen.
Nauti's Take
Das ist spannend, weil es Prompt Engineering endlich aus der Bastel-Ecke zieht. Ein Skill, der nur übernommen wird, wenn er auf einem Validierungsset besser abschneidet, ist viel näher an Software-Engineering als an Prompt-Magie.
Gleichzeitig ist die Story stark Microsoft-Research-getrieben: Ohne externe Replikation und echte Produktionscases bleibt offen, wie robust die Methode außerhalb sauberer Benchmarks ist.
Einordnunganzeigen
SkillOpt trifft einen echten Engpass: Agenten scheitern oft nicht am Modell, sondern an brüchigen Arbeitsanweisungen. Wenn Skills versionierbar, testbar und kompakt trainiert werden können, entsteht eine leichtere Alternative zu Fine-Tuning. Entscheidend ist aber, ob Teams zuverlässige Evaluatoren für ihre eigenen Workflows haben.