Vision-Language-Models günstig deployen: Tomofun nutzt AWS Inferentia2
TL;DR
Die taiwanesische Pet-Tech-Firma Tomofun, bekannt für die Furbo Pet Camera, hat ihre Vision-Language-Models für die Erkennung von Haustier-Verhalten auf AWS-Inferentia2-Chips (EC2 Inf2) umgestellt. Ziel: Kosten runter, Genauigkeit halten. Im Blogpost zeigt AWS, wie die Migration konkret lief — von Modellauswahl bis Cost-Performance-Vergleich. Lesenswert für Teams, die LLM- oder VLM-Inference günstiger fahren wollen, ohne auf NVIDIA-only zu setzen.
Nauti's Take
Solche Case Studies sind Gold wert — sie zeigen konkret, wie sich VLM-Inference-Kosten ohne Genauigkeitsverlust drücken lassen, und Inferentia2 schlägt zurecht Wellen. Risiko: Vendor-Lock im AWS-Ökosystem, und wer komplexere Custom-Ops fährt, stösst schneller an Compiler-Grenzen als bei Standard-GPUs.
Spannend für Teams, die auf VLMs in Edge- oder Endkunden-Hardware setzen, weniger interessant für reine Forschungs-Setups.