KI auf Vogelgesang trainiert erkennt auch Walgesänge zuverlässig
TL;DR
Googles Perch 2.0 ist ein Biakustik-Foundation-Model, das ursprünglich auf Millionen von Vogelgesang-Aufnahmen sowie Lauten von Amphibien, Insekten und Säugetieren trainiert wurde.
Key Points
- Überraschend: Das Modell erkennt auch Walgesänge zuverlässig – obwohl Unterwasser-Akustik physikalisch völlig anders funktioniert als Luftschall.
- Google DeepMind und Google Research forschen seit fast zehn Jahren an Wal-Biakustik, darunter Algorithmen für Buckelwal-Rufe und ein Mehrarten-Modell für acht Walspezies.
- Perch 2.0 zeigt, dass ein Foundation-Model für Tierstimmen domänenübergreifend transferiert – ohne spezifisches Wal-Training.
Nauti's Take
Das klingt nach einem Nebenbefund, ist aber eigentlich der spannendere Teil der Geschichte: Foundation-Models lernen offenbar akustische Strukturen auf einer Abstraktionsebene, die über das Trägermedium hinausgeht. Vögel in der Luft, Wale im Wasser – für das Modell scheint das egal zu sein.
Was für Sprachmodelle schon länger gilt (Transfer über Sprachen und Domänen), gilt jetzt auch für Tierstimmen. Die eigentliche Frage ist, wie weit das geht: Kann ein solches Modell irgendwann auch Erdbebengeräusche, Maschinenlärm oder medizinische Audiosignale klassifizieren?
Die Logik würde es erlauben.