Wissenschaft

Kommentar: Warum KI-generierte Podcasts wirklich überflüssig sind

2024-10-08

Autor: Emma

Im September 2023 hat Google mit seinem neuen Feature "Audio Overview" für das Notiztool NotebookLM für Aufsehen gesorgt. Dabei handelt es sich um eine Funktion, die ermöglicht, aus einer hochgeladenen Datei oder einer URL einen Podcast von zwei KI-generierten Stimmen zu erstellen. Diese beiden Stimmen, generiert durch Text-to-Speech-Technologie, unterhalten sich dann über den Inhalt der Informationen, die bereitgestellt wurden, und zwar basierend auf einem Podcast-Skript, das mit dem KI-Modell Gemini 1.5 erstellt wurde. Momentan gibt es jedoch keine Möglichkeit, den Dialog nach den eigenen Wünschen zu gestalten, und die Nutzer werden nicht eindeutig informiert, dass es sich um eine KI-generierte Zusammenstellung handelt.

Obwohl ich Podcasts nicht häufig höre, hat mich die Funktion anfangs nicht besonders interessiert. Nach einem ersten Probehören muss ich jedoch sagen: Selten habe ich eine so ineffiziente Art der Informationsaufbereitung erlebt. Das Feature funktioniert derzeit nur in englischer Sprache, was die Befürchtung aufwirft, dass es mit der Zeit möglicherweise auch in anderen Sprachen verbreitet wird.

Die Grundidee hinter NotebookLM ist zwar interessant. Der Nutzer kann Dokumente hochladen oder URLs angeben, und ein Google-Sprachmodell fasst den Inhalt zusammen, hebt Schlüsselthemen hervor und stellt Fragen, die man zur Quelle stellen könnte. Für einen schnellen Überblick über komplexe Themen könnte dies nützlich sein. Allerdings merkt man schnell, dass dies nichts anderes ist als die Verwendung von Retrieval-Augmented Generation (RAG)-Systemen, die bereits mit eigenen Dokumenten arbeiten. Ob man die Idee, mit einem KI-Assistenten die Themen weiterzuentwickeln, gut findet, bleibt Geschmackssache und ähnelt dem typischen Programmieren mit KI-Programmierassistenten.

Was mich jedoch wirklich stört, ist die Vorstellung, dass dieser KI-Podcast beim Wissenserwerb helfen könnte. Ein echter Podcast ist für mich aus vielen Gründen attraktiv. Zum einen beinhaltet er oft Gespräche mit bekannten Persönlichkeiten, die ihre Meinungen frei oder strukturiert teilen und dem Zuhörer dadurch einen persönlichen Einblick in ihre Denkweise bieten. Zum anderen schätze ich Podcasts, die sich mit spezifischen Themen auseinandersetzen und klare, gut aufbereitete Informationen bieten. Im Gegensatz dazu scheinen die Audio Overviews von NotebookLM eine unglückliche Mischung aus beiden Formaten zu sein, die eher die Nachteile des Podcast-Formats verstärken.

Die Audio-KI von Audio Overview stolpert über ihre eigenen Sätze, pausiert zum Überlegen der Worte und produziert schlechte Wortspiele. Würde ich ein wissenschaftliches Paper oder eine technische Dokumentation zusammenfassen wollen, wäre der Stil dieser KI eher ein Minuspunkt. Ich erwarte von einem Tool zur Wissensaggregation präzise und klare Sätze, keine vorgetäuschte Empathie oder Meinungen, die das System sowieso nicht verstehen kann. Der Dialog zwischen den beiden simulierten Moderatoren behindert nur meinen Wissensfluss. Statt komprimierter Informationen muss ich oft 30 Sekunden lang unwichtiges Gerede ertragen, um 15 Sekunden nützliche Informationen zu erhalten.

Aktuell bezeichnet Google die Funktion "Audio Overview" selbst als experimentell. Ich persönlich bin der Meinung, dass dieses Experiment gescheitert ist. Ein Feature, bei dem das überflüssige Geplänkel zwischen den simulierten Hosts entfernt werden kann, wäre vielleicht akzeptabel. Bis zu einem solchen Punkt werde ich es vorziehen, weiterhin mit Text zu arbeiten und auf traditionelle Podcasts zurückzugreifen, die echten Mehrwert bieten.