Dein wichtigster Touchpoint zur Digitalbranche.
Dein wichtigster Touchpoint zur Digitalbranche.
Technologie
Von Text zu Ton: Stability AI bringt Open-Source-Audiogenerator auf den Markt
© KI-generiert mit Adobe Firefly

Von Text zu Ton: Stability AI bringt Open-Source-Audiogenerator auf den Markt

Swantje Schemmerling | 10.06.24

Stability AI hat mit Stable Audio Open ein neues Open Source Tool vorgestellt, das die Generierung von kurzen Audio-Samples und Soundeffekten auf Basis von Textanweisungen ermöglicht.

Es ist das Unternehmen hinter dem KI-gestützten KI-Bildgenerator Stabel Diffusion: Stability AI. Dieses hat kürzlich mit Stable Audio Open ein neues KI-gestütztes Produkt vorgestellt. Das Open-Source-Modell ermöglicht die Generierung von kurzen Audio-Samples, Sound-Effekten und Produktionselementen auf Basis von Textanweisungen und wurde mit freien Musikbibliotheken trainiert, um die Rechte der Urheber:innen zu schützen.

Training mit Freesound und Free Music Archive

Stable Audio Open wurde mit Audiodaten aus den freien Musikbibliotheken Freesound und Free Music Archive trainiert. Laut dem Artikel auf dem Unternehmens-Blog von Stability AI ist Stable Audio Open besonders geeignet für die Erstellung von Schlagzeug-Beats, Instrumenten-Riffs, Umgebungsgeräuschen und Produktionselementen für Videos, Filme und Fernsehsendungen. Zudem kann es verwendet werden, um bestehende Songs zu bearbeiten oder den Stil eines Songs auf einen anderen anzuwenden.

User haben die Möglichkeit, bis zu 47 Sekunden lange Audiodaten zu generieren, indem sie detaillierte Textbeschreibungen eingeben. Beispiele hierfür sind „warme Arpeggios auf einem analogen Synthesizer mit einem allmählich ansteigenden Filter-Cutoff und einer Hallfahne“ oder „Rock-Beat, gespielt in einem Studio, Session Drumming auf einem akustischen Kit“.

Nutzungsmöglichkeiten und Einschränkungen

Stable Audio Open ist speziell auf Audio-Samples, Sound-Effekte und Produktionselemente ausgerichtet. Es kann zwar kurze Musik-Clips generieren, ist jedoch nicht für die Erstellung vollständiger Songs, Melodien oder Gesang optimiert. Dieses offene Modell bietet einen Einblick in die generative KI für Sound Design.

Es ist wichtig zu beachten, dass Stable Audio Open nicht kommerziell genutzt werden darf. Für kommerzielle Zwecke bietet Stability AI ein anderes Modell, Stable Audio, an. Dieses Modell produziert qualitativ hochwertige, vollständige Tracks mit einer kohärenten musikalischen Struktur von bis zu drei Minuten Länge und bietet fortgeschrittene Funktionen wie Audio-to-Audio-Generierung und kohärente mehrteilige Musikkompositionen

Stability AI hatte im November das neue KI-Modell, Stable Video Diffusion, vorgestellt. Das Modell basiert auf dem beliebten Stable Diffusion-Text-zu-Bild-Modell und ermöglicht die Generierung von Videos durch die Animation existierender Bilder.


Microsoft VASA-1:

Mit Bild und Audio zum sprechenden KI-Portrait

Icons und Text, verschiedene Portrait-Aufnahmen nebeneinander
© Microsoft via Canva

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

*
*