Es ist das Unternehmen hinter dem KI-gestützten KI-Bildgenerator Stabel Diffusion: Stability AI. Dieses hat kürzlich mit Stable Audio Open ein neues KI-gestütztes Produkt vorgestellt. Das Open-Source-Modell ermöglicht die Generierung von kurzen Audio-Samples, Sound-Effekten und Produktionselementen auf Basis von Textanweisungen und wurde mit freien Musikbibliotheken trainiert, um die Rechte der Urheber:innen zu schützen.
We’re excited to announce Stable Audio Open, an open source model optimised for generating short audio samples, sound effects and production elements using text prompts.
This release marks a key milestone as we further open portions of our generative audio capabilities to… pic.twitter.com/KZlqJdTHiu
— Stability AI (@StabilityAI) June 5, 2024
Training mit Freesound und Free Music Archive
Stable Audio Open wurde mit Audiodaten aus den freien Musikbibliotheken Freesound und Free Music Archive trainiert. Laut dem Artikel auf dem Unternehmens-Blog von Stability AI ist Stable Audio Open besonders geeignet für die Erstellung von Schlagzeug-Beats, Instrumenten-Riffs, Umgebungsgeräuschen und Produktionselementen für Videos, Filme und Fernsehsendungen. Zudem kann es verwendet werden, um bestehende Songs zu bearbeiten oder den Stil eines Songs auf einen anderen anzuwenden.
User haben die Möglichkeit, bis zu 47 Sekunden lange Audiodaten zu generieren, indem sie detaillierte Textbeschreibungen eingeben. Beispiele hierfür sind „warme Arpeggios auf einem analogen Synthesizer mit einem allmählich ansteigenden Filter-Cutoff und einer Hallfahne“ oder „Rock-Beat, gespielt in einem Studio, Session Drumming auf einem akustischen Kit“.
Nutzungsmöglichkeiten und Einschränkungen
Stable Audio Open ist speziell auf Audio-Samples, Sound-Effekte und Produktionselemente ausgerichtet. Es kann zwar kurze Musik-Clips generieren, ist jedoch nicht für die Erstellung vollständiger Songs, Melodien oder Gesang optimiert. Dieses offene Modell bietet einen Einblick in die generative KI für Sound Design.
Es ist wichtig zu beachten, dass Stable Audio Open nicht kommerziell genutzt werden darf. Für kommerzielle Zwecke bietet Stability AI ein anderes Modell, Stable Audio, an. Dieses Modell produziert qualitativ hochwertige, vollständige Tracks mit einer kohärenten musikalischen Struktur von bis zu drei Minuten Länge und bietet fortgeschrittene Funktionen wie Audio-to-Audio-Generierung und kohärente mehrteilige Musikkompositionen
Stability AI hatte im November das neue KI-Modell, Stable Video Diffusion, vorgestellt. Das Modell basiert auf dem beliebten Stable Diffusion-Text-zu-Bild-Modell und ermöglicht die Generierung von Videos durch die Animation existierender Bilder.
Kommentare aus der Community