Stability AI bringt Open-Source-Audiogenerator auf den Markt

Von Text zu Ton: Stability AI bringt Open-Source-Audiogenerator auf den Markt

Swantje Schemmerling | 10.06.24

Stability AI hat mit Stable Audio Open ein neues Open Source Tool vorgestellt, das die Generierung von kurzen Audio-Samples und Soundeffekten auf Basis von Textanweisungen ermöglicht.

Es ist das Unternehmen hinter dem KI-gestützten KI-Bildgenerator Stabel Diffusion: Stability AI. Dieses hat kürzlich mit Stable Audio Open ein neues KI-gestütztes Produkt vorgestellt. Das Open-Source-Modell ermöglicht die Generierung von kurzen Audio-Samples, Sound-Effekten und Produktionselementen auf Basis von Textanweisungen und wurde mit freien Musikbibliotheken trainiert, um die Rechte der Urheber:innen zu schützen.

We’re excited to announce Stable Audio Open, an open source model optimised for generating short audio samples, sound effects and production elements using text prompts.

This release marks a key milestone as we further open portions of our generative audio capabilities to… pic.twitter.com/KZlqJdTHiu

— Stability AI (@StabilityAI) June 5, 2024

Training mit Freesound und Free Music Archive

Stable Audio Open wurde mit Audiodaten aus den freien Musikbibliotheken Freesound und Free Music Archive trainiert. Laut dem Artikel auf dem Unternehmens-Blog von Stability AI ist Stable Audio Open besonders geeignet für die Erstellung von Schlagzeug-Beats, Instrumenten-Riffs, Umgebungsgeräuschen und Produktionselementen für Videos, Filme und Fernsehsendungen. Zudem kann es verwendet werden, um bestehende Songs zu bearbeiten oder den Stil eines Songs auf einen anderen anzuwenden.

User haben die Möglichkeit, bis zu 47 Sekunden lange Audiodaten zu generieren, indem sie detaillierte Textbeschreibungen eingeben. Beispiele hierfür sind „warme Arpeggios auf einem analogen Synthesizer mit einem allmählich ansteigenden Filter-Cutoff und einer Hallfahne“ oder „Rock-Beat, gespielt in einem Studio, Session Drumming auf einem akustischen Kit“.

Nutzungsmöglichkeiten und Einschränkungen

Stable Audio Open ist speziell auf Audio-Samples, Sound-Effekte und Produktionselemente ausgerichtet. Es kann zwar kurze Musik-Clips generieren, ist jedoch nicht für die Erstellung vollständiger Songs, Melodien oder Gesang optimiert. Dieses offene Modell bietet einen Einblick in die generative KI für Sound Design.

Es ist wichtig zu beachten, dass Stable Audio Open nicht kommerziell genutzt werden darf. Für kommerzielle Zwecke bietet Stability AI ein anderes Modell, Stable Audio, an. Dieses Modell produziert qualitativ hochwertige, vollständige Tracks mit einer kohärenten musikalischen Struktur von bis zu drei Minuten Länge und bietet fortgeschrittene Funktionen wie Audio-to-Audio-Generierung und kohärente mehrteilige Musikkompositionen

Stability AI hatte im November das neue KI-Modell, Stable Video Diffusion, vorgestellt. Das Modell basiert auf dem beliebten Stable Diffusion-Text-zu-Bild-Modell und ermöglicht die Generierung von Videos durch die Animation existierender Bilder.

Microsoft VASA-1:

Mit Bild und Audio zum sprechenden KI-Portrait

Icons und Text, verschiedene Portrait-Aufnahmen nebeneinander — *© Microsoft via Canva*

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Kommentar

_* Hiermit willige ich in die Verarbeitung meiner angegebenen personenbezogenen Daten für das Kommentieren des Beitrags der Onlinemarketing.de GmbH ein. Mir ist bekannt, dass ich meine Einwilligung jederzeit durch eine formlose E-Mail an info@onlinemarketing.de widerrufen kann. Durch den Widerruf der Einwilligung wird die Rechtmäßigkeit der Verarbeitung, die aufgrund der Einwilligung bis zum Widerruf erfolgt ist, nicht berührt. Weitere Informationen über den Umgang mit Ihren Daten finden Sie in unserer Datenschutzerklärung.

Von Text zu Ton: Stability AI bringt Open-Source-Audiogenerator auf den Markt

Training mit Freesound und Free Music Archive

Nutzungsmöglichkeiten und Einschränkungen

Microsoft VASA-1:

Mit Bild und Audio zum sprechenden KI-Portrait

Über 30.000 Subscriber können nicht irren. Melde dich jetzt zu unserem NEWSLETTER an:

Kommentare aus der Community

Über 30.000 Subscriber können nicht irren. Melde dich jetzt zu unserem NEWSLETTER an:

Beliebte Kategorien

Nützlich

OnlineMarketing.de