OpenAI führt Benchmark MLE-bench für AI Agents ein

OpenAI führt neue Benchmark MLE-bench ein: Wie gut performen AI Agents?

Niklas Lewanczik | 11.10.24

Die neue Benchmark MLE-bench ermittelt auf Basis von 75 Wettbewerben im Machine-Learning-Kontext, wie gut AI Agents im Bereich der Entwicklung maschinellen Lernens abschneiden.

Wieder einmal möchte OpenAI die KI-Szene langfristig prägen. Dazu hat das Unternehmen eine neue Benchmark eingeführt, die die Performance von verschiedenen AI Agents in einem facettenreichen Kontext analysieren soll. Immerhin wird bei der Vorstellung solcher Agents und von KI-Modellen häufig deren Leistungsfähigkeit im Vergleich zu weiteren verfügbaren Modellen – oft auch von der Konkurrenz – in den Fokus gestellt.

Neue Benchmark MLE-bench: Code wird als Open Source bereitgestellt

Via X kündigte OpenAI den Start der neuen Benchmark an.

We’re releasing a new benchmark, MLE-bench, to measure how well AI agents perform at machine learning engineering. The benchmark consists of 75 machine learning engineering-related competitions sourced from Kaggle. https://t.co/zFoYr5pbiF
— OpenAI (@OpenAI) October 10, 2024

Für den Performance-Abgleich nutzt das Unternehmen 75 Wettbewerbe aus dem Machine-Learning-Kontext. Diese wurden von Kaggle, einer riesigen Machine Learning und AI Community, extrahiert. Sie beziehen sich auf den Bereich Engineering. Auf Basis der Kaggle Leaderboards werden menschliche Basiswerte angesetzt. Verschiedene Sprachmodelle lassen sich im Open-Source-Rahmen testen; und OpenAIs eigenes neues Modell o1 schneidet bei vielen der Tests gut ab, würde im Kaggle-Kontext in 16,9 Prozent eine Bronzemedaille erhalten, heißt es im Blog Post. Den Code für die neue Benchmark stellt das Unternehmen selbst auch als Open Source bereit.

In der Tech-Branche könnten AI Agents und KI-Tools mit enormer Intelligenz, ob von OpenAI, Anthropic, Meta, Google DeepMind und Co., bald sogar im HR-Bereich für Veränderungen sorgen. The Information berichtet, dass Anthropic-Entwickler:innen den eigenen Chatbot Claude bereits zum Coden nutzen; und das könnte die Einstellungspläne langfristig verändern. Manche Jobs gehen also womöglich eher früher als später an AI Agents oder KI-Tools.

Beitrag von @theinformation

Auf Threads ansehen

OpenAIs Canvas ist da:

Automatischer Coding und Writing Support parallel zu ChatGPT

OpenAI Canvas-Oberfläche auf Screen, Text und Markierungen — *© OpenAI via Canva*

Kommentare aus der Community

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Kommentar

_* Hiermit willige ich in die Verarbeitung meiner angegebenen personenbezogenen Daten für das Kommentieren des Beitrags der Onlinemarketing.de GmbH ein. Mir ist bekannt, dass ich meine Einwilligung jederzeit durch eine formlose E-Mail an info@onlinemarketing.de widerrufen kann. Durch den Widerruf der Einwilligung wird die Rechtmäßigkeit der Verarbeitung, die aufgrund der Einwilligung bis zum Widerruf erfolgt ist, nicht berührt. Weitere Informationen über den Umgang mit Ihren Daten finden Sie in unserer Datenschutzerklärung.

OpenAI führt neue Benchmark MLE-bench ein: Wie gut performen AI Agents?

Neue Benchmark MLE-bench: Code wird als Open Source bereitgestellt

OpenAIs Canvas ist da:

Automatischer Coding und Writing Support parallel zu ChatGPT

Über 30.000 Subscriber können nicht irren. Melde dich jetzt zu unserem NEWSLETTER an:

Kommentare aus der Community

Über 30.000 Subscriber können nicht irren. Melde dich jetzt zu unserem NEWSLETTER an:

Beliebte Kategorien

Nützlich

OnlineMarketing.de