Apples Team für maschinelles Lernen präsentiert zwei neue Open Source-Sprachmodelle
Apples Team für maschinelles Lernen beteiligt sich gemeinsam mit anderen Unternehmen am Open-Source-Projekt DataComp for Language Models. Kürzlich haben sie zwei neue Open-Source-Sprachmodelle veröffentlicht, die in Benchmark-Tests beeindruckende Ergebnisse erzielt haben. Laut Apple sollen beide Modelle führenden Trainingsmodellen wie Llama 3 und Gemma ebenbürtig oder sogar überlegen sein. Ihre Effizienz könnte die Weiterentwicklung von KI-Anwendungen erleichtern und beschleunigen. Schließlich werden solche Sprachmodelle verwendet, um KI-Plattformen wie ChatGPT zu trainieren und ihnen Daten von höherer Qualität zur Verfügung zu stellen.
Technische DetailsDas größere der beiden Modelle verfügt über sieben Milliarden Parameter und hat das bisherige Spitzenmodell MAP-Neo um 6,6 Prozent übertroffen. Bemerkenswert ist, dass es 40 Prozent weniger Rechenleistung benötigt, um ähnliche Ergebnisse zu erzielen. Die Modelle und ihre Trainingsdaten sind als Open-Source-Projekte veröffentlicht worden. Damit möchte das Apple Intelligence Research Team die Zusammenarbeit in der KI-Forschung fördern und anderen Teams helfen, auf den Ergebnissen von Apple aufzubauen.
Benchmark-ErgebnisseIn den Massive Multi-Task Language Understanding (MMLU) Benchmarks haben beide Modelle gut abgeschnitten und konnten sich mit kommerziellen Modellen messen. Diese Ergebnisse zeigen, dass Apples Modelle nicht nur für die Forschung, sondern auch für praktische Anwendungen relevant sein könnten. Auf der diesjährigen WWDC (Worldwide Developers Conference) hat Apple neben den neuen Modellen auch „Apple Intelligence“ und „Private Cloud Compute“ vorgestellt. Verschiedene Branchenexperten haben Apple in der Vergangenheit als Nachzügler bei der Entwicklung von KI bezeichnet, doch die neuesten Meldungen zeigen, dass Apple keineswegs hinterherhinkt. Zumal das Open Source-Engagement die Innovationskraft der Branche insgesamt stärken könnte.