Apple dévoile ses nouveaux modèles IA, surpassant ceux de Mistral et Hugging Face

Apple, impressionnée par les prouesses du tout nouveau GPT-4o-mini, décide d'élargir sa gamme de modèles réduits. L'équipe de recherche d'Apple, dans le cadre du projet DataComp pour les modèles de langage, a publié une série de modèles DCLM ouverts sur Hugging Face. Qu'implique cette mise à jour pour les futurs projets d'Apple ?
Lancement des modèles phares d’Apple
L’univers du machine learning (ML) est en constante évolution et Apple ne laisse pas passer cette tendance. Le géant de la technologie a récemment introduit deux modèles de ML de pointe, séduisant par leur puissance : l’un avec 7 milliards de paramètres et l’autre avec 1,4 milliard. « Les modèles open-source les plus performants actuels », déclare Vaishaal Shankar de l’équipe ML d’Apple. Avec le modèle de 7 milliards de paramètres, qui a surpassé Mistral-7B et se rapproche des performances des modèles d’IA ouverts dominants tels que Llama 3 et Google Gemma.
Apple has entered the game! @Apple just released a 7B open-source LLM, weights, training code, and dataset! 👀
TL;DR:
🧠 7B base model, trained on 2.5T tokens on an open datasets
🌐 Primarily English data and a 2048 context window
📈 Combined DCLM-BASELINE, StarCoder, and… pic.twitter.com/pMoZV9EvLk— Philipp Schmid (@_philschmid) July 19, 2024
Une fenêtre sur les modèles DCLM d’Apple
L’avancement inimitable des modèles DCLM (Decoding-only Compositional Transformer Language Models) d’Apple a suscité l’intérêt de divers chercheurs. Le projet DataComp, dirigé par une équipe multidisciplinaire de chercheurs de plusieurs institutions, dont Apple, l’Université de Washington, l’Université de Tel Aviv et l’Institut Toyota de Recherche, s’est engagé dans la conception de data sets de haute qualité pour l’IA.
Cette initiative met l’accent sur une stratégie standardisée et modulaire afin d’optimiser l’efficacité des modèles de ML. De ce travail résulte le « data set » DCLM-Baseline, qui a été utilisé pour former les nouveaux modèles de langage de transformation DCLM uniquement décodeurs avec 7 milliards et 1,4 milliard de paramètres.
Rôle clef de la curation des données
La curation des données, technique consistant à filtrer et à sélectionner des données de haute qualité à partir de jeux de données plus larges, a été identifiée par l’équipe de recherche comme une clé de l’assemblage d’un ensemble d’entraînement de haute qualité. Le modèle de 7 milliards de paramètres, par exemple, est formé sur 2,5 trillions de tokens en utilisant des recettes de pré-entrainement basées sur le framework OpenLM. Ces efforts ont abouti à une amélioration significative de 6,6 points de pourcentage par rapport à MAP-Neo.
Performances du plus petit modèle
Comme pour le modèle DCLM-7B, la version réduite de 1,4 milliard de paramètres du modèle, développée conjointement avec l’Institut de recherche Toyota, offre des performances impressionnantes à travers divers tests. Dans le test MMLU 5-shot, il a obtenu 41,9%, un score sensiblement plus élevé que les autres modèles de sa catégorie. Cependant, il est important de noter que les modèles ne sont pas destinés aux appareils Apple et qu’ils peuvent exposer des biais issus des données de test d’entraînement ou produire des réponses préjudiciables. C’est un rappel que même les outils les plus sophistiqués ont besoin d’une supervision humaine pour garantir une utilisation éthique et responsable.