DeepSeek-R1 : Une stabilité sous influence, le test des plateformes

Image d'illustration. DeepSeekDeepSeek
Une évaluation sur 18 plateformes révèle des écarts marqués dans la stabilité de DeepSeek-R1. Réponses complètes, précision et temps d’inférence varient selon le choix d’hébergement, soulignant l’impact des offres payantes.
TL;DR
- DeepSeek-R1 a été testé sur 18 plateformes pour évaluer sa stabilité.
- Les plateformes payantes présentent une meilleure stabilité que les gratuites.
- Certaines plateformes ont atteint un taux de réponse complet de 100%.
Une évaluation détaillée de la stabilité de DeepSeek-R1
Dans le but d’offrir un référenciel des chercheurs ont effectué une batterie de tests sur la solution DeepSeek-R1. Un total de 18 plateformes tierces ont été soumises à cette évaluation, en utilisant à chaque fois le même ensemble de 20 problèmes de raisonnement mathématique pour les élèves des écoles primaires, créé par l’équipe de SuperCLUE.
Les paramètres d’évaluation
Trois critères principaux ont été utilisés dans cette évaluation : le taux de réponse, la précision ainsi que le temps de réflexion. De manière spécifique, les différents plans tarifaires proposés par les plateformes (gratuits ou payants) ont également été pris en compte, afin de vérifier leur impact sur la fiabilité de DeepSeek-R1.
Une performance variable selon les plateformes
Les résultats ont montré une grande variabilité, en particulier dans le taux de réponses complètes. Parmi les plates-formes passées au crible, certaines ont atteint un taux de 100% comme Perplexity, together.ai et ByteDance’s Volcengine. Cependant, d’autres plateformes comme Baidu AI Cloud, Tencent Cloud TI Platform et Silicon Flow’s basic edition ont affiché un taux situé en dessous des 50%, ce qui suggère qu’elles ont « encore des progrès à faire en matière de stabilité ».
Les plateformes payantes surpassent les gratuites
Commentaire étonnant, les plateformes étrangères payantes ont tendance à surperformer les plateformes domestiques en ce qui concerne le taux de réponse et le temps d’inférence, même si les plateformes domestiques ont l’avantage en termes de précision. En outre, le recours à l’abonnement payant semble se traduire par une stabilité nettement améliorée. Ainsi, le taux de réponse complet moyen de la version payante est de 88%, alors qu’il est de 65% pour la version gratuite.
Le choix de la plateforme, une décision à ne pas prendre à la légère
Il apparaît clairement que la stabilité de DeepSeek-R1 dépend énormément de la plateforme sur laquelle il est déployé. Il est donc crucial pour les utilisateurs de bien réfléchir à leurs exigences spécifiques telles que le taux de réponse, le temps d’inférence, et d’autres indicateurs bien évidemment, lors du choix de leur plateforme d’hébergement. Malgré les disparités observées, de nombreuses plates-formes ont démontré une excellente performance en ce qui concerne la fiabilité et l’intégrité de l’output du modèle. Il est recommandé d’en tenir compte lors du choix de la plateforme à utiliser pour DeepSeek-R1.