L’IA vidéo en temps réel débarque sur smartphone

Image d'illustration. Snap ADN
Snap prouve qu’un smartphone peut générer des vidéos IA en temps réel. Grâce à un modèle optimisé sous le milliard de paramètres, l’iPhone 16 Pro Max atteint 10 fps, ouvrant une ère créative inédite.
Tl;dr
- Snap génère des vidéos IA sur iPhone en temps réel.
- Nouvelles optimisations pour réduire la taille des modèles.
- Vers l’ère de l’imagination instantanée sur smartphone.
L’intelligence artificielle vidéo débarque sur mobile
Jusqu’à récemment, la génération de vidéos par intelligence artificielle semblait réservée aux ordinateurs les plus puissants. Pourtant, des chercheurs de Snap viennent de démontrer que cette technologie peut désormais fonctionner directement sur un smartphone haut de gamme, en atteignant un impressionnant débit de 10 images par seconde sur un iPhone 16 Pro Max. Ce progrès ouvre la voie à une nouvelle ère : celle où l’utilisateur pourra créer, à la volée, des vidéos générées par IA depuis sa poche. Lors du MWC 2024, Qualcomm, Mediatek, des opérateurs asiatiques ont montré des démonstrations sur ce sujet. Il y a eu par exemple par MediaTek et Kuaishou Technology unissent leurs forces pour repousser les limites de la génération vidéo. Avec le modèle AnimateDiff et l’adaptateur 12 V, une simple image statique se métamorphose en animation captivante. Intégré à ControlNet, pour une compréhension fine des postures, ce procédé redonne vie aux images et ouvre de nouvelles voies d’expression artistique.
Un modèle réduit mais efficace
Le défi technique était loin d’être négligeable. Les modèles de type Diffusion Transformer (DiT), réputés pour leurs performances en génération vidéo, exigent habituellement d’importantes ressources informatiques. Pour contourner cet obstacle, l’équipe a initié le projet avec un modèle doté de deux milliards de paramètres, avant d’appliquer une méthode sophistiquée dite « pruning » pour ramener le tout sous la barre du milliard. Cette réduction drastique s’est accompagnée d’une phase minutieuse de « finetuning », visant à maintenir une qualité vidéo honorable malgré la compression.
Plusieurs optimisations se sont révélées décisives :
- Utilisation d’un autoencodeur variationnel comprimé afin de limiter la quantité de données sans perte visuelle significative.
- Mise en œuvre d’une stratégie de tri-pruning guidée par la sensibilité du modèle et l’apprentissage distillé (« KD-guided »).
- Application d’une distillation étape-par-étape pour réduire drastiquement le nombre d’inférences nécessaires (seulement quatre suffisent).
Pionnier d’un futur immersif et interactif
L’impact ne se limite pas à l’innovation technique. Si ce type d’approche venait à se généraliser, nos smartphones pourraient bientôt dépasser le simple texte ou image généré localement : ils deviendraient capables de donner vie à des séquences vidéo personnalisées — voire, à terme, à des mondes entiers via des modèles toujours plus optimisés. Un basculement qui inaugurerait peut-être l’« instant imagination », selon les mots des chercheurs.
Vers une démocratisation inédite ?
Pour faire de l’IA vidéo sur smartphone, il faut un mix de hardware très puissant (CPU/GPU/NPU), un modèle compacté et optimisé, et des techniques de compression/distillation pour que l’inférence devienne temps réel.
Certains y verront une révolution silencieuse : grâce à ces avancées en compression et accélération du calcul IA, chaque utilisateur pourrait accéder — sans passer par le cloud — à des outils créatifs jusqu’ici hors de portée. Reste maintenant à observer comment les éditeurs et fabricants s’empareront (ou non) de cette prouesse technique pour transformer nos usages quotidiens.