L’iPhone 12 consacre la photographie computationnelle, Apple la fait entrer dans la lumière
Une tribune de Philippe Dewost, co-fondateur de Wanadoo et de la French Tech, qui montre que la numérisation de la caméra est achevée place à celle du photographe ?
Depuis de nombreuses années déjà, tous les smartphones se ressemblent, et se ressemblent de plus en plus : une dalle noire aux bords arrondis. C’est le dos du téléphone qui révèle sa marque et parfois son modèle à tous ceux qui vous font face. Leurs capacités photographiques restent d’ailleurs aujourd’hui le principal élément différentiant – car il est visible ? – des nouveaux modèles de chaque marque.
La photo, c’est du calcul
La présentation le 13 Octobre de l’iPhone 12 faisait ainsi la part belle à ses capacités photo et vidéo, et plus précisément à ce que permettait en la matière la puissance phénoménale des 12 milliards de transistors de la puce A14 «Bionic», qu’il s’agisse des cœurs de l’unité centrale (CPU), du processeur graphique (GPU), du sous-système dédié au traitement d’images (IPS), sans oublier le module d’intelligence artificielle (NLP).
Comme si les optiques et les capteurs eux-mêmes, malgré des performances accrues – avec un système de stabilisation optique du capteur lui-même et non des lentilles -, passaient au second plan, éclipsées par une multitude de traitements opérant en temps réel et mobilisant les 3/4 du chipset pendant la prise de vues. Alors que la concurrence a vainement tenté de suivre Apple sur le nombre d’objectifs (seule manière d’assurer un zoom optique de qualité), puis de se différencier par la résolution en affichant des quantités de pixels toujours plus délirantes, la firme à la pomme s’en tient toujours à une résolution de 12 MP, et ce depuis l’iPhone X.
La différence est ailleurs, et réside dans la quantité ahurissante de traitements effectués avant, pendant, et après ce que vous croyez être une seule prise de vue : la vôtre. Apple a d’ailleurs reconnu cette évolution en utilisant le terme de «photographie computationnelle» de manière explicite durant l’événement. Il y avait pourtant un précédent.
Lancé il y a un an, l’iPhone 11 et son mode « Deep Fusion » ne laissaient déjà aucun doute sur le fait que la photographie devenait de plus en plus logicielle. On passait de la « caméra » au « système d’appareil photo ». Au delà des 3 optiques sur les modèles « pro », c’est la combinaison de leurs capacités qui selon Apple fait la différence, y compris dans l’application « Photos » une fois de plus « repensée » pour permettre des résultats « extraordinaires ».
Combiner les caméras
Que ce soit le « Mode Nuit », ou le « Deep Fusion », le nouveau format Apple ProRAW* ou les capacités HDR d’enregistrement vidéo (Dolby Vision), tout repose sur la combinaison des 2 ou 3 caméras, qui opèrent « avant » la prise de vue et transmettent toute une série d’images et de paramètres à la puce bionique A14. Celle-ci, grâce à des traitements qualifiés d’intelligence artificielle, prend en quelque sorte les meilleures décisions parmi des milliards de combinaisons possibles, pixel par pixel, afin de présenter à l’écran l’image parfaite et le style de photo adéquat : mise au point, gestion du flou de l’arrière plan, compensation des hautes et basses lumières, traitement du bruit, tout est « décidé » en fonction des zones de l’image, et de ce qu’elles sont censées représenter.
*Disponible d’ici la fin de l’année, indique Apple sur son site Internet, ce qui confirme que ce format et son traitement sont tous deux purement logiciels.
La capture était une chose, elle est maintenant éclipsée par la puissance de traitement.
« Deep Fusion » utilisait dès l’an dernier 8 prises de vue effectuées juste avant que le bouton ne soit pressé, puis combinées avec « votre » photo. Cette année la présentation semblait en évoquer bien plus !
Les chiffres sont toujours rares chez Apple, la présentation de la keynote donnait pourtant de nombreux détails, et sur le système optique, et surtout sur la puce A14, comportant 40% de transistors en plus, et 50% de performances supplémentaires. Les 16 cœurs du module d’IA (NLP) permettent d’effectuer 11 trillions d’opérations par seconde : même avec une prévisualisation instantanée (qu’on peut observer parfois si on ouvre la photo en mode édition immédiatement après la prise de vue), le traitement complet peut être estimé à une seconde. Or il mobilise 75% du processeur, qui y consacre donc environ 8 trillions d’opérations. Divisées par 12 millions de pixels, un nombre impressionnant de 700 000 opérations par pixel en une seconde.
La numérisation du photographe*
La photographie est donc entrée dans une nouvelle ère où l’on prend d’abord une photo (si le mot a encore un sens), et où les paramètres tels que la mise au point, l’exposition, la profondeur de champ sont gérés ensuite pour vous. Ainsi, vous n’avez pas droit à une « photo » mais à un calcul optimisé et choisi parmi des millions de possibilités. Dans le cas de « Deep Fusion », ce que vous recevez est une seule image post-traitée, totalement « recréée » à partir de plans prétraités, tout cela selon des « choix » effectués par l’intelligence artificielle en fonction des conditions de la prise de vue, mais aussi de son contenu.
L’utilisateur grand public n’a cure des options et choix de prise de vue qu’il pourrait effectuer, en dehors peut-être du zoom. L’essentiel est de prendre une image « comme un Pro l’aurait fait », qui soit d’emblée « optimale » et qui puisse de ce fait être postée sur un réseau social sans hésitation. Même la mise au point est effectuée automatiquement sur le sujet correspondant au style « deviné » de la scène.
*formule attribuée au CEO de DxOMark
Numérisation des techniques photographiques
C’est en quelque sorte la numérisation des règles de prise de vues, enseignées à tout étudiant en école de photographie. Ainsi en mode portrait, la mise au point et le réglage de l’ouverture, de la vitesse et de la sensibilité sont-ils effectués automatiquement pour obtenir la meilleure profondeur de champ, et le plus joli flou d’arrière-plan. Certes, ces paramètres sont conservés afin que vous puissiez les modifier ex-post. Comme si un photographe choisissait son ouverture après avoir pris un cliché !
Numérisation des choix artistiques
Le recadrage automatique, qui permet de suivre des règles de composition de la photo, donne une indication de la tendance à automatiser de plus en plus la réalisation de clichés similaires à ce qu’un photographe aguerri aurait « vu » et « capturé ». Toutes les illustrations de l’événement du 13 Octobre étaient d’ailleurs des clichés réalisés par des Pros, le message implicite étant que grâce à l’iPhone 12, vous pourriez désormais faire les mêmes…
Et les Pros ?
Apple souhaite également ménager cette clientèle qui a parfois besoin de saisir l’instant même dépourvue de son matériel. Et les Pros ne peuvent se satisfaire de post traitements destructifs – comprendre irréversibles – qui les priveraient de choix techniques et artistiques différents. Jusqu’ici, l’iPhone pouvait restituer ses fichiers RAW « bruts de capteur » via des applications « pro » spécialisées. Ils ne pouvaient en revanche bénéficier des traitements computationnels automatisés disponibles uniquement dans les images finales produites par l’iPhone, ni de la gestion ex-post de la profondeur de champ.
Apple va désormais plus loin en séparant le fichier RAW des traitements automatiques qui lui sont appliqués pendant la prise de vue, ce qui permet de bénéficier du meilleur des mondes en permettant une réversibilité sélective. Ce nouveau format Apple ProRAW**, disponible plus tard dans l’année, sera rendu accessible (sous licence) aux éditeurs d’applications de retouche, et n’en rendra que plus indispensable le système de traitement complet de l’iPhone12.
** Comprendre : pas terminé à temps pour la commercialisation, et disponible via une mise à jour logicielle ultérieure…
Liberté, Simplicité, c’est compliqué…
Malgré ces concessions faites aux photographes « Pro », pour des raisons commerciales principalement, la numérisation de la technique et de la profession conduit insensiblement à un arbitrage entre liberté de choix contre simplicité. Puisque « la photo c’est compliqué », que le smartphone s’occupe de tout, et qu’on nous répète que le résultat a l’air « pro », autant arrêter de réfléchir, pour se contenter de faire de jolies images pour améliorer son image… Les images sont devenues des clichés ; je commence à regretter mes pellicules Ilford. Parfois.
Heureusement, il reste aussi du talent. Pour réaliser un 24h, Géraldine Aresteanu n’a pas uniquement besoin de son boitier. Il lui faut également du temps, beaucoup de talent, et toute la profondeur d’une rencontre personnelle. La beauté est à ce prix.
Il reste également à voir si ces innovations, largement logicielles et ultra gourmandes en puissance de calcul, impacteront le résultat : on attend le score DxOMark des iPhone 12 et 12 Pro, et on fera alors le point par rapport à la concurrence. D’ici là, pour approfondir, un très bon « papier » en anglais permettant de revisiter les évolutions et d’approfondir les comparaisons entre smartphones et appareils photo numériques, en regardant non plus les chiffres, mais les résultats objectifs.
Nota Bene de Philippe Dewost (Senior Advisor, Conférencier) : J’ai modestement contribué à la naissance de cette photographie computationnelle il y a 10 ans en prenant la tête d’iMsense (écouter le podcast ci-dessous sur l’histoire avec Apple), qui révolutionnait le traitement de la dynamique de contraste de la caméra de l’iPhone, et permit au mode HDR d’Apple de fonctionner correctement. Nous avions trouvé comment faire pour rééquilibrer la luminosité d’une image sans en altérer les couleurs, et retrouver dans la photo ce que vos yeux avaient vu. La puce qui motorisait l’iPhone 4 il y a 10 ans était la première puce « designed by Apple » : l’A4, gravé en 45 nanomètres, contenait 80 fois moins de transistors, était 100 fois moins rapide, et à peine moins gourmand en puissance que l’A14 bionic annoncé récemment. Et sa camera affichait 5 Megapixels…