Nos selfies stockés dans un brin d'ADN

© iStock
Stocker nos photos dans une molécule d’ADN pourrait être une alternative durable et stable aux disques durs. À l’EPFL, des scientifiques planchent sur une norme de compression d’image adaptée à cette technologie en développement.
D’ici quelques années, nous prendrons plus de 2000 milliards de photos par an. Si certaines restent localement dans nos téléphones, beaucoup finissent dans le cloud. Par conséquent, nous remplissons les bandes magnétiques et les disques durs des centres de données. Cependant, ces solutions de stockage présentent des limites en termes de capacité et de durée de vie. C’est sans compter leur impact environnemental.
Une alternative pourrait se trouver dans l’ADN. «On estime qu’un seul gramme d’ADN pourrait stocker approximativement 215 millions de gigaoctets de données», avance Touradj Ebrahimi, spécialiste du traitement de l’image et responsable du Groupe de traitements des signaux multimédias à l’EPFL. «Cela représente 860'000 disques durs externes d’une capacité de 250Go, qui peuvent chacun stocker environ 50'000 photos.»
Stocker nos données pendant des millénaires
L’ADN stocke toutes les informations dont les organismes vivants ont besoin pour vivre, croître et se reproduire. Et ce pendant très longtemps: en 2022, un ADN datant de deux millions d’années a été extrait du pergélisol du Groenland.
Aujourd’hui, nous savons séquencer et synthétiser cette «molécule de la vie»: nous pouvons l’écrire et la lire. Chaque brin d’ADN encode les informations génétiques par l’agencement de quatre nucléotides: l'adénine (A), la thymine (T), la cytosine (C) et la guanine (G).
Afin de l’utiliser comme un outil de stockage, il suffit donc de convertir des données numériques (sous forme binaire 0, 1) en séquences d’ADN (A, T, C, G). Ces séquences sont ensuite synthétisées sur un brin d’ADN, puis conservées dans des environnements dédiés. Pour lire et récupérer ces données, le processus inverse est mis en place.

JPEG DNA: une norme pour l’avenir
Si les perspectives offertes par cette technologie sont vastes pour l’archivage à long terme, de nombreux défis restent encore à relever, comme le coût élevé et le temps conséquent d’archivage et de récupération des données. Néanmoins, sa densité de stockage, sa durée de vie et sa faible consommation énergétique en font un domaine de recherche de prédilection – notamment dans le Laboratoire de Touradj Ebrahimi.
À la tête du comité d’expertes et experts JPEG (Joint Photographic Experts Group) depuis 2014, il contribue à la pérennisation du format d’images incontournable JPEG en l’adaptant aux évolutions technologiques et sociétales.
JPEG DNA, son dernier projet mené en collaboration avec, entre autres, la Commission électrotechnique internationale (IEC) et l’Université de Takushoku au Japon, vise à créer un standard de compression d’images adapté aux molécules synthétiques d’ADN. «Garantir que les images puissent être reconstituées avec précision après avoir été encodées, synthétisées, stockées, amplifiées puis séquencées est un véritable défi, explique le professeur. Avoir une norme à disposition est essentiel pour développer des techniques de codage et de compression efficaces.»
Pour ce faire, l’équipe a mis en place une procédure qui permet d’évaluer différentes méthodes de stockage d'images dans l'ADN. Elle fournit notamment un ensemble prédéfini d’images pour les tests, des critères d’évaluation pour comparer les différentes méthodes, des méthodes pour corriger des erreurs et faire face aux contraintes biochimiques, par exemple, la fréquence et la disposition des symboles d’ADN produits par image qui peuvent déstabiliser leurs molécules.
Coder pour l’ADN
Certains contenus multimédias sont particulièrement volumineux en information. L’équipe de l’EPFL a donc mis au point un algorithme de compression originale pour coder de manière efficace des données numériques en séquence ADN. Dans le cas où les données sont des images au format .jpg, leur algorithme ne nécessite pas un décodage de l’image au préalable. Rapide et fiable, cette méthode produit moins d’ADN synthétique, moins d’efforts de calcul et assure une meilleure qualité d’image.
Pour la conception du format JPEG DNA, les scientifiques de l’EPFL et les expertes et experts du groupe JPEG, ont intégré à la fois le codage source (compression des images) et le codage canal (résilience aux erreurs et adaptation aux contraintes biochimiques de l’ADN).
«Les développements dans le domaine de l'intelligence artificielle et de l'apprentissage automatique pourraient encore améliorer le standard JPEG DNA en optimisant l’encodage et les mécanismes de correction d'erreurs, tout en demeurant compatible avec ce standard au niveau de sa syntaxe et sa procédure de décodage source», souligne Touradj Ebrahimi.
Le comité JPEG prévoit de faire du format JPEG DNA une norme internationale dès 2026.
Coding of still pictures : https://ds.jpeg.org/documents/jpegdna/wg1n100517-099-ICQ-JPEG_DNA_Common_Test_Conditions_v2.pdf
Towards effective visual information storage on DNA support: https://infoscience.epfl.ch/entities/publication/001e1840-d15a-49a6-8b7d-932e6eb2b9bd
Enhancing image quality in next-generation image compression: https://infoscience.epfl.ch/entities/publication/a2d6de17-8027-461a-9d6e-1998a2e93f46