Intelligent storage on synthetic DNA for archiving digital images - Archive ouverte HAL Accéder directement au contenu
Thèse Année : 2023

Intelligent storage on synthetic DNA for archiving digital images

Stockage intelligent sur ADN synthétique pour l'archivage des images numériques

Résumé

The rapid growth of digital data, commonly referred to as the "data explosion," presents a significant challenge for data storage. The digital universe is projected to reach 175 zettabytes by 2025, with a large portion of this data being infrequently accessed, yet still requiring safe archival for security and regulatory compliance reasons. Conventional storage devices, such as hard drives, have a limited lifespan of 10-20 years, making it necessary to find new solutions for long-term data preservation that are not only cost-effective, but also energy-efficient. Recent studies have shown that DNA is a very promising candidate for the long-term archival storage of digital data. DNA has a capacity of up to 215 petabytes per gram and a theoretical lifespan of up to 1000 years, making it a suitable option for storing large amounts of data for centuries or even longer. However, the process of encoding digital data into a quaternary stream made up of the symbols A, T, C and G, which represent the four components of the DNA molecule, while also respecting important encoding constraints, has been a subject of ongoing research. Pioneering works have proposed different algorithms for DNA coding, but there is still room for further improvement. In this context, a new generation of nanoporebased sequencers offers the possibility of reading DNA strands much faster and cheaper, with the disadvantage of a higher error rate. This thesis focuses on the study of the nature of such errors in order to further adapt and robustify the encoding of the data into a quaternary code and ensure its decodability. Additionally, post-processing techniques adapted to the context of DNA data storage are proposed to correct the remaining errors after decoding. We also present the results of a wet-lab experiment in which various images were stored in DNA using different encoding methods and sequenced using different technologies such as Illumina and nanopore. We provide a study of the errors introduced with each sequencing platform and the robustness of the different encoding solutions tested in the wet-lab experiment. The goal of this research is to contribute to the development of efficient and reliable DNA-based archival storage systems.
La croissance rapide de la consommation de données numériques, communément appelée "l’explosion des données", présente un défi important pour le stockage des données. L’univers numérique devrait atteindre 175 zettaoctets d’ici 2025, une grande partie de ces données étant rarement consultées, mais nécessitant toujours un archivage sécurisé pour des raisons de sécurité et de conformité réglementaire. Les dispositifs de stockage conventionnels, tels que les disques durs, ont une durée de vie limitée de 10 à 20 ans, ce qui rend nécessaire de trouver des solutions alternatives pour la préservation des données à long terme qui soient non seulement rentables, mais également économes en énergie. Des études récentes ont montré que l’ADN est un candidat très prometteur pour l’archivage à long terme des données numériques. L’ADN a une capacité allant jusqu’à 215 pétaoctets par gramme et une durée de vie théorique allant jusqu’à 1000 ans, ce qui en fait une option appropriée pour stocker de grandes quantités de données pendant des siècles, voire plus. Cependant, le processus d’encodage des données numériques dans un flux quaternaire compose des symboles A, T, C et G, qui représentent les quatre composants de la molécule d’ADN, tout en respectant d’importantes contraintes d’encodage, fait l’objet de recherches en cours. Des travaux pionniers ont proposé différents algorithmes pour le codage de l’ADN, mais des améliorations sont encore possibles. Dans ce contexte, une nouvelle génération de séquenceurs utilisant des nanopores offre la possibilité de lire des brins d’ADN beaucoup plus rapidement et à moindre cout, avec l’inconvénient d’un taux d’erreur plus élevé. Cette thèse porte sur l’étude de ces erreurs afin d’adapter et de rendre encore plus robuste le codage quaternaire des données. De plus, des techniques de post-traitement adaptées au contexte de stockage des données ADN sont proposées pour corriger les erreurs restantes après décodage. Les résultats d’expériences en laboratoire sont présentés dans lesquels diverses images ont été stockées dans l’ADN à l’aide de différentes méthodes de codage et séquencées à l’aide de différentes technologies telles que Illumina et nanopore. Nous présentons une étude des erreurs introduites avec chaque plate-forme de séquençage et la robustesse des différentes solutions de codage testées expérimentalement. L’objectif de cette recherche est de contribuer au développement de systèmes efficaces et fiables de stockage d’archives sur ADN.
Fichier principal
Vignette du fichier
2023COAZ4031.pdf (16.69 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04117028 , version 1 (05-06-2023)

Identifiants

  • HAL Id : tel-04117028 , version 1

Citer

Eva Gil San Antonio. Intelligent storage on synthetic DNA for archiving digital images. Image Processing [eess.IV]. Université Côte d'Azur, 2023. English. ⟨NNT : 2023COAZ4031⟩. ⟨tel-04117028⟩
185 Consultations
28 Téléchargements

Partager

Gmail Facebook X LinkedIn More