Índice
“Informação é o novo petróleo” – Você provavelmente já ouviu ou leu essa frase, e essa metáfora captura a essência atual do nosso estilo de vida digital. Em 2017, o jornal “The Economist” publicou um artigo discorrendo sobre a informação sendo o recurso mais valioso atualmente, gerando discussões e questionamentos se isso seria algo bom ou ruim.
A cada minuto é gerada uma quantidade imensa de dados. No início de 2020, foi estimado que o universo de dados digitais consistia em 44 zettabytes (1.000 bytes a sétima potência) de dados, com 463 exabytes de dados sendo criados em apenas um dia. Apenas para mensurar o quão grande é isso, no início deste ano, o número de bytes no universo digital era mais de 40 vezes maior que o número de estrelas observáveis no universo… E esse número continua crescendo!
Apesar da nossa enorme capacidade de gerar dados, a capacidade de armazenar todos esses dados é limitada. Mesmo a nuvem, cujo nome promete espaço sem fim, acabará ficando sem espaço, não é imune a todos os tipos de hackeamento e consome muita energia. Quando pensamos então sobre novas possíveis mídias para armazenamento de dados, é importante pensar em densidade, retenção, velocidade no acesso e o custo da energia (quando sem uso, e por acesso). As tecnologias de armazenamento de dados têm feito um imenso progresso nos últimos anos, mas estão chegando a um limite de densidade e longevidade, e novas possibilidades de armazenamento de dados precisam ser desenvolvidas. Nesse sentido, o armazenamento molecular de dados tem deixado de ser apenas ficção científica, e tem se tornado uma alternativa atrativa para o armazenamento de dados.
Mas o que as informações digitais têm a ver com o DNA?
Simples: DNA é informação, e ainda, DNA pode armazenar informação. Um pouco confuso?
Vamos pensar em toda quantidade de informação contida em nossas células, ou seja, toda informação necessária para criar e desenvolver um ser humano, que são instruções codificadas nas moléculas de DNA compostas por longas fitas de bases de nucleotídeos representadas pelas letras A, T, C e G. Computadores e células orgânicas tem muito em comum. Em um computador, a informação é codificada em sequências numéricas denominadas bits, 1 e 0, e quando lidas, executam programas. Em uma célula, a informação é armazenada em quatro letras de nucleobases que produzem proteínas quando lidas.
Aprenda sobre o DNA no texto: Genética: o que é o DNA, o genoma e o que são genes?
As informações de um computador são medidas em bytes (um byte é formado por 8 bits). Agora, imagine que cada letra de DNA representa dois bits de informação, onde A=00, T=01, C=10, e G=11. Em uma molécula de DNA, um exabyte de informação (DNA) pode ser armazenado em apenas um milímetro cúbico. Pensar na possibilidade de usar alguns átomos apenas para armazenar um bit de informação tornou o armazenamento molecular de dados um fato realmente atrativo, e então o armazenamento de DNA tem emergido como uma solução potencial para preencher a lacuna crescente entre a quantidade de dados geradas atualmente e nossa capacidade de armazenar esses dados de maneira econômica e eficiente.
Temos então uma nova maneira de armazenar informações, que poderia armazenar dados de forma estável por milhões de anos, residir fora da Internet hackeavel e, uma vez escrita, não usa energia …. Tudo que você precisa é um químico, algumas moléculas baratas e suas informações preciosas. Mas como?
Em 2012, o Professor George Church, em Harvard, levou a ideia de armazenamento de dados no DNA a diante, e ele e seu time converteram um livro com 52,000 palavras em fitas de DNA, provando o princípio de que o DNA pode armazenar dados. No entanto, devido ao fato de que o DNA pode quebrar e degradar, eles alcançaram menos da metade da capacidade esperada com aquele método inicial. Em 2017, Dr Yaniv Erlich e Dr Dina Zielinski do Centro de Genomas de Nova Iorque fizeram uma descoberta convertendo seis arquivos em fitas de códigos binários, e desenvolvendo um algoritmo chamado “DNA fontain” para processar a informação de codificação do DNA. O resultado foi perfeito, e estima-se que essa abordagem foi capaz de codificar aproximadamente 1.6 bits de informação por nucleotídeo.
Recentemente, pesquisadores do laboratório de Church desenvolveram uma metodologia de armazenamento molecular que utiliza síntese enzimática de DNA, de maneira template-independente, para gerar inúmeros pequenos pedaços de DNA sem a necessidade de uma fita de DNA pré-existente. O sequenciamento é feito utilizando a tecnologia de nanoporos, reduzindo então o uso de reagentes e o volume de dados para chegar à mesma informação em uma fração do custo.
A alta densidade, estabilidade, eficiência energética e relevância do DNA fizeram com que essa possibilidade deixasse de ser ficção científica, tornando o DNA extremamente apelativo para o armazenamento de dados. Atualmente, estima-se que 1 grama de DNA pode armazenar aproximadamente 215 petabytes (1 petabyte = 1 milhão de gibabytes) de informação, e por isso, o armazenamento de dados no DNA está sendo ativamente avaliado como um meio de armazenamento atraente para o futuro.


E como fica a abordagem da indústria?
Como a conversão do DNA em informação requer uma grande quantidade de DNA, não é fácil ou barato de ser feito. Pensando nisso, a empresa Twist Bioscience desenvolveu uma abordagem escalonada para sintetizar DNA, e fez uma importante parceria com a Microsoft para alcançar um recorde de armazenamento de DNA de 200 megabytes em 2016. Recentemente, a Microsoft e a Universidade de Washington demonstraram um sistema completamente automatizado para armazenar e recuperar dados de DNA, fazendo com que essa tecnologia ficasse um passo mais próxima de sua real aplicação em grandes centros de armazenamento de dados.
Esse sistema de armazenamento de dados no DNA de maneira automática utiliza softwares desenvolvidos pela Microsoft e pelo time da Universidade de Washington, e converte os bits 0 e 1 dos dados digitais em A, T, C e G, sendo capaz de recuperar informações a partir da leitura das sequências de DNA, e convertendo essas informações de maneira que os computadores são capazes de compreender. Até hoje, foi possível armazenar 1 gigabyte de informação em moléculas de DNA.
Vantagens e desafios sobre o armazenamento de dados no DNA
Seria possível o acesso aleatório a informações específicas?
O acesso aleatório a pedaços específicos de informação é uma necessidade importante, uma vez que não é viável ter que sequenciar todo o DNA em um pool para recuperar uma informação necessária. A extração seletiva de fragmentos de DNA é possível através de dois métodos populares: amplificação por PCR e extração magnética por beads.
Na amplificação por PCR, programas que codificam a informação designam pares de primers únicos para porções diferentes de dados, e quando é necessário recuperar um pedaço específico de informação, o programa encontra os primers correspondentes. Na extração por beads magnéticas, propõe-se um sistema que constrói uma memória de busca associativa, e a ideia é marcar informações com um identificador que hibridiza com uma “query” de sonda molecular. Apesar de grandes avanços nesse sentido, o acesso a informações específicas ainda é desafiador, e é uma área de pesquisas que vem crescendo significantemente.
Alta densidade e longevidade das informações armazenadas, e seus desafios futuros
Nas condições ideais, o DNA é estável por muito mais tempo do que as tecnologias de armazenamento atuais, com uma meia-vida observada de aproximadamente 500 anos. Diferente de grandes centros de armazenamento de dados, que requerem muito espaço físico e correspondem a aproximadamente 2% de todo consumo de energia elétrica nos Estados Unidos, as moléculas de DNA podem armazenar informações de formas milhões de vezes mais compactas.
Apesar das inúmeras vantagens descritas, um dos maiores desafios em tornar o armazenamento de dados no DNA possível são os custos e a velocidade de ler e escrever, que precisam ser melhorados para tornar essa tecnologia competitiva com o armazenamento eletrônico de dados. A revolução digital tem transformado a maneira como a humanidade lida com os dados, inserindo a sociedade na era da informação Todas as informações de um mamífero estão contidas em uma única molécula, por exemplo, e uma vez que o DNA é o código usado por toda a vida na Terra, nós sempre seremos capazes de ler essas informações. As pesquisas sobre o armazenamento molecular de dados no DNA progridem rapidamente, e haverá um momento em que essa tecnologia tão promissora deixará de ser ficção científica.
Referências
- Ceze L, Nivala J, Strauss K. Molecular digital data storage using DNA. Nat Rev Genet. 2019 Aug;20(8):456-466. doi: 10.1038/s41576-019-0125-3. PMID: 31068682.
- Takahashi, C.N., Nguyen, B.H., Strauss, K. et al. Demonstration of End-to-End Automation of DNA Data Storage. Sci Rep 9, 4998 (2019). https://doi.org/10.1038/s41598-019-41228-8
- Chen, Y., Takahashi, C.N., Organick, L. et al. Quantifying molecular bias in DNA data storage. Nat Commun 11, 3264 (2020). https://doi.org/10.1038/s41467-020-16958-3
Parabéns aos Pesquisadores (as) da Varstation, excelente materia de estudos. Parabéns.
Excelente!