Tipos de Sequenciamento: Clássico ao NGS

As técnicas de sequenciamento de DNA evoluíram drasticamente desde o seu surgimento em 1970, alterando o custo e a facilidade.

Os tipos de sequenciamento surgiram a partir da década de 70, e trazem consigo a possibilidade de se examinar a molécula de DNA. Quando falamos da atualidade, o sequenciamento promove otimização de diagnósticos médicos e a extração de diversas informações genéticas de pessoas.

Trazendo a perspectiva para os próximos anos, o que podemos esperar das técnicas de sequenciamento? Quais são as promessas da bioinformática para a medicina e para ampliar o conhecimento genômico dos seres humanos? Explicamos neste conteúdo!

O Surgimento do sequenciamento

A década de 1950 foi marcada pela descoberta da estrutura de uma molécula de DNA, que consiste em uma estrutura de açúcar fosfato e, ligada a ela, uma longa sequência de quatro tipos de bases de nucleotídeos (A, C, T, G).

A descoberta feita por Watson e Crick a partir dos dados cristalográficos produzidos por Rosalind Franklin e Maurice Wilkins, contribuiu para a construção de uma estrutura conceitual tanto para a replicação do DNA quanto para a codificação de proteínas em ácidos nucléicos, criando uma nova forma de estudar a vida.

Uma verdadeira revolução genômica teve início com o surgimento de técnicas de sequenciamento na década de 1970 por Sanger. O sequenciamento, feito a partir da leitura da composição do DNA, abriu portas para estudar o código genético dos seres vivos.

Um sequenciador de DNA produz arquivos contendo o que chamamos de sequências ou strings, compostos por cinco letras (A, C, T, G, N). Cada letra representa seu respectivo nucleotídeo e a letra N representa ambiguidades em fragmentos que não foram lidos corretamente.

Desde então, houve uma grande evolução na tecnologia de sequenciamento de nucleotídeos, alterando drasticamente o custo e a facilidade associada ao sequenciamento de DNA. Um sequenciamento que antes durava anos e custava centenas de milhares de dólares hoje pode ser feito em horas e por um preço bem mais acessível.

Sequenciamento de primeira geração

As tecnologias de primeira geração, também conhecidas como sequenciamento clássico, foram as pioneiras na área. O sequenciamento de Sanger, o mais famoso e mais utilizado por cerca de 30 anos e o de Maxam-Gilbert são as tecnologias que compõem essa primeira geração.

Sequenciamento de Sanger

O sequenciamento de Sanger é conhecido como o método de terminação de cadeia ou simplesmente método didesoxi. Também pode ser chamado por método de síntese.

O método desenvolvido por Sanger consiste na utilização de uma fita do DNA como molde para ser sequenciado. O DNA é alvo é “copiado” diversas vezes produzindo fragmentos de comprimentos diferentes.

Esse processo é possível porque são utilizados nucleotídeos quimicamente modificados chamados didesoxinucleotídeos (dNTPs). Esses dNTPs possuem marcadores para cada base de DNA (ddA, ddC, ddT, ddG) e se incorporam a fita de DNA aleatoriamente à medida que a fita se estende.

Após a incorporação, quatro reações paralelas contendo cada base dNTP se iniciam gerando fragmentos de tamanhos diferentes que podem ser separados num gel de poliacrilamida e lidos utilizando raio X ou luz UV.

Sequenciamento sanger
(A) O Método de Sanger, onde após a síntese com os terminadores de cadeia as moléculas eram corridas e reveladas em um gel de poliacrilamida. (B) Automatização do método de Sanger, com a utilização de dNTPs marcados com fluorescência e detectados por um feixe de laser associado a um computador, que gerava a sequência final de nucleotídeos. Disponível em: https://www.researchgate.net/publication/320624547

Esse modelo de sequenciamento foi crucial para o desenvolvimento do projeto multimilionário conhecido como Projeto Genoma Humano, que tinha como objetivo sequenciar o DNA humano pela primeira vez.

A precisão, robustez e facilidade de uso dessa técnica, levaram o método de Sanger a se tornar a tecnologia mais comum usada para sequenciar DNA nos 30 anos seguintes. Com o passar do tempo esse processo foi se tornando automatizado e apesar de antigo, ainda é utilizado até hoje para sequenciamento de DNA de baixo rendimento.

Sequenciamento de Maxam-Gilbert

Conhecido como método de degradação química esse método consiste na quebra de nucleotídeos por produtos químicos. Essa reação separa o DNA em vários fragmentos com uma ou duas pares de bases (C, T + C, G, A + G). Esses fragmentos são marcados e separados por eletroforese em gel de poliacrilamida.

Técnica de sequenciamento Maxam-Gilbert, mostrando clivagem específica da estrutura do DNA, resultando em fragmentos de DNA marcados de tamanhos diferentes. Disponível em: https://www.researchgate.net/publication/335867452

Diferentemente do sequenciamento de Sanger, aqui o DNA não é clonado, há apenas a quebra dos fragmentos. Esse método não foi amplamente utilizado quanto o anterior por ser considerado perigoso por serem usados produtos químicos tóxicos e radioativos.

Sequenciamento de segunda geração

A partir de 2005, o sequenciamento automatizado de Sanger vai dando lugar a uma nova geração de sequenciadores construídos para quebrarem as limitações existentes na primeira geração. Entramos na era dos NSG (Next Generation Sequencing).

Algumas características diferenciam os sequenciadores de segunda geração:

  • Geração de milhões de leituras curtas em paralelo;
  • Processo mais rápido em comparação aos de primeira geração;
  • Baixo custo;
  • Não necessita de eletroforese;

Pirosequenciamento (Roche/454)

Esse método de sequenciamento marca o início da segunda geração de sequenciadores. Agora, o sequenciamento não seria mais feito a partir de dNTPs ou utilizando marcadores de rádio ou fluorescência e visualização em eletroforese.

Em vez disso, foi desenvolvido um método de detecção por emissão de luz a partir da liberação de um pirofosfato no momento em os nucleotídeos sequenciados são incorporados na molécula de DNA.

As amostras de DNA são fragmentadas aleatoriamente e cada um desses fragmentos são incorporados a uma espécie de grão contendo primers. Os primers são uma sequência de nucleotídeos necessários para que haja a replicação do DNA. Cada grão se liga a apenas um fragmento de DNA.

Em seguida, cada grânulo é isolado e amplificado usando emulsão PCR que produz cerca de um milhão de cópias de cada fragmento de DNA na superfície do grão.

Essa técnica de PCR é caracterizada por uma emulsão de água em uma fase oleosa, formando gotículas de óleo que contêm os reagentes de PCR (promove a amplificação do DNA), uma fita de DNA a ser sequenciado e um ponto de ancoragem (como os grãos).

Depois de amplificado, o DNA vai para o processo de detecção de luz. Para que a luz seja detectada o pirofosfato é transformado em ATP pela enzima ATP sufurilase. Depois, as moléculas de ATP geradas sofrerão uma reação pela enzima luciferase para liberação da luz.

Sequenciamento Roche 454: amplificação por PCR de emulsão seguida de pirosequenciamento. Disponível em https://link.springer.com/chapter/10.1007/978-981-10-6547-7_1

O pirosequenciamento quebrou paradigmas e trouxe um grande avanço para as tecnologias de sequenciamento pois possibilitou uma produção em massa de sequenciamento, além do aumento da quantidade de DNA que agora poderia ser sequenciado.

O Roche / 454 é capaz de gerar leituras relativamente longas que são mais fáceis de mapear para um genoma de referência. Os principais erros detectados de sequenciamento são inserções e deleções devido à presença de regiões onde a luz é mais intensa e difícil de ler, o contrário também é válido. As vezes não há emissão suficiente de luz.

Essa foi a primeira grande tecnologia comercial de “sequenciamento de próxima geração” (NGS) de grande sucesso.

varstation análises em ngs

Illumina/Solexa

O Illumina é a plataforma mais bem sucedida e o grande queridinho dos cientistas, dominando o mercado NGS a ponto de um quase monopólio.  

Nesse método amostras de DNA também são fragmentadas aleatoriamente, mas não ocorre a PCR de emulsão. Neste caso, adaptadores são ligados nas extremidades de cada fragmento e ligados aos seus adaptadores complementares numa placa de vidro.

Cada sequência presa à essa placa será amplificada por PCR criando os chamados clusters. Esses clusters contêm aproximadamente um milhão de cópias desse mesmo fragmento.

A última etapa vai determinar cada nucleotídeo nas sequências. Para isso, é feita uma solução com os quatro nucleotídeos modificados com marcadores de fluorescência, iniciadores de sequenciamento e DNA polimerase. Essa mistura é incorporada aos fragmentos

Os clusters são excitados por laser para emitir um sinal de luz específico para cada nucleotídeo. Essa luz será detectada por uma câmera e traduzida em sequências por programas de computador.

Sequenciamento Illumina
(a) Sequenciamento Illumina: amplificação de ponte seguida de sequenciamento por síntese. (b) Nucleotídeos modificados usados em Illumina. Disponível em: https://link.springer.com/chapter/10.1007/978-981-10-6547-7_1

A principal desvantagem dessa plataforma é a alta exigência no controle de amostra colocada no equipamento. Uma grande quantidade de material pode resultar em clusters que se sobrepõem diminuindo a qualidade do sequenciamento.

No geral sua taxa de erro é de cerca de 1%; causados principalmente por substituições de nucleotídeos devido à uma má identificação do nucleotídeo incorporado.

ABI/SOLiD

O processo ABI/SOLiD consiste em várias rodadas de sequenciamento:

  1. Primeiro são inseridos adaptadores nos fragmentos de DNA passam por uma emulsão de PCR.
  2. Depois são anexados em uma lâmina de vidro com uma etiqueta fluorescente no final.
  3. Essa etiqueta vai se ligar aos fragmentos de DNA e a cor emitida por cada nucleotídeo vai ser registrada.

O sequenciador repete este ciclo de ligação e a cada ciclo a fita complementar é removida e um novo ciclo de sequenciamento começa na posição n-1 do molde. O ciclo é repetido até que cada base seja sequenciada duas vezes.

A maior vantagem dessa plataforma é a alta precisão porque cada base é lida duas vezes, enquanto a desvantagem são as leituras relativamente curtas e os tempos de execução longos.

Os erros nesta tecnologia são devidos a produção de “ruídos” durante o ciclo de ligação e pode causar causa erro na identificação das bases. Assim como Illumina, o principal tipo de erro é a substituição.

A montagem do genoma pela plataforma SOLiD é mais desafiadora e complexa e não é capaz de produzir o comprimento de leitura e a profundidade das máquinas Illumina. Porém, se manteve competitiva no mercado devido ao seu custo base.

Ion Torrent

É a primeira tecnologia a ser considerada parte do sequenciamento “pós-luz”, pois não usa fluorescência ou luminescência. Tem um modo de sequenciamento similar ao Roche/454, mas no lugar do pirofosfato, são detectados íons H+ por uma diferença de pH causada pela liberação de prótons.

Ion Torrent
Sequenciamento Ion Torrent: O DNA é fragmentado e submetido à PCR de emulsão. Depois de amplificados, há a incorporação de dNTPs e liberação de prótons (H+) no íon chip. Disponível em: https://link.springer.com/chapter/10.1007/978-981-10-6547-7_1

Esta tecnologia permite um sequenciamento muito rápido embora seja menos capaz de interpretar prontamente sequências onde existem vários nucleotídeos iguais se incorporam no mesmo local (homopolímeros) pois isso torna o sinal difícil de ler.

O sequenciamento dessa plataforma é extremamente rápido, leva de 2 a 8 horas. Para termos uma noção da evolução das tecnologias ao longo do tempo, o genoma humano demorou 10 anos para ser sequenciado completamente pela primeira vez.

A principal desvantagem é a dificuldade de interpretar as sequências de homopolímero o que causa erro de inserção e exclusão com uma taxa de cerca de 1%.

Sequenciamentos de terceira geração

Existe uma discussão sobre o qual é o diferencial entre a segunda e terceira geração. Chegou-se num consenso (ou quase), que o que marca o início da terceira geração é o sequenciamento de molécula única (SMS) e o sequenciamento em tempo real.

Nas tecnologias de segunda geração as amostras passam pela etapa de amplificação de PCR, que é um procedimento longo no tempo de execução e caro no preço de sequenciamento. Além disso, genomas com áreas muito repetitivas (homopolímeros), são difíceis de ler por essas tecnologias.

A terceiras gerações de sequenciamento têm a capacidade de oferecer um baixo custo de sequenciamento pois não existe a necessidade de amplificação por PCR, por consequência o tempo de execução se torna significativamente menor.

PacBio

A Pacific Biosciences desenvolveu o primeiro sequenciador genômico usando a abordagem SMRT, a tecnologia de sequenciamento mais utilizada pela terceira geração.

A PacBio usa a mesma marcação fluorescente de outras tecnologias, porém os sinais são detectados em tempo real à medida que está sendo feita as incorporações do nucleotídeo.

Isso é possível devido a estrutura composta por muitas células SMRT, as nanoestruturas microfabricadas (ZMWs) em um filme de metal que, por sua vez, é depositado em um substrato de vidro. Cada nanoestrutura contém uma DNA polimerase anexada à sua parte inferior e o fragmento de DNA alvo para sequenciamento.

Quando o DNA se incorpora aos nucleotídeos marcados por fluorescência ele libera um sinal luminoso captado por sensores, tornando possível determinar a sua sequência.

Em comparação às plataformas de segunda geração, as principais vantagems da PacBio são:

  • Rápida preparação de amostras;
  • Leitura de sequências maiores e mais complexas.

Contudo, essa tecnologia ainda possui uma alta taxa de erro (cerca de 13%) principalmente causadas por erros de inserção e deleção. Esses erros são distribuídos aleatoriamente ao longo das sequências.

MinION

Em 2014, Oxford Nanopore Technologies lançou o dispositivo MinION que promete gerar leituras longas que garantem uma melhor em locais de conteúdo repetido.

Nesta tecnologia de sequenciamento, a primeira fita de uma molécula de DNA é ligada por um grampo a sua fita complementar. O fragmento de DNA passa por um nanoporo e sofre uma variação de corrente iônica causada pela ligação de vários nucleotídeos no mesmo poro.

Esta variação da corrente iônica é registrada progressivamente em um modelo gráfico e então interpretada para identificar a sequência gerando leituras 1D ou 2D quando são lidas uma ou duas fitas de DNA (foward e reverse) respectivamente.

As principais vantagens são o custo baixo e tamanho reduzido. Os dados são exibidos na tela em tempo real e fornece leituras longas. No entanto, também possui uma alta taxa de erro (cerca de 12%) causadas por incompatibilidades, inserções ou deleções.

O futuro do sequenciamento

O sequenciamento clássico de DNA evoluiu de uma abordagem de baixo rendimento, quase “artesanal” para plataformas altamente tecnológicas e de alto rendimento.

Com o passar do tempo, os pesquisadores foram migrando do laboratório para o computador e dos géis de eletroforese para execução de códigos, aprofundando-se cada vez mais no mundo da bioinformática.

Com o sequenciamento completo do genoma humano, os cientistas esperavam obter a resposta para a vida, mas na verdade o conhecimento do código genético gerou apenas mais perguntas, gerando um grande salto na biologia molecular e iniciando a era das ômicas.

Agora é possível explorar uma série de processos biológicos importantes, incluindo:

  • expressão gênica;
  • caracterização de populações mistas complexas de organismos;
  • detecção de proteínas ligação;
  • definição dos locais de metilação do genoma.

É possível ver esses dados em estudo de câncer, doenças autoimunes, e diversas outras doenças. Não podemos nos esquecer também que o sequenciamento teve papel fundamental no combate ao coronavírus.

 À medida que essas tecnologias vêm evoluindo exponencialmente e gerando dados mais complexos, as perguntas também ficaram mais complexas e profundas.

Conclusão

Você sabia que, desde 2015, a Varsomics já processou mais de 4.000 genomas? Toda essa quantidade se deve às tecnologias de sequenciamento empregadas. Para recapitular, os tipos de sequenciamentos até hoje são:

  1. Sanger;
  2. Maxam-Gilbert;
  3. Pirosequenciamento;
  4. Illumina/Solexa;
  5. ABi/Solid;
  6. Ion Torrent;
  7. PacBio;
  8. MinIon.

E os próximos que virão nos anos seguintes. A tecnologia de sequenciamento não para de crescer, e estamos em meio a uma nova era da medicina genômica.

varstation análises em ngs

Sobre o autor

Iasmin Moreira é graduanda em Biotecnologia pela Universidade Federal da Bahia. Atualmente, é bolsista CNPq de Iniciação Científica, desenvolve análises genômicas para estudo do Transtorno do Espectro Autista. Também é membro da empresa júnior de Informática Biomédica da Universidade de São Paulo.

Referências

  • Chandran, A. (2018). Overview of Next-Generation Sequencing Technologies and Its Application in Chemical Biology. https://doi.org/10.1007/978-981-10-6547-7_1
  • Heather, J. M., & Chain, B. (2016). The sequence of sequencers: The history of sequencing DNA. Genomics, 107(1), 1–8. https://doi.org/10.1016/j.ygeno.2015.11.003
  • Kchouk, M., Gibrat, J. F., & Elloumi, M. (2017). Generations of Sequencing Technologies: From First to Next Generation. Biology and Medicine, 09(03). https://doi.org/10.4172/0974-8369.1000395
  • Mardis, E. R. (2011). A decade’s perspective on DNA sequencing technology. Nature, 470(7333), 198–203. https://doi.org/10.1038/nature09796
  • Thompson, J. F., & Milos, P. M. (2011). Single-molecule sequencing technologies.
  • Turchetto-Zolet, Andreia & Turchetto, Caroline & Guzman, Frank & Silva, Gustavo Adolfo & Sperb Ludwig, Fernanda & Vetö, Nicole. (2017). Capítulo 8 Polimorfismo de Nucleotídeo único (SNP): metodologias de identificação, análise e aplicações.
  • Shetty, Preetha & Amirtharaj, Francis & Shaik, Noor. (2019). Introduction to Nucleic Acid Sequencing. 10.1007/978-3-030-02634-9_6.
Relacionados