Cobertura de Sequenciamento Horizontal x Vertical: Diferenças

A cobertura de sequenciamento Horizontal e Vertical é uma métrica que avalia se a análise de sequenciamento foi concluída com sucesso. Entenda a diferença!

No sequenciamento genômico, diversas métricas são utilizadas para mensurar a qualidade do processo e dos dados gerados, como uniformidade, qualidade do mapeamento, cobertura dos alvos e diversos outros tipos de coberturas de sequenciamento.

A cobertura de sequenciamento é, geralmente, a primeira métrica a ser avaliada para estabelecer se uma análise de sequenciamento foi concluída com sucesso.

Para entendermos o que são os diferentes tipos de cobertura, precisamos antes entender como o sequenciamento genético funciona.

Etapas do sequenciamento de Shotgun

Existem hoje diferentes tecnologias de sequenciamento, sendo a tecnologia de shotgun uma das mais popularizadas em análises de Sequenciamento de Nova Geração (NGS), devido ao custo benefício na geração de dados em larga escala.

A lógica do sequenciamento shotgun é quebrar em pequenos fragmentos o material genético a ser sequenciado, podendo ser:

  • O genoma completo, conhecido como WGS (Whole Genome Sequencing);
  • O exoma completo, conhecido como WES (Whole Exome Sequencing);
  • Ou um painel de determinados genes.

Esta quebra é necessária, devido às características das tecnologias atuais, como por exemplo da Illumina, que é baseada no sequenciamento por síntese usando amplificações de pontes.

Esse método gera clusters (agrupamentos) de cópias de cada fragmento, que emitem sinais relacionados à incorporação de cada nucleotídeo específico, a cada ciclo do sequenciamento. 

Caso esse processo ocorra com fragmentos muito grandes, a possibilidade de mutações que tornam as cópias desses clusters diferentes, e consequentemente aumente o ruído nos sinais gerados, aumenta, o que inviabilizaria a corrida do sequenciamento.

Sendo assim, temos três etapas principais ao trabalhar com sequenciamento shotgun:

  • Fragmentação;
  • Sequenciamento;
  • Análises computacionais.
Sequenciamento shotgun

Fragmentação

Após a extração do material genético de uma amostra e das demais etapas de preparação inicial de uma biblioteca, é normal se obter trechos de material genético mais longos que o tamanho aceito para o sequenciamento shotgun.

Dessa forma, é necessário realizar uma etapa de quebra dessas sequências de material genético, essa etapa é conhecida como fragmentação, e pode ocorrer de duas formas: física e enzimática.

A fragmentação física é realizada por um processo conhecido como a aplicação de força de cisalhamento (shear force em Inglês), que causa a ruptura das ligações covalentes do DNA. 

Dessa forma, quando as duas fitas do DNA estão separadas, o DNA é quebrado em pequenos fragmentos. Os métodos mais comuns empregados na fragmentação física, são a nebulização e a sonificação.

O segundo método que pode ser utilizado para a fragmentação do DNA é a fragmentação enzimática, o qual é baseado no uso de enzimas conhecidas como endonucleases, que tem como função quebrar o material genético.

Sequenciamento

Após a fragmentação, podemos dar início ao processo de sequenciamento, para isso, adicionamos pequenas sequências aos fragmentos de DNA, conhecidas como adaptadores.

Estes adaptadores servem tanto para acoplar os fragmentos à célula de fluxo do sequenciador, quanto para fazer a relação de dados gerados no sequenciamento com as amostras que foram sequenciadas.

Apesar de ter duas abordagens principais de sequenciamento: 

  • a single-end que adiciona um adaptador apenas a uma extremidade do fragmento, e 
  • a paired-end que adiciona adaptadores às duas extremidades.

A paired-end tem sido mais utilizada em medicina de precisão, devido ao aumento da confiabilidade ao sequenciar o mesmo fragmento duas vezes.

Análises computacionais

As análises computacionais englobam uma série de métodos, desde o controle de qualidade, até o mapeamento de informações e chamadas de variantes, a fim de entender o que os dados de sequenciamento significam.

Uma das etapas cruciais ao se utilizar dados de sequenciamento na medicina de precisão, é mapear esses dados contra um genoma humano de referência, é uma forma de reordenar todos os fragmentos gerados, de modo a entendermos o quanto do nosso alvo foi sequenciado (WGS, WES, Painel), e quantas vezes, são os nossos tipos de coberturas do sequenciamento.

Tipos de cobertura de sequenciamento

Temos então dois tipos principais de cobertura, uma que diz respeito ao quanto do material genético alvo foi sequenciado, a cobertura horizontal, e quantas vezes, em média, cada nucleotídeo do nosso alvo foi sequenciado, a cobertura vertical.

Cobertura de Sequenciamento Vertical

A cobertura vertical é conhecida também como profundidade ou, em Inglês, coverage depth, e é expressa em valores inteiros ou separados por vírgula, podendo chegar a mais de 100.

Ela representa a média de quantas leituras sequenciadas (reads) suportam cada um dos nucleotídeos sequenciados do nosso alvo.

Na figura, em exemplo, temos uma região alvo de 9.350 bases, onde diferentes regiões geraram, na etapa de sequenciamento, diferentes números de reads, o que reflete diferentes profundidades por região.

A cobertura vertical, será então, uma média de todas essas profundidades locais, como no exemplo da figura, 158,39. Ou seja, em média, 158 reads suportam cada nucleotídeo sequenciado. 

Cobertura de sequenciamento: cobertura vertical
Adaptado de: @bio_info101

Cobertura de Sequenciamento Horizontal

A cobertura horizontal, conhecida também apenas como cobertura, ou em Inglês como coverage breadth, faz referência a quantos nucleotídeos do nosso alvo, conseguimos sequenciar.

Esse valor é medido em porcentagem, tendo como limite o valor 100, quando sequenciamos todos os nucleotídeos da região alvo. Considerando uma região alvo de 10.000 nucleotídeos, caso realizássemos o sequenciamento de 9.350 nucleotídeos, obtemos uma cobertura horizontal de 93,5%.

Cobertura de sequenciamento: cobertura horizontal
Adaptado de bio_info101

Conclusão

Cobertura horizontal e vertical são métricas importantes ao avaliar os resultados de sequenciamento, principalmente quando tratamos de sequenciamento shotgun, devido aos processos de fragmentação e sequenciamento por síntese.

Entender como estimular essas métricas, e como elas podem impactar nos seus resultados é essencial. A Varsomics conta com uma linha de produtos, como o Varstation e o Varsmetagen, que disponibilizam estas e outras métricas de maneira automatizada e intuitiva, solicite aqui um período de testes em nossas plataformas!

Referências

Commins, J., Toft, C., Fares, M. A. – “Computational Biology Methods and Their Application to the Comparative Genomics of Endocellular Symbiotic Bacteria of Insects.”

Illumina Sequencing Technology- “Highest data accuracy, simple workflow, and a broad range of applications”.

Thermofisher: “DNA fragmentation strategies for next-generation sequencing library preparation”

Relacionados