Montagem de genomas: conceito e aplicabilidade na prática

Entenda a montagem de genomas da teoria à prática, seus desafios e Softwares que estão revolucionando o estudo da Genômica!

O genoma consiste na informação genética completa de determinado organismo. Para determinar com precisão as sequências de ácidos nucleicos que armazenam as informações biológicas desse organismo, tecnologias foram desenvolvidas progressivamente e vêm se destacando pela sua precisão, rendimento e velocidade.

Porém, até os dias de hoje, não foi possível desenvolver uma tecnologia que seja capaz de ler um genoma completo de uma só vez. Na verdade, o que temos no sequenciamento é a leitura de milhares ou até milhões de fragmentos de DNA, que necessitam ser ordenados até o nível de cromossomo. Este processo de ordenar os fragmentos é chamado de Montagem de genomas, e é sobre ela que vamos conversar nesse texto. Vamos juntos!

O que é o processo de montagem de genomas?

Os sequenciadores, geram fragmentos de sequências conhecidas como reads (leituras). Uma sequência completa deve ser deduzida a partir da sobreposição desses fragmentos mais curtos, no processo definido como montagem de genomas.

Imagine então, que você tenha em suas mãos um quebra cabeça gigante com milhões de peças. Montar um genoma inteiro representa colocar em ordem todas essas peças no lugar.

Em termos históricos, principalmente devido a restrições de tempo e custo, apenas um indivíduo de cada espécie foi abordado. Sua sequência geralmente representa um genoma de “referência” para a sua espécie, e montagens subsequentes vão se basear nessa referência.

Também é possível fazer a montagem de novo. Apesar do nome, montagem de novo significa montar um genoma pela primeira vez, sem a existência de uma referência como base.

Marcos na montagem do genoma. Linha do tempo que ilustra muitas das principais conquistas da montagem do genoma, desde o início da era do sequenciamento até os projetos de genoma em larga escala atualmente em andamento. Cada genoma ou projeto de genoma (GP) é colocado sob um fundo codificado por cores de acordo com a abordagem de sequenciamento adotada. Vermelho: métodos de sequenciamento iniciais; Amarelo: sequenciamento shotgun baseado em Sanger; Verde: NGS; Azul: TGS.

A partir de 2010, novas tecnologias deram início a era do Sequenciamento de Terceira Geração (TGS). A definição de TGS pode variar, mas geralmente é dada a tecnologias capazes de sequenciar moléculas únicas de DNA sem amplificação. Hoje em dia, essas tecnologias permitem produzir leituras muito mais longas que NGS. 

No contexto da montagem do genomas, a disponibilidade de leituras longas constitui uma grande vantagem, pois a dificuldade de detectar sobreposições entre leituras curtas de NGS, reduz a capacidade de gerar sequências de consenso contínuas longas, impactando na qualidade geral das montagens. 

Mesmo com o advento das TGS, a montagem de leituras de tecnologias de sequenciamento de alto rendimento ainda é um procedimento desafiador, tanto teórico quanto prático, especialmente para genomas grandes.

Como montar um genoma?

Vamos considerar aqui as leituras curtas geradas no NGS. Para uma montagem de novo, existe uma estratégia básica para montagem de genomas que se divide no pré-processamento, e mais 3 etapas:

montagem de genomas
Fluxo de trabalho geral da montagem de novo de um genoma inteiro. Disponível em: < https://doi.org/10.1093/bib/bbw096>

Pela sobreposição de leituras, os contigs são montados a partir de leituras curtas antes do scaffolding por leituras de inserção grande, e as lacunas restantes são preenchidas. As etapas de andaime e preenchimento de lacunas podem ser executadas interativamente até que nenhum contig seja montado, ou nenhuma lacuna adicional seja resolvida antes da conclusão.

Controle de qualidade na montagem de genomas

É uma das etapas mais importantes da montagem. Os sequenciadores modernos podem gerar centenas de milhões de sequências em uma única execução. 

Porém, antes de analisar esta sequência para tirar conclusões biológicas, é necessário realizar verificações simples de controle de qualidade para assegurar bons dados brutos, garantindo um genoma de qualidade.

O FastQC é o principal software de bioinformática utilizado para visualizar a qualidade das suas sequências, e gerar um relatório. Ele pode ser executado em dois modos:

  • Como um aplicativo interativo autônomo para a análise imediata de um pequeno número de arquivos FastQ.
  •  Em um modo não interativo, onde seria adequado para integração em um pipeline de análise maior para o processamento sistemático de grandes números de arquivos.

Este programa pode ser instalado diretamente em um terminal: 

sudo install fastqc

No Linux existe um script wrapper, chamado “fastqc”, que é a maneira mais fácil de iniciar o programa. O wrapper está no nível superior da instalação do FastQC. Você pode precisar tornar este arquivo executável:

chmod 755 fastqc

Depois de ter feito isso, você pode executá-lo diretamente

./fastqc

Ou coloque um link em /user/local/bin para poder rodar o programa de qualquer lugar:

sudo ln -s /path/to/FastQC/fastqc /usr/local/bin/fastqc

No final, teremos um resultado similar ao da imagem abaixo:

FastQC montagem de genomas
Relatório gerado pelo FastQC Disponível em: <https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

Um outro programa importante nessa etapa é o Trimmomatic. Ele inclui uma variedade de ferramentas que nos possibilita remover leituras com baixa qualidade, remover bases com baixa qualidade das extremidades das leituras, bem como sequências de adaptadores / primers.

Para instalar o Trimmomatic:

sudo apt install trimmomatic

Configuração geral do corte de qualidade suave e o corte do adaptador (paired end):

java -jar trimmomatic-0.39.jar PE input_forward.fq.gz input_reverse.fq.gz output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10:2:True LEADING:3 TRAILING:3 MINLEN:36

Apenas para referência (menos sensível para adaptadores):

java -jar trimmomatic-0.35.jar PE -phred33 input_forward.fq.gz input_reverse.fq.gz output_forward_paired.fq.gz output_forward_unpaired.fq.gz output_reverse_paired.fq.gz output_reverse_unpaired.fq.gz ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

O que acontecerá quando rodarmos esses comandos?

  • Remoção de adaptadores (ILLUMINACLIP:TruSeq3-PE.fa:2:30:10)
  • Remoção de bases principais de baixa qualidade ou N (abaixo de qualidade 3) (LEADING:3)
  • Remoção das bases finais de baixa qualidade ou N (abaixo de qualidade 3) (TRAILING:3)
  • Janela deslizante de 4 bases, cortando quando a qualidade média por base quando abaixo de 15 (SLIDINGWINDOW:4:15)
  • Corte e deleção de sequencias com menos de 36 bases de comprimento (MINLEN:36)

Para single end:

java -jar trimmomatic-0.35.jar SE -phred33 input.fq.gz output.fq.gz ILLUMINACLIP:TruSeq3-SE:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

Montagem de contigs

Na etapa de montagem do contig, as leituras são montadas como longas sequências sem lacunas. A principal abordagem para a construção dos contigs é a utilização do grafo de Bruijn.

Um grafo é um conjunto de vértices, interconectados dois a dois por arestas. O grafo de Brujin representa sobreposições entre sequências com graus iguais ou semelhantes, e graus de saída em cada nó, no qual as sequências sobrepostas são representadas com um k-mer.

O k-mer nada mais é que uma sequência de k caracteres em uma string (ou nucleotídeos em uma sequência de DNA). Para obter todos os k-mers de uma sequência, você precisa obter os primeiros k caracteres, depois mover apenas um único caractere para o início do próximo k-mer e assim por diante. Efetivamente, isso criará sequências que se sobrepõem nas posições k-1.

Uma vez que o grafo de Bruijn é construído, o caminho ótimo é identificado no grafo. Os contigs são obtidos pela transformação inversa do caminho ótimo no gráfico de Bruijn em sequências, de forma que possamos encontrar o menor conjunto de caminhos independentes.

Gráfico de Bruijn
(A) Na abordagem do gráfico de Bruijn, as leituras curtas são divididas em k-mers curtos antes que os gráficos de Bruijn sejam construídos. (B) Na abordagem Hamiltoniana, os k-mers (ou sequências) são os nós, enquanto na abordagem Euleriana são as arestas. Os k-mers são conectados aos vizinhos por sobreposição de prefixo e sufixo (k-1)-mers. Disponível em: < https://doi.org/10.1093/bib/bbw096>

Um dos softwares utilizados para realizar a montagem de contigs, tendo como base o gráfico de Brujin, é o Velvet. Ele é capaz de formar contigs longos (n50 de mais de 150kb) a partir de leituras curtas de extremidades emparelhadas. 

O Velvet possui vários parâmetros de entrada para controlar a estrutura do gráfico de Bruijn e estes devem ser configurados de forma otimizada para obter a melhor montagem possível. Ele pode ler arquivos Fasta, FastQ, sam ou bam. No entanto, ele ignora qualquer pontuação de qualidade e simplesmente confia na profundidade do sequenciamento para resolver erros. O software Velvet Optimizer executa muitas montagens Velvet com vários conjuntos de parâmetros e procura a montagem ideal automaticamente.

Instalando o Velvet:

wget https://www.ebi.ac.uk/~zerbino/velvet/velvet_1.2.10.tgz

tar -xvzf velvet_1.2.10.tgz

Definindo parâmetros (k-mers até 127):

cd velvet_1.2.10

make ‘MAXKMERLENGTH=127’

export PATH=${PWD}:$PATH

cd contrib/estimate-exp_cov/

export PATH=${PWD}:$PATH

Baixando reads:

cd

mdir assembly_module

cd assembly_module

mkdir data

cd data

wget 

(endereço da sequência R1).fastq

wget 

(endereço da sequência R2).fastq

Construindo o arquivo Velvet:

cd 

mkdir velvet

cd velvet

Montagem:

velveth ASM_NAME VALUE_OF_K \  

-short -separate -fastq \  

/sequenciaR1.fastq \  

/sequenciaR2.fastq  

Scaffolding e Preenchimento de Lacunas

O scaffold consiste numa sequência de DNA contendo vários contigs na ordem e orientação corretas, com lacunas entre eles. Uma vez montados, podem existir lacunas entre os contos quando não há sobreposição entre eles.  

As lacunas são cuidadosamente preenchidas usando outras leituras independentes (scaffolding) para concluir a montagem. As etapas de scaffold e preenchimento de lacunas podem ser executadas iterativamente para melhorar a qualidade da montagem, até que nenhum contig seja montado ou nenhuma lacuna adicional seja resolvida.

Existem marcadores genéticos centrais que fornecem um método de atribuir contigs a grupos de ligação (os cromossomos). A partir desses marcadores vamos conseguir ordenar os contigs. 

Como fazemos isso?

Alinhamos as sequências de primers dos marcadores genéticos presentes no mapa genético para montagem, e em seguida ordenamos os scaffolds com base nas localizações desses marcadores. 

Essas tarefas podem ser executadas com scripts próprios, mas existem alguns softwares como o Chromonomer (http://catchenlab.life.illinois.edu/chromonomer), que podem automatizar o processo.

De acordo com o site, Chromonomer é “um programa projetado para integrar um conjunto de genoma com um mapa genético.” O software identifica e remove marcadores que estão fora de ordem no mapa genético, e identifica scaffolds que foram montados incorretamente.

 Chromonomer montagem de genomas
Visualização do Chromonomer integrando um mapa genético e montagem do genoma (lado esquerdo, antes, lado direito, depois). Disponível em: <http://catchenlab.life.illinois.edu/chromonomer/>

Para usar o software, você precisa de:

  • Um arquivo AGP descrevendo um conjunto de genoma.

Contém o padrão de contigs e lacunas que compõem cada scaffold em uma montagem. Este arquivo pode ser baixado de um banco de dados online, ou produzido pelo seu software de montagem.

  • Um arquivo separado por tabulações descrevendo todas as posições dos marcadores em seu mapa genético.

Esse arquivo é gerado pelo software de mapeamento de ligação genética, como JoinMap, OneMap ou r/QTL. 

  • Um arquivo SAM ou BAM contendo os alinhamentos de marcadores para o genoma montado.

A sequência de consenso para cada marcador é alinhada ao genoma usando qualquer alinhador.

Desafios na montagem de genomas

A montagem de genomas pode ser problemática e exige a superação de muitos desafios computacionais dentro de um fluxo de trabalho. Imagine que estamos pegando um livro (amostra biológica), triturando-o (sequenciamento, e consequentemente a fragmentação do DNA), e depois precisamos montar todos esses fragmentos na ordem correta.

O primeiro desafio é a correção de erros do sequenciamento. Sem um bom resultado de sequenciamento, os erros presentes podem impedir a formação de contigs e scaffolds. Cada sequenciador possui sua taxa de erro, que varia de acordo com a plataforma e o método de preparação da biblioteca. 

Os erros de sequenciamento ocorrem com mais frequência em regiões com um conteúdo extremamente alto de GC ou AT, como regiões de heterocromatina constantes, incluindo centrômeros, telômeros ou sequências altamente repetitivas, o que pode gerar um gráfico de montagem complexo.

Um outro desafio é uma amplificação irregular do DNA, produzindo muitas cópias de um fragmento, e menos ou nenhuma cópia de outro fragmento. Isso geralmente causa quebras na montagem, resultando na introdução de lacunas. O uso de um k ótimo pode ser necessário para resolver esse problema.

Portanto, os erros de sequenciamento devem ser corrigidos para uma montagem de novo mais precisa e contígua antes ou durante a montagem.

Além disso, a complexidade do genoma causa outros desafios na montagem de novo. Por exemplo, aproximadamente 50% do genoma humano compreende elementos repetidos não aleatórios, como elementos nucleares intercalados longos (LINEs), elementos nucleares intercalados curtos (SINEs), repetições terminais longas (LTRs) e repetições em tandem simples (STRs).

Essas estruturas muitas vezes causam desajustes ou lacunas na montagem. Essas sequências repetidas também causam uma profundidade de leitura não uniforme, resultando em perda ou ganho de cópia na montagem.

Enquanto não é desenvolvida uma tecnologia que sequencie o DNA completamente, são necessárias essas e outras diversas ferramentas para montar o quebra-cabeça.

Apesar de ser extremamente desafiador, a montagem de genomas é essencial para diversas áreas da ciência.

Sobre a autora:

Iasmin Moreira é graduanda em Biotecnologia pela Universidade Federal da Bahia. Atualmente, é bolsista CNPq de Iniciação Científica, desenvolve análises genômicas para estudo do Transtorno do Espectro Autista. Também é membro da empresa júnior de Informática Biomédica da Universidade de São Paulo.

Referências

  • GIANI, Alice Maria et al. Long walk to genomics: History and current approaches to genome sequencing and assembly. Computational and Structural Biotechnology Journal, v. 18, p. 9-19, 2020.
  • SEPPEY, Mathieu; MANNI, Mosè; ZDOBNOV, Evgeny M. BUSCO: assessing genome assembly and annotation completeness. In: Gene prediction. Humana, New York, NY, 2019. p. 227-245.
  • . SOHN, Jang-il; NAM, Jin-Wu. The present and future of de novo whole-genome assembly. Briefings in bioinformatics, v. 19, n. 1, p. 23-40, 2018.
  • RICE, Edward S.; GREEN, Richard E. New approaches for genome assembly and scaffolding. Annual review of animal biosciences, v. 7, p. 17-40, 2019.
  • BOLGER, Anthony M.; LOHSE, Marc; USADEL, Bjoern. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics, v. 30, n. 15, p. 2114-2120, 2014.

Relacionados