Índice
Quando lemos sobre medicina de precisão e melhoramento genético é comum ouvirmos o termo “sequenciamento de genoma”. O sequenciamento de genoma é, resumidamente, descobrir quais são os nucleotídeos que compõe todo o material genético de uma espécie.
Após sequenciado, é necessário organizar os fragmentos de nucleotídeo, em um processo chamado de montagem de genoma, que quando realizada pela primeira vez é chamado de montagem de novo.
Neste texto vamos entender o que é a montagem de novo e como o processo é realizado.
Para que realizar a montagem “de novo“?
Montagem de novo significa montar um genoma pela primeira vez, ou seja, sem um genoma de referência.
Analisar o genoma de uma espécie é a etapa essencial para diferentes aplicações, como entender a origem de doenças raras, os mecanismos de desenvolvimento de diferentes cânceres ou elucidar a genética e evolução de patógenos, como tem ocorrido com SARS-CoV-2, por exemplo.
Com o desenvolvimento das tecnologias e das ferramentas de bioinformática, nas últimas duas décadas, foram gerados uma coletânea de genomas de referência.
Genomas de referência são uma série de arquivos computacionais que servem para guiar o processo de reconstrução digital de um genoma a partir de um guia, conhecido como montagem por referência.
Porém, para algumas espécies, não existe um genoma de referência, é neste momento que entra o processo conhecido como montagem de novo.
Como funciona a montagem de novo do genoma
Vamos pensar no genoma de uma espécie como um manual de instruções. Os genes, seriam parágrafos, ou seja, instruções para alguma informação, como a cor do olho, o tom da pele, ou sua propensão a gostar, ou não, de brócolis.
Algumas características são formadas por mais de um gene, e alguns genes ainda tem sua função desconhecida, é bom deixar isso claro.
Alguns genes (parágrafos) estão dispostos no manual, logo antes ou depois de outros genes, porém, em alguns casos, temos longos trechos repetitivos que podem ser desconhecidos, ou ter uma função já descrita.
Assim como nos manuais físicos, é comum organizarmos a estrutura dos parágrafos em capítulos, na nossa analogia biológica, os capítulos seriam os cromossomos, e o conjunto de todos os capítulos, nosso genoma.
Pode parecer estranho falar de um genoma como um livro, mas a representação literal de um genoma em dados computacionais, são extensos arquivos de A, T, C, G, as 4 letras que representam nosso DNA.
Para conseguirmos obter todas as 4 letrinhas que compõem nosso genoma, usamos uma técnica nas análises laboratoriais conhecida como Shotgun Sequencing.
Como a técnica de shotgun sequencing funciona?
- Quebrar todo o genoma em pequenos fragmentos
O material genético é fragmentado em curtas sequencias de nucleotídeo de aproximadamente 200 pb
- Realizar o sequenciamento
Identificação de cada base em uma molécula de DNA — desses pequenos fragmentos.
- Montagem dos fragmentos em longas sequências
Através de ferramentas de bioinformática, é feita a união desses pequenos fragmentos, com o objetivo de obter uma longa sequência (conhecida como Scaffold) para cada cromossomo.

Voltando para nossa analogia do manual, é como se para obter o manual completo de um organismos, precisássemos:
- Recortar todo o manual biológico do organismo (Shotgun),
- Realizar a escrita desses pequenos recortes (Sequencing) e
- Remontar o manual de forma computacional (Montagem de novo).
Dessa forma, precisamos seguir uma série de etapas a fim de obter nossa versão digital do manual de instruções do organismo alvo, ou seja, o seu Genoma.
Nas últimas décadas presenciamos tanto os campos das ciências biológicas, como a mensuração de regiões repetitivas de um genoma, ou a presença de genes advindos de outros organismos por eventos de Transferência Horizontal Gênica, quanto avanços nas tecnologias de sequenciamento.
A geração de reads ultralongos, as diferentes formas de obtenção da amostra a ser sequenciada (individual ou ambiental), bem como a natureza biológica do genoma (repetições, heterozigosidade, ploidia e conteúdo-gc) podem influenciar algumas etapas da montagem de novo.
Processo de montagem de novo: passo a passo
Vamos entender as quatro principais etapas de uma montagem genômica de novo, e os cuidados que devemos tomar ao presenciar diferentes situações. Os passos seguintes são focando na tecnologia de sequenciamento de short reads com illumina.
Vale lembrar que o ideal antes de qualquer análise de bioinformática é revisar os prós e os contras de cada ferramenta e escolher um conjunto de ferramentas baseadas em critérios técnicos, para sua análise.
Passo 1: Tratamento dos Dados
Independente do kit de sequenciamento utilizado, sempre serão necessárias análises iniciais de tratamento dos dados, seja para entender a qualidade das sequências, remover artefatos do sequenciamento ou filtrar reads de um grupo taxonômico alvo.
Avaliação de qualidade
Algumas técnicas de WGS envolvem a adição de primers de PCR (amplicon sequencing) ou de indexes (sequenciamento illumina) nas leituras a serem sequenciadas.
Além disso, cada base sequenciada possui um valor de qualidade associado (que reflete a probabilidade da base ter sido sequenciada corretamente) e algumas leituras podem ficar mais curtas que o tamanho esperado.
A ferramenta FastQC é a mais tradicional e generalista, porém a ferramenta fastp, tem ganhado espaço devido sua velocidade de processamento e sua versatilidade.
Processamento dos reads
Após a avaliação de qualidade, é comum realizarmos o processamento dos reads, uma etapa que antigamente ficou conhecida como “Trimagem”, expressão advinda da palavra trim, do Inglês “aparar”.
Aparar os reads é um dos passos do processamento de reads. Nessa etapa, regiões dos reads são removidos, baseados em:
- Índices remanescentes da construção de bibliotecas,
- Remoção de primers de PCR em estratégias de amplicon sequencing
- Remoção das extremidades dos reads baseadas em critérios de janelas de qualidade
- Aparagem fixa de N bases, conforme critério do usuário.
Além da aparagem, a remoção de reads curtos, reads com uma baixa qualidade média também pode ser realizada em dados de short-reads.
Ferramentas comuns para esses processamentos são Tripomatic e fastp. Sim, o fastp engloba avaliação de qualidade (pré e pós processamento) bem como o processamento dos reads.
Filtragem dos reads
Diferentes tipos de análises podem criar a necessidade de diferentes filtros dos reads. Por exemplo, se estamos investigando presença de patógenos em humanos, como vírus ou bactérias, é comum utilizarmos reads que não são humanos nas análises subsequentes. Isto pode ser feito mapeando os reads processados contra o genoma humano, e seguir com as análises subsequentes apenas com os reads não humanos.
Além disso, se trabalharmos com depósito desses reads em bancos biológicos, é crucial remover reads humanos dos arquivos a serem depositados, de forma a proteger os dados do paciente. Essa análise pode ser feita com mapeadores tradicionais, como Bowtie2 e BWA.
Além de amostras humanas, podemos estar trabalhando com amostras ambientais em análises de metagenômica, visando separar os reads em grupos taxonômicos, como por exemplo: bactérias, vírus, eucariotos, podemos usar a ferramenta Kraken 2.
Passo 2: Montagem de novo
O processo de montagem de novo propriamente dito pode ser feito com diferentes ferramentas. A abordagem mais utilizada atualmente é baseada em Grafos de Bruijn.
Um algoritmo baseado na quebra dos reads em pequenos fragmentos, conhecidos como mers, de tamanho k (originando o termo k-mer), criação de caminhos de ligação entre todos os k-mers gerados e obtenção das sequências consensos através dos menores caminhos, de forma a evitar alguns eventos como formação de bolhas ou caminhos sem saída.
Diferentes estudos demonstram que diferentes ferramentas podem gerar montagens de maior qualidade (avaliando diferentes métricas), com base na natureza do genoma e também nos tipos de dados utilizados.
Algumas ferramentas que podem ser utilizadas para montagem de novo a partir de reads illumina são: ABySS, Velvet, SOAPdenovo e Spades. Cada uma dessas ferramentas possui versões alternativas, que podem ser usadas em contextos diferentes, como Meta Spades para análises metagenômicas, por exemplo.
Além disso, caso tenhamos acesso a long-reads além dos short-reads, podemos realizar uma análise conhecida como montagem híbrida, que faz uso dos dois conjuntos de reads para resolver regiões repetitivas do genoma.
Passo 3: Métricas da Montagem
Após o processo de montagem precisamos entender a qualidade do genoma que obtivemos, ou seja, o quão próximo nossos dados computacionais estão da realidade, ou seja, do genoma do organismo.
Contiguidade
Em um mundo ideal, ao final do processo de montagem devemos obter um número de scaffolds (estrutura que representa a sobreposição de todas as sequências montadas) igual ao número de cromossomos do organismo.
No caso do genoma humano, 23 scaffolds, pois consideramos haploidia no processo de montagem. Porém, com exceção da versão T2T (Telômero à Telômero), as demais versões de genomas humanos possuem mais de 23 scaffolds.
Isso ocorreu devido a limitações de técnicas experimentais e computacionais, bem como à regiões repetitivas do genoma humano, que dificultavam a obtenção de scaffolds contínuos, cobrindo de ponta a ponta de cada cromossomo.
Então, quando não estamos trabalhando com projetos T2T, é normal avaliarmos métricas de contiguidade para entender a qualidade da nossa montagem.
Entre essas métricas, temos o tamanho total da montagem (o tamanho gerado é similar ao tamanho esperado do genoma?); o N50, que é o tamanho do menor scaffold em um conjunto dos maiores scaffolds que representam 50% do tamanho total da montagem; e o L50, ou seja, quantos scaffolds compõem o N50?
Por via de regra, quanto maior o N50, menor o L50 e mais próximo o tamanho da montagem quando comparamos com o tamanho esperado, melhor a qualidade da nossa montagem.
Completude
Completude é uma métrica que auxilia a contiguidade ao avaliarmos a qualidade da montagem de genomas.
A completude depende da anotação do genoma que foi montado. Dessa forma, fazemos uma comparação dos genes identificados na nossa montagem, frente ao conjunto de genes esperados na espécie que estamos estudando, isso é realizado por meio de análise de genes ortólogos identificados/esperados.
Ferramentas comumente utilizadas para essa análise são: QUAST e BUSCO.
Cobertura e Profundidade
Dependendo do foco do estudo, podemos avaliar métricas de cobertura e profundidade. A análise de cobertura dependerá de termos um genoma de referência para comparação, por exemplo, encontramos um vírus específico na nossa análise de metagenômica viral, podemos comparar o scaffold montado com o vírus de referência, e entendermos a porcentagem do genoma do vírus que conseguem sequenciar.
Seguindo o exemplo de um vírus encontrado em nossa análise de metagenômica, caso o genoma sequenciado contenha SNPs e/ou Indels de alto impacto, podemos entender a qualidade desses SNPs mapeando os reads contra o genoma de referência identificado, assim podemos assegurar a qualidade em processos subsequentes de chamadas de variantes.
Conclusão
Apesar do conceito de montagem genômica ser relativamente simples de entender, obter um genoma de alta qualidade requer a análise de diferentes fatores, possuir uma estrutura tecnológica capaz de abarcar tanto a parte laboratorial quanto a parte computacional, e possuir uma equipe de profissionais altamente capacitados.
Neste breve artigo, abordamos os passos principais a serem realizados em uma montagem de novo, um processo realizado rotineiramente, e com excelência, na Varsomics. Conheça nossas soluções de bioinformática.
Referências
Dominguez Del Angel et al. Ten steps to get started in Genome Assembly and Annotation. F1000Research, 2018, 7(ELIXIR):148, 10.12688/f1000research.13598.1.
Nurk S, et al. The complete sequence of a human genome. Science, 2022, V376:44-53, 10.1126/science.abj6987.
Gupta AK, Kumar M. Benchmarking and Assessment of Eight De Novo Genome Assemblers on Viral Next-Generation Sequencing Data, Including the SARS-CoV-2. OMICS. 2022, 10.1089/omi.2022.0042.
Bankevich A, et al. SPAdes: a new genome assembly algorithm and its applications to single-cell sequencing. J Comput Biol. 2012, 19(5):455-7,10.1089/cmb.2012.0021.
Shifu Chen, et al. fastp: an ultra-fast all-in-one FASTQ preprocessor, Bioinformatics, Volume 34, Issue 17, 2018, i884–i890, 10.1093/bioinformatics/bty560.
Seppey M, Manni M, Zdobnov EM. BUSCO: Assessing Genome Assembly and Annotation Completeness. Methods Mol Biol. 2019; 1962:227-245, 10.1007/978-1-4939-9173-0_14.
Gurevich A, et al. QUAST: quality assessment tool for genome assemblies. Bioinformatics. 2013 ;29(8):1072-5, 10.1093/bioinformatics/btt086.