Inovamos hoje para que você tenha um amanhã melhor.

O que é um genoma de referência?

O genoma de referência é uma representação linear do genoma de uma espécie, que é utilizada como padrão para comparação em pesquisa básica e na construção de outros genomas.

Para sequenciar um genoma, o DNA é fragmentado para que o equipamento consiga ler a sequência de nucleotídeos. Depois que estes curtos fragmentos são sequenciados, é necessário colocá-los novamente na ordem da sequência de DNA. Quando se trata do genoma humano, o número de fragmentos pode chegar a bilhões. Portanto, para facilitar o trabalho da montagem e analisar as variações do material genético, é utilizada uma sequência modelo de genoma conhecida como genoma de referência.

Exemplo de uma montagem de genoma a partir do genoma de referência

Como o genoma de referência foi desenvolvido?

O genoma de referência é uma representação linear do genoma de uma espécie. A maioria dos genomas de referência são haplóides, apenas uma fita de DNA, no entanto, algumas regiões com grande diversidade alélica são representadas mais de uma vez em sequências alternativas.

O primeiro rascunho do que seria o genoma humano foi produzido depois de 15 anos do esforço internacional do Projeto Genoma Humano através do sequenciamento Sanger, publicado pela primeira vez em 2001. Em 2003 foi anunciado o sequenciamento do genoma “completo”, representado por 99% do material genético, com algumas lacunas ainda desconhecidas.

O Projeto Genoma Humano também incentivou o desenvolvimento de princípios sobre o compartilhamento dados genômicos, como os Princípios das Bermudas, que garantiu que o genoma de referência fosse um recurso público. Com isso, o aprimoramento da construção genômica evolui rapidamente no meio científico, utilizando o primeiro genoma humano sequenciado como base para o desenvolvimento de outras construções.

As pesquisas relacionadas ao sequenciamento do genoma humano enfrentaram diversos desafios na área de bioinformática, como na montagem das sequencias de DNA, uma vez que o genoma humano é denso e repleto de regiões repetitivas. No entanto, com o desenvolvimento de novas técnicas, como do Sequenciamento de Nova Geração que permite sequenciar bilhões de fragmentos de uma só vez, junto com o avanço de algoritmos da bioinformática, a construção do genoma humano teve uma grande evolução.

Em 2007 foi criado o Genome Research Consortium (CRG), uma colaboração entre o The Wellcome Sanger Institute, representado pela Genome Reference Informatics Team, o McDonnell Genome Institute da Washington University (MGI), o European Bioinformatics Institute (EBI) e o The National Center for Biotechnology Information (NCBI). Desde então, o consórcio tem o objetivo de melhorar os conjuntos de genoma de referência de humanos, camundongos e peixes-zebra, além do esforço para garantir que variações complexas dentro de uma espécie sejam capturadas e representadas.  

Principais genomas humanos de referência

Quais são os genomas humano de referência?

NCBI34 (hg16): A sequência de referência humana (NCBI Build 34) foi produzida pelo International Human Genome Sequencing Consortium e lançada em julho de 2003. Esta sequência cobre cerca de 99% das regiões contendo genes no genoma e foi sequenciada com uma precisão de 99,99%.

NCBI35 (hg17): Esta construção também foi produzida pelo International Human Genome Sequencing Consortium e lançada em 2004. Ela é considerada “finalizada”, o que indica que a sequência é altamente precisa, com menos de um erro por 10.000 bases.

NCBI36 (hg18): Lançado em março de 2006 (NCBI Build 36.1) também foi desenvolvido pelo International Human Genome Sequencing Consortium. Este genoma de referência também inclui 4 regiões alternativas de haplótipos (sequências que não podem ser representadas em um único genoma). Este genoma foi o primeiro a ser empregado com a tarefa de alinhar leituras de sequenciadores NGS (o Illumina GAII) e foi usado pelo projeto piloto para 1000 Genomas para identificar milhões de variantes.

GRCh37 (hg19): Esta construção foi produzida pelo Genome Reference Consortium em fevereiro de 2009. Além dos cromossomos “regulares”, o genoma também contém 9 sequências alternativas de haplótipos.

GRCh38 (hg38): Lançado em 2013, O Build 38 é o mais recente genoma de referência até o momento.  CRCh38 representou uma atualização significativa devido à sua precisão pois apresentava pouco menos de 1000 lacunas desconhecidas no genoma. Desde então, ele foi repetidamente “corrigido”. Desde seu lançamento, esta versão é atualizada periodicamente para corrigir pequenos erros ou lacunas. No entanto, ainda está faltando 5 a 10% do genoma, incluindo todos os centrômeros e outras regiões desafiadoras, como genes que codificam as sequências de RNA que formam ribossomos.

Qual genoma humano de referência devo usar?

Cada nova versão do genoma humano de referência teve sua precisão e integridade melhorada. Portanto, o ideal é utilizar a última versão do genoma de referência, GRCh38 (Hg38) pois ela possui as informações mais atualizadas da sequência do genoma humano. Por isso, esta construção é a referência para muitos projetos de grande escala, incluindo o Projeto 100.000 Genomas do Reino Unido.
No entanto, em alguns casos é necessário usar a versão anterior de genoma de referência, Hg19, como quando se está reanalisando um sequenciamento baseado na versão anterior do genoma de referência. Isso porque as variantes encontradas em um genoma de referência não necessariamente são encontradas no outro, o que pode afetar a análise.

Onde consigo baixar o genoma de referência?

As duas principais plataformas para fazer o download das diferentes versões do genoma de referência são:

The UCSC Genome Browser: hospedado no site da University of California, Santa Cruz, que usa a nomenclatura Hg38 para a última versão do genoma de referência.

The Genome Reference Consortium: hospedado pelo NCBI, usa a nomenclatura GRCh38 para a última versão do genoma de referência.

O genoma de referência é representativo?

Como dito anteriormente, embora a ideia do genoma de referência seja representar o material genético humano, a sua diversidade alélica não é uma média da população global. Na verdade, na maioria dos casos, esta sequência de DNA contém longos trechos que são altamente específicos a um indivíduo.

Em outras palavras, os genomas de referência não são baseados em genoma completamente saudável, de um ancestral comum, ou que represente a maioria da população mundial. Por exemplo, o genoma de referência GRch37 foi desenvolvido a partir de 13 voluntários anônimos em Buffalo, nos Estados Unidos, sendo que cerca de 80% do genoma de referência vieram de 8 pessoas e, aproximadamente 70% do genoma total vieram de apenas um homem, designado “RP11”.

O alinhamento com a referência para identificar variantes relacionadas à doença ainda é uma etapa importante na maioria das análises e é crucial em atribuições de significância clínica. Em casos como esse, vieses no genoma de referência podem levar a erros de interpretação. Por exemplo se o genoma de referência possui um alelo raro, a variante patogênica pode ser ignorada como benigna.

Os projetos HapMap e subsequente Projeto 1000 Genomas foram desenvolvidos a partir da necessidade de amostrar uma diversidade populacional mais ampla e que represente melhor a variabilidade alélica humana. Além disso, GRC está constantemente trabalhando para desenvolver conjuntos que representem melhor essa diversidade e forneçam dados mais robustos para a análise do genoma.

Pan-genomas e o futuro do genoma de referência

A recomendação mais recente, e que está se tornando cada vez mais popular, é o desenvolvimento de pan-genomas. Mais complexo do que uma única sequência de referência, um pan-genoma contém todas as sequências de DNA possíveis, ou seja, uma coleção de múltiplos genomas de uma mesma espécie.

Esta estratégia já é bastante utilizada em pesquisa com plantas poliploides e bactérias, nas quais diferentes estirpes podem apresentar diferentes genes, uma vez que a maior representação aumenta consideravelmente a chance de identificar variantes.

Em um recente estudo que analisou o pan-genoma de indivíduos africanos foi determinado que cerca de 10% do genoma destes indivíduos não está presente no genoma de referência GRCh38, o que reflete na baixa variabilidade e sobre a necessidade de referências específicas por população.

No entanto, o pan-genoma é representado através de um gráfico, diferente da forma linear do modelo utilizado atualmente. Portanto, qualquer alteração no genoma de referência atual exigirá um grande esforço da área de genômica e bioinformática para a adoção de novas práticas e algoritmos de análise.

Principais referências:

Kaye AM, Wasserman WW. The genome atlas: navigating a new era of reference genomes. Trends Genet. 2021;37(9):807-818. doi:10.1016/j.tig.2020.12.002

Ballouz S, Dobin A, Gillis JA. Is it time to change the reference genome?. Genome Biol. 2019;20(1):159. Published 2019 Aug 9. doi:10.1186/s13059-019-1774-4

Schneider VA et al. Evaluation of GRCh38 and de novo haploid genome assemblies demonstrates the enduring quality of the reference assembly. Genome Res 27, 849–864, doi:10.1101/gr.213611.116 (2017).

Sherman RM, Forman J, Antonescu V, et al. Assembly of a pan-genome from deep sequencing of 910 humans of African descent [published correction appears in Nat Genet. 2019 Feb;51(2):364]. Nat Genet. 2019;51(1):30-35. doi:10.1038/s41588-018-0273-y

2 comments
  1. Parabéns Nágela G. Safady, excelente reportagem sobre estudos com genomas, cada dia quero aprender mais sobre o assunto.
    Parabéns VarStation pelos Profissionais mais competentes do Brasil.
    Gratidão pelos conhecimentos repassados !!! Até o próximo !!!!

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Relacionados