Inovamos hoje para que você tenha um amanhã melhor.

As 7 etapas da genômica: ao genoma completo e além

A possibilidade de estudar o genoma completo a partir dos benefícios advindos das plataformas de sequenciamento de nova geração (NGS) não seria possível sem o desenvolvimento de ferramentas de bioinformática. O desenvolvimento de algoritmos capazes de lidar com o grande número de dados gerados e o surgimento de pesquisadores qualificados para analisá-los foi de suma importância para o estabelecimento dessas novas tecnologias. Seu impacto tem possibilitado a diferentes grupos de pesquisa responder questões vinculadas às áreas de medicina, agricultura, virologia, microbiologia, ciências forenses, entre outras.

O surgimento e aprimoramento da bioinformática permitiu o desenvolvimento de softwares capazes de interpretar os sinais advindos de sequenciamentos NGS em um processo denominado base calling. Também foi graças ao advento desse campo que estratégias de montagem de genomas, além de procedimentos de anotação funcional, mapeamento e visualização se tornaram possíveis. Em geral, podemos dividir um projeto de genômica nas seguintes etapas: sequenciamento; pré-processamento; montagem; scaffolding; anotação; curadoria; e investigação.

As etapas da genômica
As etapas da genômica

Sequenciamento

Essa é a etapa mais importante de qualquer projeto genoma, pois é a partir dela que os dados genéticos são coletados. Os sequenciamentos de nova geração referem-se às tecnologias de sequenciamento de DNA que surgiram após o método de Sanger. Essas novas tecnologias permitiram a análise massiva e paralela de um número muito maior de amostras a um menor custo e tempo. As tecnologias ditas de segunda geração (Ion Torrent e Illumina) caracterizam-se pela geração de pequenas reads, ao passo que as tecnologias de terceira geração (PacBio, NanoPore) caracterizam-se pela síntese de sequências maiores.

Pré-processamento

Na etapa de pré-processamento dedica-se à avaliação da qualidade das reads geradas, atentando-se para a correção e/ou remoção de sequências errôneas. Em geral, observa-se a distribuição da qualidade associada a cada base das reads. Nesse sistema, representa-se, em uma escala logarítmica, a probabilidade dos nucleotídeos da read terem sido erroneamente assinalado.

Nesse caso, o usuário pode optar por removê-las por completo, caso não satisfaçam um determinado critério de qualidade, ou mesmo descartar as porções de baixa qualidade. O último caso é denominado “trimagem”, que também pode ser realizada a partir da remoção de um tamanho fixo de uma ou ambas as extremidades da read. Outro aspecto relevante está relacionado à remoção de sequências de adaptadores, completos ou não, cuja permanência pode afetar consideravelmente as análises subsequentes.

Montagem

Na etapa de montagem objetiva-se a construção de contigs, a partir das reads de sequenciamento. Nessa etapa a obtenção desses fragmentos pode ocorrer a partir de duas abordagens. Uma delas consiste no mapeamento de reads a um genoma de referência e a conseguinte geração de uma sequência consenso. Essa abordagem é denominada montagem por referência e resulta em boas montagens, quando o organismo de estudo é relativamente próximo do organismo utilizado como modelo. Apesar desse procedimento ser de mais fácil de ser conduzido, muitas vezes, ele introduz no genoma montado, vieses do genoma de referência, fruto de erros de montagem, ou mesmo a não inserção de regiões exclusivas do organismo de estudo. A segunda abordagem consiste na geração de contigs a partir da sobreposição de reads em um processo denominado montagem de novo ou ab initio. Existem atualmente diversos softwares dedicados à resolução desse problema e que empregam diferentes algoritmos destinados a identificar, corrigir e eliminar erros de sequenciamento. Essas ferramentas diferem entre si, principalmente, na acurácia, eficiência e qualidade da montagem, além da capacidade de resolver regiões repetitivas e discriminar erros de sequenciamento de variantes reais na amostra.

Scaffolding

Devido à natureza repetitiva de algumas regiões do genoma, a utilização dos softwares de montagem dificilmente leva à construção de uma sequência única, abrangendo todas as reads obtidas no sequenciamento. Esse fato ocorre, pois essas regiões elevam o grau de complexidade dos grafos de montagem, dificultando a correta predição das diferentes regiões únicas em relação às regiões repetitivas. Por conseguinte, os montadores acabam por gerar diferentes fragmentos do genoma completo.

A geração desses contigs pode variar dependendo da complexidade do organismo em estudo, da qualidade do sequenciamento, das estratégias de montagem, e dos softwares e parâmetros utilizados. No tocante à complexidade do organismo, de forma geral aqueles que apresentam um menor tamanho e que possuam um menor número de regiões repetitivas, tendem a gerar um menor número de contigs. Um exemplo desse fenômeno pode ser ilustrado com os genomas de Escherichia coli comparados com genomas de Corynebacterium pseudotuberculosis. O efeito da complexidade pode ser visto ao observar o maior nível de sintenia nos genomas de C. pseudo- tuberculosis, quando comparados com E. coli e que se deve a relativa ausência de regiões repetitivas do tipo elementos móveis. Nesse caso, não coincidentemente em E. coli, observa-se um maior número de contigs gerados em relação à C. pseudotuberculosis (> 100 em E. coli, < 15 em C. pseudotuberculosis).


Sintenia entre (A) duas linhagens de E. coli uropatogênicas e (B) dois biovares distintos de C. pseudotuberculosis (MEX31 – equi, 1002 – ovis).

A obtenção do genoma completo depende, portanto, do correto posicionamento dos contigs e da resolução das regiões repetitivas. Para tanto, pode-se fazer uso da chamada montagem híbrida, onde através de um genoma de referência pode-se inferir a correta disposição das regiões repetitivas. Nesse caso, busca-se a melhor orientação dos diferentes contigs e a resolução dos gaps entre eles, mediante montagem local.

Anotação

Nessa etapa objetiva-se inferir em uma escala genômica aspectos fenotípicos do organismo em estudo através da anotação estrutural e funcional do genoma. No primeiro caso, busca-se a identificação de CDSs, peptídeos sinais, elementos repetitivos, tRNAs, rRNAs, sequências de profagos, entre outras. Já no segundo caso, objetiva-se compreender a função desses elementos.

A etapa de anotação, em geral, é realizada de forma automática. Alguns softwares fazem isso mediante a transferência de informações de uma espécie filogeneticamente próxima para o genoma de estudo. Tal abordagem, no entanto, pode induzir vieses uma vez que regiões exclusivas do genoma de interesse podem não ser caracterizadas.

De modo geral, as ferramentas de anotação contam com alguma estratégia de predição de CDSs, seguida do alinhamento local com as sequências proteicas preditas em um genoma de referência ou com bases de dados especificas. Em seguida, as anotações dos melhores hits são transferidas para as CDSs preditas, quando possível. Os diferentes softwares existentes realizam esses procedimentos somados a algumas variações associadas à correção de erros e adição de novas informações.

Curadoria

A fase de curadoria é, sem dúvidas, a mais onerosa, mas de suma importância para a qualidade da sequência montada e da informação nela contida.

Softwares de anotação automática podem introduzir e propagar anotações espúrias, que precisam ser corrigidas. Além disso, no próprio processo de montagem e scaffolding, erros podem ser introduzidos na sequência final. Nessa etapa, portanto, visa-se corrigir erros de montagem, a partir da investigação de regiões com reads mal mapeadas no genoma montado, e a conseguinte remontagem local da região. Além disso, também avalia-se a anotação inicial de modo a encontrar discrepâncias na sequência e corrigir, por exemplo, anotações incorretas, frameshifts e falsos pseudogenes.

Investigação

Nessa etapa, o céu é o limite. Análises da estrutura organizacional detalhada de um genoma somente são possíveis após sua montagem e anotação. Graças a isso, diversas conclusões têm sido elaboradas, possibilitando a compreensão de diversos aspectos fisiológicos nos mais diversos organismos.

A genômica comparativa tem sido de grande valia para descoberta de alvos vacinais mais específicos, tem possibilitado a compreensão dos mecanismos associados à adaptabilidade e, principalmente, tem servido de embasamento para predições fenotípicas e o conseguinte direcionamento de análises experimentais. Em bactérias, por exemplo, essas comparações são realizadas de modo a compreender as razões de algumas linhagens serem patogênicas e outras não. Também, faz-se uso dessa estratégia para elucidação de mecanismos de virulência, ou mesmo de disseminação de resistência a antimicrobianos.

Referências

LEDERGERBER, C.; DESSIMOZ, C. Base-calling for next-generation sequencing platforms. Briefings in bioinformatics, v. 12, n. 5, p. 489–97, set. 2011.

LISCHER, H. E. L.; SHIMIZU, K. K. Reference-guided de novo assembly approach improves genome reconstruction for related species. BMC bioinformatics, v. 18, n. 1, p. 474, 10 nov. 2017.

RICHARDSON, E. J.; WATSON, M. The automatic annotation of bacterial genomes. Briefings in bioinformatics, v. 14, n. 1, p. 1–12, jan. 2013.

STAWINSKI, P. et al. Basic Bioinformatic Analyses of NGS Data. In: Clinical Applications for Next-Generation Sequencing. [s.l.] Elsevier, 2016. p. 19–37.

TAMAZIAN, G. et al. Chromosomer: a reference-based genome arrangement tool for producing draft chromosome sequences. GigaScience, v. 5, n. 1, p. 38, 22 ago. 2016.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Relacionados