Como realizar análise de sequências de nucleotídeos?

A análise de sequências na bioinformática é um campo extenso, saiba como analisar diversas sequências de nucleotídeos de diferentes formas

Análise de sequências

A análise de sequências na bioinformática é bastante abrangente. Podemos analisar as mais variadas sequências das mais diversas formas. Isso vai depender da resposta procurada. Dentre essas análises podemos incluir:

Quais são os tipos de análise de sequências de nucleotídeos?

• Alinhamento de sequência
• Pesquisa em banco de dados
• Descoberta de genes e promotores
• Descoberta de motivos e padrões
• Reconstrução de relações evolutivas
• Montagem de genoma
• Comparação de genoma

Alinhamento de sequências

O Alinhamento de sequências pode ser realizado entre pares ou entre múltiplas sequências, e são classificados como locais (em uma região do gene) ou globais (em todo o gene). Também há o alinhamento múltiplo de sequências onde duas ou mais sequências são alinhadas e comparadas entre si, podendo também escolher ter uma análise local ou global.

O alinhamento é realizado de forma em que as sequências tenham identidade (onde são iguais entre si) e gaps (onde há um vazio em uma das sequências) para que tenham um maior score. O score se refere a uma fórmula matemática que atribui um valor a cada nucleotídeo correspondente e penalidades por incompatibilidades. Desta forma, o cálculo prevê qual alinhamento é o mais adequado para determinadas sequências. Para isso também há uma matriz (como PAM250 e a BLOSUM62).

  • PAM I (Percent Accepted Mutations): Representa todas as probabilidades de mutações entre aminoácidos ocorridas e mantidas pela seleção natural ao longo da evolução para proteínas com pouca divergência evolutiva. A simples multiplicação da PAM I por ela mesma, gera várias matrizes, inclusive a mais conhecida: PAM250
  • BLOSUM62 (Blocks Substitution Matrix): Sua construção e estrutura são similares à PAM, no entanto cada matriz foi construída usando blocos (alinhamentos locais sem gaps) de sequências com diferentes níveis de similaridade, e não extrapoladas a partir de uma inicial).

Para mais informações, acesse Bioinformática: alinhamento de sequências” .

Comparação de genoma

A ferramenta de comparação de sequências de DNA com os bancos de dados genômicos é o BLAST (Basic Local Alignment Search Tool), através dela podemos comparar sequências de DNA ou qualquer proteína com todas as sequências genômicas de domínio público. Ela identifica no banco de dados uma sequência parecida com a de interesse.

Há também outros métodos de análise comparativa, como o BLASTX que consulta o DNA com base de dados de proteínas, válido quando as sequências são muito parecidas entre si e com os nucleotídeos que as codificam. O BLASTN, busca homologia entre sequências de nucleotídeos, o BLASTp com sequências de proteínas.

Além destes, há também outra variedade de BLAST que é o PSI-BLAST (Position specific iterated BLAST). O PSI-BLAST inclui também o uso de pesos fixos para gaps (inserções e deleções) e é capaz de encontrar homólogos mais divergentes que o BLAST, entre outras análises.

Pesquisa em banco de dados

Os pesquisadores atualmente são capazes de construir e examinar enormes bancos de dados contendo sequências de DNA, RNA, proteínas e nucleotídeos para resolver dúvidas genéticas, com o objetivo de armazenamento e recuperação de dados.

Embora existam muitos bancos de dados úteis, um dos principais bancos de dados utilizados pelos pesquisadores é o National Center for Biotechnology Information (NCBI), mantido pelos National Institutes of Health dos EUA. Os bancos de dados do NCBI  são um dos maiores repositórios de informações sobre genes, proteínas, genomas, publicações e outros dados importantes nos campos da genética, bioquímica e biologia molecular. Eles contêm as sequências completas de nucleotídios de todos os genomas sequenciados até hoje e são continuamente atualizados.

Quando o banco de dados foi construído juntamente com outros dois (DDBJ,ENA/EBI) foi proposto um consórcio que contava com a colaboração de diferentes bancos para atualizar os dados diariamente. Desta forma, para que os pesquisadores ganhem tempo chegando a redundância entre os bancos. Além disso, o site do NCBI dispõe de recursos que podem ser usados para pesquisar itens específicos de interesse – sequências de genes e proteínas, artigos de pesquisas e assim por diante.

A recuperação de dados consiste numa busca por palavras-chave. Os dados são filtrados por marcadores ou identificadores para recuperar uma determinada informação com uma relevância maior para o seu objetivo, uma vez que os bancos de dados contém uma grande quantidade de informações.

Quais são os tipos de banco de dados?

Primário: resultados experimentais cujos dados são depositados diretamente pelo pesquisador.
Secundário: resultados de análises feitas com dados de bancos primários.

Quais são os tipos de dados?

Técnicos
Tabelas
Relacional
Sequências de DNA
Sequências de Proteínas
Padrões ou motifs
Expressão Gênica
Vias Metabólicas

Quais são os tipos de gerenciamento de bancos de dados?

Instituições públicas
Instituto
Grupo acadêmico
Instituição privada
Comercial

Descoberta de genes e promotores

Os genes são sequências de DNA que são transcritas em RNA e posteriormente traduzidas em proteínas. Este processo é o fluxo de informação genética chamado de dogma central. Os genes são unidades funcionais e seus produtos são proteínas, polipeptídeos, a cadeia de aminoácidos, são sequências de nucleotídeos, os polipeptídeos.

  • Na transcrição: a sequência de DNA de um gene é copiada para fazer uma molécula de RNA, chamada de transcrição, pois reescreve, ou transcreve. Nos eucariontes, a molécula de RNA deve passar por um processamento para se tornar um RNA mensageiro (RNAm) maduro.
  • Na tradução, a sequência de RNAm é decodificada para determinar a sequência de aminoácidos de um polipeptídeo, isso ocorre por uma estrutura chamada RNA transportador.

Os genes sempre são lidos na direção 5’-3’, em que a extremidade 5’ está livre a hidroxila do carbono-5 da primeira pentose e na outra está livre a hidroxila do carbono-3 da última pentose.

Os promotores são regiões nos genes em que estão localizados antes do códon de iniciação (comumente AUG, códon que codifica a Metionina) na extremidade 5’ e que participa da transcrição da sequência de DNA em RNA.

Um promotor é a sequência de DNA reconhecida pelo aparato de transcrição, na qual indica a fita molde e sentido da transcrição (Upstream<->Downstream) e determina sítio de transcrição.

Juntamente aos promotores que são os iniciadores, há os terminadores, que se localizam após o códon de término (comumente UAG, UAA ou UGA), o códon de parada (stop-códon), na extremidade 3’. Envolvidos na terminação da transcrição e com a adição da cauda poli(A) que está presente no RNA mensageiro.

Descoberta de motifs e padrões

Os Motifs são cada vez mais importantes na análise da regulação gênica. Os motifs são padrões curtos e recorrentes no DNA que se presume terem uma função biológica, muitas vezes indicam locais de ligação específicos da sequência para proteínas como nucleases e fatores de transcrição. Outros estão envolvidos em processos de nível de RNA, incluindo ligação ao ribossomos, processamento do mRNA (splicing, edição e poliadenilação) e terminação de transcrição.

Para locais de ligação, atualmente, os métodos computacionais geram motifs de sequência regulatória, procurando padrões de DNA conservados a montante de genes funcionalmente relacionados (como genes com padrões de expressão semelhante ou anotação funcional semelhante).

A abundância de motifs de sequência, derivados computacional e experimentalmente, sua crescente utilidade na definição de redes regulatórias genéticas e na decifração do programa regulatório de genes individuais os tornam ferramentas importantes para a biologia computacional na era pós-genômica.

Existem duas interfaces web gratuitas para gerar um logotipo de sequência a partir do seu alinhamento de DNA favorito: o WebLogo de Steven Brenner , a implementação dos Logotipos de Sequência originais da Schneider e o enoLOGOS3 mais recente.

O primeiro fornece uma opção para colocar barras de erro no conteúdo da informação, o que pode ser bastante útil especialmente para motivos baseados em um pequeno número de sequências. No entanto, este último oferece uma variedade maior de formatos de entrada, conteúdo GC variável e a opção de examinar bases não independentes por meio de informações mútuas. Os dois locais também adotam uma abordagem diferente para correção de amostras pequenas. Os logotipos na figura foram gerados usando enoLOGOS.

Figura 1: (a) Oito sítios de ligação genômica conhecidos em três genes de S. cerevisiae. (b) Sequência de consenso degenerada. (c, d) Freqüências de nucleotídeos em cada posição. (e) Logotipo da sequência mostrando as frequências escalonadas em relação ao conteúdo da informação (medida de conservação) em cada posição. (f) Logotipo normalizado de energia usando entropia relativa para ajustar o baixo conteúdo de GC. Fonte: https://doi.org/10.1038/nbt0406-423

Reconstrução de relações evolutivas

A sistemática filogenética, método de reconstrução de árvores evolutivas criado por Willi Hennig em 1955 e ampliado em 1966, é frequentemente considerada um novo paradigma que revolucionou as classificações biológicas quando comparado às escolas de sistemática anteriores, como a taxonomia evolutiva.

Essas relações evolutivas podem ser descobertas e analisadas pela análise filogenética que estuda as relações entre as espécies. ​​A análise filogenética é o estudo da relação entre os organismos, no qual se pode verificar quão próximos, evolutivamente, eles estão uns dos outros. Para isso, são analisados os dados genéticos desses organismos.

Anteriormente o refinamento da sistemática filogenética em relação à taxonomia evolutiva estava em discriminar caracteres primitivos (plesiomórficos) de derivados (apomórficos), e estabelecer relações de parentesco apenas a partir do compartilhamento dessas apomorfias. Desta forma, era possível distinguir as homologias das convergências e determinar os grupos monofiléticos (no sentido cladístico), que são os únicos que realmente respeitam o conceito da ancestralidade comum.

Assim, este sistema, chamado de sistemata hennigiano, identifica um clado natural como a reunião da espécie tronco (ancestral) mais recente e de todos os seus descendentes. É possível determinar a espécie pela presença de caracteres compartilhados exclusivamente pelos descendentes (sinapomorfias), independente do grau de divergência que possa existir.

Atualmente a análise filogenética consiste na análise de métodos matemáticos sobre duas ou mais sequências genéticas (DNA, RNA,…). Este método matemático é baseado principalmente em:

  • Busca da similaridade (medida de semelhança, dados coletados e observados até o momento)
  • Homologia (ancestral comum, eventos históricos), utilizando conceitos da topologia (nó, raiz), nomenclaturas, utilizando métodos, dentre eles há o método da máxima parcimônia,  método de distância (método UPGMA- Unweighted Pair Group Method using Arithmetic Averages, Junção por vizinhos – Neighbor Joining), método da máxima verossimilhança, análise bayesiana.

Entenda melhor sobre árvore filogenética no texto: Árvore filogenética: representação da evolução

Montagem

A abordagem de montagem de genoma ocorre por referência, ou seja, é utilizado um genoma conhecido, chamado de genoma de referência, para montar o genoma de interesse. Esta abordagem geralmente resulta em boas montagens quando o organismo de estudo é relativamente próximo do organismo utilizado como modelo.

A montagem de sequências utiliza programas para reconstrução de sequências genômicas ou de transcritos assim como apoio (ajuda) de bibliotecas já existentes (paired-ends, são adaptadores cuja distância é uma sequência já conhecida). Por elas é possível visualizar a quantidade de A, T, C, G em determinada região do genoma e assim compará-las, podendo determinar se é uma área polimórfica ou não.

Para mais informações, acesse As 7 etapas da genômica: ao genoma completo e além”.

Sobre a autora:

Sarah Sandy Sun, graduanda em Informática Biomédica pela Universidade de São Paulo de Ribeirão Preto, membro de Recursos Humanos da Empresa Júnior de Informática Biomédica (Infobio Jr).

Referências:

Relacionados