Inovamos hoje para que você tenha um amanhã melhor.

O alinhamento de sequências e o nascimento da bioinformática

Um dos pilares da bioinformática é o alinhamento de sequências. Aprenda como ocorre o alinhamento par a par, local, global e múltiplo de sequências.

O alinhamento de sequências pode ser realizado entre pares ou entre múltiplas sequências, e são classificados como locais ou globais. Desde que a bioinformática começou a dar seus primeiros passos, nas décadas de 70-80, uma época em que apenas os genomas de alguns vírus haviam sido sequenciados, cientistas observaram que para progredir em diversas áreas do conhecimento da biologia, seria necessária a implementação de ferramentas computacionais, como aquelas usadas para alinhar sequências de nucleotídeos e aminoácidos. Vamos entender um pouco mais sobre esses conceitos?

Alinhamento de sequências par a par

Em um alinhamento par a par, as duas sequências podem ser representadas em linhas sobrepostas, procurando alinhar na mesma coluna caracteres idênticos (match), e inserindo espaços (gaps) em uma delas de forma a obter o máximo possível de matches.

A representação conhecida como matriz de pontos (dot-matrix), criada em 1970, apresenta uma sequência na vertical e outra na horizontal, como mostrado na figura abaixo. Um ponto é inserido sempre que a interseção das coordenadas apresenta um match, formando uma visualização gráfica intuitiva do alinhamento, uma vez que a representação de uma reta, ou algo próximo a uma reta, na diagonal, reflete a similaridade entre as sequências analisadas. A presença de inserções ou deleções (indels), repetições e inversões também se tornam facilmente detectáveis.

Figure 2. The expanded Dot Matrix view from Blast 2 Sequences showing the alignment of two Salmonella enterica subsp. enterica genome sequences (serovar Heidelberg str. SL476, accession NC_001083 and serovar Typhi Ty2, accession NC_004631).

Figura 1: Matrix de pontos representado o alinhamento entre duas sequências genômicas de bactérias. Fonte: https://www.ncbi.nlm.nih.gov/books/NBK2691/figure/dec08.dec08f2/ 

Algoritmos baseados em programação dinâmica são mais eficientes do que a matriz de pontos. Para entendermos completamente como eles funcionam primeiro é preciso compreender o que são as matrizes de substituição, importantes para guiar o processo e qualificar cada resultado obtido.

Matrizes de substituição

Ainda na década de 60, a pesquisadora Margaret Dayhoff organizou o primeiro banco de dados de proteínas, chamado de Sequence Atlas. Ela organizou essas proteínas até então conhecidas em alinhamentos globais de famílias de acordo com a similaridade que elas possuíam entre si. 

Para alinhamentos com similaridade superior a 85%, ela derivou uma matriz de escores em valores logarítmicos. Cada um desses escores media a razão da frequência de mutações observadas entre aminoácidos em cada posição pela frequência esperada. É importante observar que cada posição de um alinhamento é independente das posições anteriores ou posteriores. 

Dessa forma, originou-se a PAM I (Percent Accepted Mutations) que representa todas as probabilidades de mutações entre aminoácidos ocorridas e mantidas pela seleção natural ao longo da evolução para proteínas com pouca divergência evolutiva!

varstation

Para extrapolar maiores divergências, foi feita a simples multiplicação da PAM I por ela mesma, gerando várias matrizes, inclusive a mais conhecida: PAM250. Dessa forma, as PAMs refletem os eventos de mutações, conservados por diferentes períodos na evolução. 

Algumas críticas são passíveis para essa metodologia, como:

I) Assumir as taxas mutacionais constantes ao longo da evolução;

II) Algumas regiões das proteínas são mais propensas a mutações do que outras, portanto as posições não são de fato completamente independentes;

III) Foi construída com poucas sequências iniciais;

IV) Não é muito eficiente para eventos de maior divergência evolutiva.

Outra matriz de substituição muito conhecida e amplamente utilizada é a BLOSUM (Blocks Substitution Matrix). Sua construção e estrutura são similares à PAM, no entanto cada matriz foi construída usando blocos (alinhamentos locais sem gaps) de sequências com diferentes níveis de similaridade, e não extrapoladas a partir de uma inicial. 

A mais conhecida é a BLOSUM 62. Assim, ao se verificar a substituição de uma alanina por uma lisina, ou uma adenina por uma timina em uma determinada posição do alinhamento, é possível associar um escore para esse evento, e assim sucessivamente para todas as posições, objetivando-se obter o maior somatório possível. Geralmente, trocas entre aminoácidos de mesmas características físico-químicas são mais bem pontuadas enquanto mismatches que contrapõem características muito diferentes podem até serem penalizados (escore negativo). 

Para completar o sistema de pontuação, é preciso considerar a abertura de gaps e suas extensões. Um único evento de deleção de várias bases é mais provável evolutivamente do que vários independentes. Dessa forma, a abertura de gaps recebe uma penalização fixa, e a penalização de sua extensão é baseada em uma fórmula linear, de forma que quanto maior a extensão, menor a penalização por base.

Alinhamento de sequências local

Agora que sabemos como pontuar um alinhamento, podemos discutir sobre o alinhamento local, que tem por objetivo encontrar regiões, ou domínios conservados entre sequências, sem necessariamente abrangê-las por inteiro. Ele é mais conhecido como Smith e Waterman, nome de seus criadores. Esse tipo de algoritmo é muito importante no processo de anotação de genes e proteínas, onde a comparação com grupos de sequências de funções conhecidas permite inferir a função de outra até então desconhecida. 

A similaridade pode assim ser medida, permitindo a um pesquisador inferir se há ou não homologia em cada caso, ou seja, se as sequências derivam de um mesmo ancestral comum e por isso, provavelmente desempenham a mesma função biológica nos organismos comparados. O processo de alinhamento é permissível às mutações que ocorrem naturalmente durante o processo evolutivo. 

O processo inicia-se com a busca de uma subsequência idêntica (ou quase idêntica) chamada de semente, ou seed entre duas sequências. Para nucleotídeos ela costuma ser de tamanho 11 e para proteínas 3 aminoácidos. A partir desse alinhamento inicial, o processo se estende em ambas as direções, inserindo gaps sempre que necessário e ajustando os pareamentos imperfeitos (mismatches). Assim que a pontuação começar a cair significativamente devido a baixa similaridade em outras porções o alinhamento para, retornando o melhor resultado local obtido. 

O alinhamento local foi desenvolvido a partir de algoritmos para alinhamentos globais, discutidos a seguir. A ferramenta mais conhecida por realizar alinhamentos locais de forma rápida e eficiente chama-se BLAST (Basic Local Alignment Search Tool), capaz de fazer todas as comparações possíveis entre nucleotídeos e aminoácidos.

Uma sequência de interesse pode ser comparada contra um banco de dados contento centenas ou milhares de outras em busca de similaridades que contenham significância. A semente é detectada para todas as entradas do banco de dados, com auxílio das matrizes de substituição para encontrar os melhores alinhamentos, sendo posteriormente estendidos ao máximo local seguindo as regras de pontuação já mencionadas. Essas pontuações geram um valor de escore e o BLAST, adicionalmente calcula um valor de significância, chamado de e-value (Expectation value). 

O e-value é um valor que pode ser negativo ou positivo, portanto, não é uma probabilidade típica da estatística que varia de zero a um. Ele significa, grosso modo, a chance de encontrarmos por mero acaso, um alinhamento igual, ou melhor, do que o apresentado. Quanto mais negativo esse valor, mais significativo é o resultado.

Alinhamento de sequências global

Por sua vez, os alinhamentos globais têm por objetivo estender o alinhamento por toda a extensão das sequências envolvidas, independente de quão divergentes elas sejam em alguns pontos. Eles também são conhecidos pelo nome de seus desenvolvedores, Needleman e Wunsch. No geral, espera-se que as sequências envolvidas já tenham certa similaridade. 

O ajuste que acaba determinando o quanto um alinhamento vai se estender, sendo local ou global, acaba sendo definido nos valores de penalização. No geral, um alinhamento local inibe sua extensão em regiões divergentes penalizando mais abertura e extensão de gaps do que alinhamentos globais.

Alinhamento múltiplo de sequências

Quando mais de duas sequências estão envolvidas, trata-se de um alinhamento múltiplo, ou MSA (multiple sequence alignment), e novos algoritmos precisaram ser desenvolvidos, pois o número total de possibilidades aumenta exponencialmente com a quantidade de sequências analisadas, impossibilitando estratégias do tipo exaustivas (analisar todas opções possíveis). 

O MSA também permite estudar a conservação, função e estrutura de sequências e domínios e a partir deles podemos inferir árvores filogenéticas e estudar evolução. Sequências bem alinhadas possuem baixa divergência evolutiva.

O programa mais conhecido para MSA chama-se CLUSTALW. Ele utiliza abordagem heurística, uma vez que calcular todos os alinhamentos possíveis entre muitas sequências é inviável em muitos casos. Para tal, o procedimento se inicia calculando todos os pareamentos par a par possíveis e calculando seus escores, como já discutido. 

Uma árvore filogenética é inferida a partir desses dados, criando-se a chamada árvore guia (guide tree). A partir dela escolhe-se o par mais similar entre si e novas rodadas iterativas de alinhamentos são realizados, incluindo sequencialmente as outras sequências mais próximas.

Multiple sequence alignment of coronavirus spike protein S2 subunit. Alignment of 17 coronavirus partial S2 sequences representing four genera of coronavirus. The isolates are: α-Alphacoronavirus (α-CoV) HCoV-229E (ABB90529.1); HCoV-NL63 (YP_003767.1); TGEV (ABG89335.1); FCoV (YP_004070194.1 AFH58021); M-Bat CoV-HKU8 (YP_001718612.1); and PEDV (NP_598310.1). Betacoronavirus (β-CoV) HCoV-HKU1 (ADN03339.1); MHV-A59 (NP_045300.1); BatCoV-HKU9 (YP_001039971.1); SARS-CoV (NP_828851.1); and MERS-CoV (AHX00731.1). Gammacoronavirus (γ-CoV) IBV (ADP06471.2); SW1 CoV (YP_001876437.1); and BdCoV-HKU22 (AHB63508.1). Deltacoronavirus (δ-CoV) NHCoV-HKU19 (AFD29226.1); PDCoV (AFD29187.1); and MCoV-HKU13 (YP_002308506.1). The identified Middle East respiratory syndrome (MERS) putative fusion peptide is boxed.

Figura 2: Representação de um alinhamento múltiplo de sequências proteicas de corona vírus. Alsaadi EAJ et al., 2019

Considerações finais 

O alinhamento de sequências pode ser considerado como um dos pilares da bioinformática. Dele se originam diversos ramos para estudos como anotação funcional de genes e proteínas, análise de domínios conservados, análises filogenéticas, transferência horizontal, convergência evolutiva e métodos para montagem de genomas e transcritomas. E você, já utilizou algum desses métodos nos seus estudos?

Referências

Fiers W, Contreras R, Duerinck F, Haegeman G, Iserentant D, Merregaert J, Min Jou W, Molemans F, Raeymaekers A, Van den Berghe A, Volckaert G, Ysebaert M (April 1976). “Complete nucleotide sequence of bacteriophage MS2 RNA: primary and secondary structure of the replicase gene”. Nature. 260 (5551): 500–7.

Gauthier J, Vincent AT, Charette SJ, Derome N. A brief history of bioinformatics. Brief Bioinform. 2019 Nov 27;20(6):1981-1996. doi: 10.1093/bib/bby063. PMID: 30084940.

Mount DW. Comparison of the PAM and BLOSUM Amino Acid Substitution Matrices. CSH Protoc. 2008 Jun 1;2008:pdb.ip59. doi: 10.1101/pdb.ip59. PMID: 21356840.

Altschul S.F., Gish,W., Miller,W., Myers,E.W. and Lipman,D.J. (1990) Basic local alignment search tool. J. Mol. Biol., 215, 403–410.

Thompson, J. D., Higgins, D. G., & Gibson, T. J. (1994). CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic acids research, 22(22), 4673–4680.

Alsaadi EAJ, Neuman BW, Jones IM. A Fusion Peptide in the Spike Protein of MERS Coronavirus. Viruses. 2019 Sep 5;11(9):825. doi: 10.3390/v11090825. PMID: 31491938; PMCID: PMC6784214.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Relacionados