BLAST: Entenda as ferramentas e parâmetros de análise

O BLAST é uma ferramenta muito utilizada dentro da bioinformática, desenvolvido para realizar buscas e comparar sequências biológicas.

O programa BLAST (Basic Local Alignment Search Tool) foi desenvolvido para realizar buscas e comparar sequências biológicas contra um banco de dados que contém uma grande quantidade de informação, retornando sequências mais similares, referentes à sequência pesquisada.

É uma ferramenta muito utilizada dentro da bioinformática por ser muito rápida e ter diferentes variações, atendendo diversas possibilidades de busca.

Essas possibilidades de busca se relacionam a cada tipo de BLAST que é disponibilizado pela ferramenta e cada uma delas possui um objetivo específico. O uso de cada uma dessas variações vai depender do tipo de sequência de entrada utilizada e, também, do banco de dados que se deseja buscar. 

Ferramentas BLAST e suas funções

Basicamente, as funções de cada uma das ferramentas do BLAST são:

  • BLASTn: pesquisa uma sequência de nucleotídeo em uma base de dados de nucleotídeos, o que é útil na identificação de sequências desconhecidas obtidas de sequenciamentos e PCR. Além disso o programa busca relacionar as sequencias de forma evolutiva (busca por homologia) com a sequência de entrada e identificar genes.
  • BLASTp: realiza a comparação da sequência proteína-proteína. Neste tipo de busca é necessário ter uma sequência de aminoácidos (que formam as proteínas) para comparar com sequencias já identificadas nos bancos de dados. O BLASTp também pode verificar a homologia entre sequencias, conservação de aminoácidos e diferenças pontuais que interferem na atividade final das proteínas. A sequência de entrada pode ser oriunda de experimentos em bancada como o sequenciamento ou de buscas em bancos de dados proteicos como o NCBI protein.
  • BLASTx: pesquisa nucleotídeos em um banco de dados de proteínas, traduzindo a sequência de interesse em tempo real. Esta é uma ferramenta muito importante para conhecer o produto gênico quando se tem apenas dados genômicos e não se tem ciência dos produtos que são codificados pelos genes representados na sequência de interesse.

Por conta deste recurso a ferramenta auxilia também na anotação estrutural e funcional de novos genes, sendo comumente a primeira análise efetuada de dados genômicos obtidos após o sequenciamento.

  • tBLASTn: pesquisa proteínas em um banco de dados de nucleotídeos, traduzindo o banco de dados em tempo real. Essa opção permite inferir quais genes ou porções do genoma estão relacionadas com uma determinada proteína, quando não se tem a sequência de nucleotídeos disponível.
  • tBLASTx: a sequência de nucleotídeos será convertida em 6 sequências de aminoácidos (uma para cada fase de leitura), as quais serão comparadas com as 6 possíveis fases de leitura em um banco de dados de nucleotídeos. É a variação mais lenta do BLAST e procura contornar a potencial mudança de quadro e ambiguidades na sequência, o que pode impedir a detecção de quadros de leitura abertos. Isso é muito útil na identificação de proteínas provindas de diversos rounds de sequenciamento e novos genes.
Onde encontrar o BLAST?

O BLAST é uma das principais ferramentas disponíveis na plataforma NCBI e pode ser utilizado gratuitamente pelo site: https://blast.ncbi.nlm.nih.gov/Blast.cgi
software é disponibilizado online e realiza alinhamentos locais entre a sequência dada pelo pesquisador com todas as sequências disponíveis no banco de dados do GenBank.

O BLAST é uma das principais ferramentas disponíveis na plataforma NCBI e pode ser utilizado gratuitamente.

software é disponibilizado online e realiza alinhamentos locais entre a sequência dada pelo pesquisador com todas as sequências disponíveis no banco de dados do GenBank.

Como o BLAST funciona?

O algoritmo do BLAST realiza buscas baseadas em alinhamentos locais que são confiáveis e bastante rápidos. Isto faz com que o programa ofereça vantagens em relação a outras ferramentas de alinhamento.

A rápida velocidade do alinhamento está associada ao mecanismo de busca pela similaridade realizada pelo algoritmo do BLAST. A busca no BLAST foca em pequenas sequências comuns existentes entre a sequência dada e as sequências do banco de dados. Observe o exemplo:

Considere a sequência a seguir: CGTACTGCCATT.

Exemplos de sequências que poderiam ser achadas no BLAST seriam:

Sequência dada: CGTACTGCCATT

Busca 1                 CGT

Busca 2                     TAC

Busca 3                         CCA

Busca 4                             CAT

Tutorial do BLAST

Acessa o site do NCBI e clique na opção BLAST

Como acessar a ferramenta Blast?

  1. Acessa o site do NCBI e clique na opção BLAST

  2. Selecione a ferramenta da família BLAST a ser utilizada. Usaremos a exemplo o blastn.

  3. Informe ao programa a sequência de interesse que será analisada

    A sequência pode ser informada de diferentes formas. Uma delas é inserir a mesma no campo “Enter accession number(s), gi(s), or FASTA sequence(s)”. Outra forma é fazer o upload do arquivo com a sequência no botão “Escolher arquivo”.
    A sequência também pode ser inserida como um arquivo no formato FASTA. Além disso, pode ser informado o número de acesso do GenBank ou o número GI – GenInfo Identifier (identificador de informação do gene).

  4. Atribua um título para a pesquisa realizada

    Em Job Title podemos dar um título para essa pesquisa. Ainda podemos marcar a caixa no canto inferior esquerdo se quisermos realizar um alinhamento múltiplo das sequências inseridas. Para realizar o alinhamento múltiplo é necessário informar mais de uma sequência.

  5. Configure os parâmetros para a sequência analisada

    A primeira seção (o primeiro quadro de configurações) é igual para quase todas as análises nas ferramentas do web blast, sendo adicionada a opção “Genetic Code” apenas no BLASTx e no tBLASTx. Essa função é importante para que seja selecionado o código genético que vai ser utilizado na tradução da proteína que esses métodos de pesquisa realizam.

No segundo quadro abaixo, é a seção utilizada para organizar os parâmetros do alinhamento, como o banco de dados que será usado ou os organismos que devem ser inseridos e/ou excluídos da pesquisa.

Segundo quadro de configurações de parâmetros do alinhamento. disponível em: https://blast.ncbi.nlm.nih.gov/Blast.cgi

Cada ferramenta do blast apresenta opções diferentes nesta seção, ou seja, os parâmetros para uma busca de nucleotídeos serão diferentes dos parâmetros utilizados em uma busca de aminoácidos.

O BLASTn e o BLASTp apresentam mais um quadro. Nele é possível realizar a escolha do algoritmo que será usado para a pesquisa. Geralmente se utiliza a opção default para análises com estas ferramentas nesta seção.

Vale destacar que se a sequência de entrada que foi inserida no programa do Blast foi baixada anteriormente do próprio NCBI, então possivelmente a primeira amostra da lista de resultados seja a própria sequência de interesse que foi realizada a busca. Nesse caso, o resultado só passa a contar a partir da segunda sequência listada.

Interpretação de resultados

Como interpretar os dados gerados pelo BLAST?

Na aba Descriptions é possível visualizar os resultados da análise realizada. As subdivisões desta aba são, em sua respectiva ordem: descrição, nome científico, nome comum, max scoretotal score, cobertura da query (que é a sequência de entrada), E value, porcentagem de identidade, tamanho da sequência comparada e código de acesso da sequência comparada.

Observe como o resultado é apresentado:

O BLAST permite fazer o download dos resultados obtidos em vários formatos. Pode-se selecionar através dos “checkbox” ao lado do nome da sequência quais alinhamentos vão fazer parte do arquivo baixado. Max score e total score são parâmetros complementares. Eles estão ligados com o valor obtido pelo alinhamento.

  • O max score é o valor máximo que pode ser obtido naquele alinhamento, enquanto o total score é o valor obtido pelo alinhamento. Se o total score for igual ao max score significa que o alinhamento obteve o maior valor possível.
  • Cobertura da query é um valor dos parâmetros do alinhamento que demonstra o quanto da sequência enviada conseguiu realizar um alinhamento. Esse valor é importante de ser analisado, uma vez que podem existir casos em que apenas um pedaço da sequência enviada seja alinhada e, por isso, os valores do alinhamento sejam bons.
  • E-value é um parâmetro muito importante do alinhamento. Ele demonstra a possibilidade do alinhamento ter sido realizado ao acaso. Quanto mais próximo ao zero (0) o valor for, mais confiabilidade pode se ter no alinhamento.
  • A porcentagem de identidade está relacionada com a similaridade da sequência enviada pelo usuário com a sequência alinhada, levando-se em consideração a cobertura da sequência.

É importante notar que alguns outros parâmetros somente aparecem quando o alinhamento é observado. O score é um desses parâmetros presente nessa visualização. É possível visualizar o valor de “identities”, que demonstra o número de matches do alinhamento. Um match é quando a sequência enviada e a sequência comparada possuem o mesmo nucleotídeo ou um mesmo resíduo na mesma localização.

Além disso, é possível visualizar o número de gaps (espaçamentos entre os resíduos das sequências), que são espaços adicionados pelo algoritmo do programa por não existir similaridade naquela região.

Na aba Graphic Summary é possível visualizar os alinhamentos gerados em forma de gráfico. Ao passar o cursor do mouse por cima de cada uma das linhas, observa-se o nome da sequência à qual a sequência inserida pelo usuário (demonstrada em cima, em azul, com o nome “Query”) foi alinhada. Existe um padrão visual, o qual mostra as linhas representando as sequências com cores diferentes, baseado no score que foi obtido no alinhamento.

Aba Graphic Summary apresentando gráficos de alinhamento. Fonte: https://blast.ncbi.nlm.nih.gov/Blast.cgi

Sobre o Autor:

Joanã Oliveira é estudante de biomedicina, analista de marketing na Infobio Jr e membro da liga acadêmica de ciências biomédicas.

Referências:

APOSTILA BIOINFORMÁTICA— DA BIOLOGIA À FLEXIBILIDADE MOLECULAR. E-book. 1. ed. São Paulo: UFRGS, 2014. Disponível em: https://www.ufrgs.br/bioinfo/ebook/. Acesso em: 08 jan. 2021.

BLAST. GeneBio. Disponível em: http://www.genebio.ufba.br/blast/. Acesso em 08 dez. 2021.

Ômix Data. Entendendo o Web Blast e seus resultados – parte 1. Disponível em: https://medium.com/omixdata/entendendo-blast-parte-i-conceitos-principais-4711e34cc2b6#:~:text=O%20BLAST%20ainda%20permite%20verificar,%C3%A9%20realizada%20a%20n%C3%ADvel%20proteico. Acesso em 08 dez. 2021.

Ômix Data. Entendendo o Web Blast e seus resultados – parte 1. Disponível em: https://medium.com/omixdata/entendendo-o-blast-parte-ii-o-web-blast-e-seus-resultados-3dbd5fb7d80d. Acesso em 08 dez. 2021.

Portal Educação. Como usar o BLAST. Disponível em: https://siteantigo.portaleducacao.com.br/conteudo/artigos/biologia/como-usar-o-blast/36379. Acesso em 08 dez. 2021

Aragão(2021). Biodata descomplica: Bioinformática do zero ao avançado. eBook. Disponível em: https://biodatacursos.wixsite.com/biodatacursos (Instagram: @andxi).

BLAST. NCBI. Disponível em: https://blast.ncbi.nlm.nih.gov/Blast.cgi. Acesso em: 08 dez. 2021.

Relacionados