Principais ferramentas de bioinformática e programas online

Diversas ferramentas de bioinformática online foram desenvolvidas para melhorar o trabalho com grandes quantidades de dados biológicos.

Com o início dos projetos genomas, como o Projeto Genoma Humano em 1980, e os recentes avanços nos métodos de análise em grande escala, iniciou-se uma produção massiva de dados biológicos. Muitos biólogos, bioinformatas e cientistas computacionais descrevem esse grande conjunto de dados como “big data”.

Por conta disso, várias ferramentas de bioinformática foram desenvolvidas com o intuito de melhorar o trabalho com grandes quantidades de dados biológicos. Muitas delas se encontram disponíveis online com acesso gratuito. Temos grandes bancos de dados públicos como por exemplo o GenBank, PubMed , KEGG, EMBL e NCBI.

Ferramentas de bioinformática para análise de sequências de nucleotídeos

Blast

Alguns desses bancos possuem ferramentas online com acesso gratuito. O Blast, por exemplo, é uma ferramenta bastante utilizada no NCBI (National Center for Biotechnology – plataforma online responsável pela administração de vários bancos de dados públicos), consiste em um algoritmo de alinhamento local que busca, de forma rápida, pequenas regiões de similaridade.

Ferramentas de bioinformática - BLAST
Interface do BLAST, ferramenta do NCBI de alinhamento de sequencias local. Disponível em: https://blast.ncbi.nlm.nih.gov/Blast.cgi

O Blast, é considerado uma das melhores ferramentas de bioinformática para alinhamento local de sequências, e fácil manuseio e compreensão. Por isso, não é necessária uma grande demanda de tempo de aprendizado ou uma formação profissional em bioinformática para sua utilização.

Esta ferramenta, possui quatro tipos diferentes de análises, cada um desses tipos executa diferentes alinhamentos:

  • Nucleotide Blast – realiza alinhamentos entre sequências de nucleotídeos.
  • Protein Blast – realiza alinhamentos entre sequências de aminoácidos e proteínas.
  • Blastx – realiza alinhamentos entre sequências de nucleotídeos e proteínas. Nesse tipo de alinhamento, o usuário recebe como resultado o produto da tradução da sequência de nucleotídeos de entrada.
  • tBlast – realiza alinhamentos entre sequências de proteínas. Aqui o usuário recebe como resultado a sequência de DNA que corresponde a sequência proteica de entrada.

Semelhante ao Blast, temos o ClustalW, outra ferramenta de bioinformática que realiza alinhamentos de sequências. Porém, diferente do blast, o ClustalW é um algoritmo de alinhamento global que se baseia numa distância evolutiva entre as sequências utilizadas.

Este programa utiliza linhas de comandos, mas existe também a opção ClustalX, que utiliza uma interação com o usuário por meio de uma interface gráfica. 

Outra ferramenta de bioinformática capaz de realizar os alinhamentos globais é software MUSCLE (Multiple Sequence Alingnment). Esse programa apesar de não ser tão popular quanto o ClustalW, obtém melhores resultados na literatura acadêmica com base nos experimentos utilizando a coleção de referência BAliBASE. Ele é mais rápido e realiza melhores alinhamentos do que o ClustalW.

Bioedit

O Bioedit é um editor de alinhamento de sequências biológicas. Possui uma interface intuitiva com recursos a documentos múltiplos e faz o alinhamento e a manipulação de sequências relativamente fáceis no computador. 

Este programa foi feito especificamente para o sistema operacional Windows, sendo uma alternativa ao Ugene, outro software de código aberto utilizado no Linux e com funcionalidade semelhante.

Seqool

É um programa de análises de sequências destinado a pesquisar sinais de biológicos em sequências de ácidos nucleicos fornecendo vários modelos de reconhecimento de padrões. O software oferece vários métodos de reconhecimento de padrões para a busca dos sinais biológicos como locais de ementa ou sinais específicos do usuário.

Além disso, inclui análises estatísticas mais comuns como conteúdo GC, uso de códon etc.

RNA Structure

Programa completo para análise da estrutura secundária de RNA e DNA. Inclui comandos para prever probabilidades de emparelhamento de bases, predição de estruturas biomoleculares e a afinidade de ligação entre oligonucleotídeos a um alvo de RNA.

É muito útil para o desenho de siRNA (em inglês ‘small interfering rna’), biomoléculas envolvidas em um mecanismo de controle da expressão genica.

Esse software está disponível como uma interface gráfica de usuário para Windows; interface gráfica de usuário JAVA para Mac OS-X ou Linux; interfaces de linha de comando para Mac OS-X, Linux ou Windows; e código-fonte para compilação local.

Ferramentas de bioinformática para análise de variantes genéticas

Varstation

O Varstation é uma plataforma online capaz de processar e analisar arquivos de Sequenciamento de Nova Geração (sejam Fastq, BAM, ou VCFs) a partir de amostras genéticas humanas.

O software realiza automaticamente a pré-classificação de variantes seguindo os padrões da ACMG (Colégio Americano de Genética Médica e Genômica) E AMP (American Molecular Pathology) através de um algoritmo próprio. Além disso, o sistema de filtros delimita as variantes que podem ter relação com as suspeitas clínicas.

O Varstation versão 3.0 também conta com um banco interno de artigos relacionado às variantes encontradas, com as referências do PubMed e algoritmo de classificação ACMG e ClinGen.

varstation análises genéticas

Ferramentas de bioinformática para desenho de primers

Um primer é uma sequência de ácidos nucleicos que auxilia no início do processo de replicação da molécula de DNA.

Durante a replicação do material genético, a enzima DNA polimerase III precisa de iniciadores para que ela possa começar a produzir uma nova cadeia de nucleotídeos a partir de uma fita molde do DNA.

Esses indicadores são os primers, pequenas sequências de ribonucleotídeos produzida por uma outra enzima chamada Primase. Os primers são produzidos a partir da fita molde e em seguida a DNA polimerase começa o seu trabalho, produzindo uma nova cadeia de nucleotídeos.

Programas para desenhar primers online

Primer 3 
O software possui algoritmos que são capazes de identificar o melhor par de primers para identificar um segmento de DNA. Além disso, o programa é customizável e gratuito, sendo um dos mais utilizados no desenho de primers e análise de sequências em biologia molecular. A ferramenta de bioinformática é capaz de aceitar várias possibilidades referentes às condições de reação realizadas no experimento em questão.

Ferramentas de bioinformática para linguagens de programação

Além das ferramentas de bioinformática citadas anteriormente, os bioinformatas e cientistas moleculares podem utilizar as linguagens de programação em seus métodos de análises.

Atualmente, em análises de bioinformática, existe uma grande preferência pelo uso das linguagens Python e R. Ambas as linguagens oferecem muitas vantagens pelo seu uso nas análises de dados biológicos.

O Python é uma linguagem de programação de fácil entendimento e aprendizado. Possui várias ferramentas para a biologia molecular e suporta vários arquivos utilizados em bioinformática, além de ser integrado ao BioSQL – banco de dados para sequências moleculares.

Já o R oferece uma gama de ferramentas de bioinformática para análises estatísticas, uma vez que é uma ferramenta destinada à ciência de dados.

As duas linguagens oferecem pacotes especializados para análise e gerenciamento de dados biológicos. Para o python temos o biopython e para o R temos o bioconductor. Falaremos um pouco deles a seguir.

Biopython – Phyton

É um conjunto de ferramentas de bioinformática disponíveis gratuitamente para computação biológica, escrito em Python por uma equipe internacional de desenvolvedores. Essa biblioteca consegue apresentar uma série de pacotes para análises de sequências, alinhamentos, estruturas proteicas, genética de populações, aprendizado de máquina, entre outros.

O biopython é produto de um conjunto de bioprojetos da Open Bioinformatics Foundation, uma organização sem fins lucrativos, focada em apoiar programação em código aberto na área de bioinformática.

Além do biopython, a linguagem python apresenta também como pacotes importantes para análises de dados em bioinformática:

  •  XGBoost: pacote com algoritmos de regressão e classificação baseados em árvore de decisão com gradient boosting.
  • BioPython: pacote para manipulação de dados biológicos.
  • Sklearn: pacote para aprendizagem de máquina e manipulação de dados.
  • Pandas: pacote para manipulação de dados tabulares.
  • Flask: microframework para criação de aplicações web.

Bioconductor – R

O Bioconductor fornece ferramentas para a análise e compreensão de dados genômicos de alto rendimento. Ele utiliza a linguagem de programação estatística R, e é um software livre de desenvolvimento aberto.

Essa biblioteca tem dois lançamentos a cada ano que seguem os lançamentos semestrais do R. Conta com uma série de recursos para análise de dados como métodos estatísticos e gráficos.

Além do uso de bibliotecas de linguagens de programação para bioinformática, é importante mencionar a utilização dos sistemas operacionais em código que são excelentes ferramentas de bioinformática para o uso de análise de dados.

Em bioinformática os sistemas GNU/Linux são muito utilizados, tendo uma maior prevalência da distribuição Ubuntu pelos pesquisadores, uma vez que a distribuição mais fácil de instalar e a distribuição mais fácil para a instalação de programas.

Sobre o Autor: Joanã Oliveira é estudante de Biomedicina, Analista de Marketing na Infobio Jr. e membro da Liga Acadêmica de Ciências Biomédicas.

Referências bibliográficas:

  • Amorim Santos, Luciane. Uso de ferramentas de bioinformática para estudos de epidemiologia molecular, filogeografia e filodinâmica viral. Curso de Pós-Graduação em Biotecnologia em Saúde e Medicina Investigativa, dissertação de mestrado. 2010, Salvador, Brasil.
  • Gegenees: Fragmented Alignment of Multiple Genomes for Determining Phylogenomic Distances and Genetic Signatures Unique for Specified Target Groups.Agren J, Sundstrom A, Hafstrom T, Segerman B.PLoS One. 2012;7(6)
  • Okonechnikov K, Golosova O, Fursov M, the UGENE team.  Unipro UGENE: a unified bioinformatics toolkit . Bioinformatics  2012 28: 1166-1167. doi:10.1093/bioinformatics/bts091
  • BLAST. NCBI. Disponível em: https://blast.ncbi.nlm.nih.gov/Blast.cgi. Acesso em: 22 jan. 2020.
  • GENBANK. NCBI. Disponível em: https://www.ncbi.nlm.nih.gov/genbank/. Acesso em: 22 jan. 2020.
  • PRIMER DESIGNER. In: Premier Biosoft. Disponível em //www.premierbiosoft.com/tech_notes/PCR_Primer_Design.html. Acesso em: 22 jan. 2020.
  • PRIMER 3. In: Bioinfo. Disponível em: //bioinfo.ut.ee/primer3-0.4.0/. Acesso em: 22 jan. 2020.
  • PUBMED. In: NCBI. Disponível em: https://www.ncbi.nlm.nih.gov/pubmed. Acesso em: 22 jan. 2020. ferramenta de bioinformática
  • Edgar C, Robert. MUSCLE: multiple sequence alignment with high accuracy and high throughput.  February 2004, Nucleic Acids Research 32(5):1792-7.
  • SEQTOOLS. Disponível em: https://www.seqtools.dk/. Acesso em 01 out. 2021.
  • BIOEDIT. Disponível em: https://bioedit.software.informer.com/Download-gr%C3%A1tis/. Acesso em 01 out. 2021.
  • SEQOOL. Disponível em: http://www.biossc.de/seqool/index.html. Acesso em 01 out. 2021.
  • RNA STRUCUTRE. in: Mathews Lab Home. Disponível em: http://rna.urmc.rochester.edu/RNAstructure.html. Acesso em 01 out. 2021.
  • Bioconductor. Disponível em: https://www.bioconductor.org/. Acesso em 01 out. 2021.
  • Biopython. Disponível em: https://biopython.org/. Acesso em 01 out. 2021.
Relacionados