Linguagem R: importante ferramenta de bioinformática

R é uma linguagem de programação de software livre, uma das principais linguagens para a análise de dados biológicos utilizadas hoje em dia.

Saber programar na bioinformática é essencial. Através dessa habilidade é possível obter grande autonomia na área pois torna possível a construção das nossas próprias ferramentas de análises. Uma das principais linguagens voltadas para a análise de dados biológicos utilizadas hoje em dia é a linguagem R, graças à sua versatilidade. Vamos saber mais sobre ela?

O que é a linguagem R?

R é uma linguagem de programação de software livre, com grande suporte da comunidade. Fornece uma grande variedade de ferramentas para análises estatísticas, construção de gráficos e manipulação de uma grande quantidade de dados.

Os códigos em linguagem R podem ser escritos através do programa RStudio, um IDE (Ambiente de Desenvolvimento Integrado) que oferece uma interface de trabalho amigável para criação de algoritmos.

Não é possível falar de R sem falar dos pacotes extras que a linguagem oferece. Existem pacotes (conjunto de códigos), que estendem a funcionalidade do R e disponibilizam ferramentas específicas para o tipo de análises desejada.

Um pacote reúne código, dados, documentação e testes, e é fácil de compartilhar com outras pessoas. Existem mais de 14 mil pacotes disponíveis. Você pode acessar essa grande variedade de pacotes já existentes ou construir o seu próprio.

O CRAN (Comprehensive R Archive Network) é o repositório padrão de pacotes para R. Existem outros repositórios como o Bioconductor, que são especificamente para pacotes relacionados a análises de dados biológicos e um dos grandes queridinhos dos bioinformatas como veremos mais à frente.

Navegar pelos milhares de pacotes que o R oferece pode ser desafiador. Vamos conhecer alguns dos principais pacotes disponíveis:

Principais pacotes R para a pesquisa científica

tidyverse: uma coleção de pacotes R projetados para ciência de dados.
dplyr: fornece atalhos essenciais para manipulação rápida de dados.
tidyr: altera o layout do conjunto de dados.
readr: importar arquivos de texto, como .txt ou .csv para o R.
ggplot2: construção de gráficos personalizáveis.
rgl: produção de gráficos interativos em 3D.

Esses pacotes listados não são específicos para a bioinformática, mas são bastante úteis para manipulação e visualização de dados. Agora que você já conhece um pouco mais sobre os pacotes existentes, veja como é bastante simples instalar e carregar um pacote:

Como instalar um pacote no R?

Para instalar um pacote use o comando: install.packages (“nome_do_pacote”)

  • Caso você queira instalar mais de um pacote por vez utilize: install.packages (c( “pacote1”, “pacote2”, “pacote3”))
  • Para carregar o pacote: library (“nome_do_pacote”)

Com o tempo, os autores de pacotes irão disponibilizar novas versões de pacotes com correções de bugs e novos recursos, e é uma boa ideia manter-se atualizado.

Como atualizar pacotes R?

Para atualizar pacotes já existentes execute: update.packages (“nome_do_pacote”)
O programa solicitará permissão para atualizar cada pacote existente.

  • Caso queira atualizar todos os pacotes R de vez use: update.packages (ask = FALSE)

Bioconductor

Não podemos negar a importância das ferramentas básicas voltadas para ciência de dados que vimos anteriormente. Elas são amplamente utilizadas na bioinformática por conta da grande quantidade de dados presentes em análises biológicas.

Porém, existem pacotes mais específicos para compreensão de ensaios biológicos depositados no Bioconductor que torna a linguagem R uma das mais utilizadas para programação em bioinformática.

O projeto Bioconductor surgiu em 2001, como uma criação colaborativa de software voltado para biologia computacional e bioinformática. Foi criado pensando na utilização e simplificação de modelos computacionais para entender processos biológicos em um ambiente que atenda com flexibilidade as demandas desafiadoras da biologia molecular.

Linguagem R bioconductor
Bioconductor, software de código aberto para bioinformática. Disponível em: https://www.bioconductor.org/

Atualmente, o Bioconductor é um repositório com mais de 1500 pacotes para compreensão de dados biológicos. Desenvolvido inicialmente para investigação de microarrays, hoje são usados em uma ampla gama de análises incluindo RNA-seq, SNPs, número de cópias, citometria de fluxo, análises de expressão e muitos outros.

Segundo o site, o projeto fornece ainda:

  • Softwares para associar microarray e outros dados genômicos em tempo real com metadados biológicos de bancos de dados da web, como GenBank, genes Entrez e PubMed. 
  • Ferramentas de software para montar e processar dados de anotação genômica, a partir de bancos de dados como GenBank, Gene Ontology Consortium, genes Entrez, UniGene, UCSC Human Genome Project.

Além disso, todos os usuários são incentivados a se tornarem desenvolvedores e contribuir com pacotes de documentações compatíveis com o projeto.

Quais são os pacotes do Bioconductor?

Biobase: Funções básicas para Biocondutor.
annotate: Anotação para microarrays.
chipseq: Análises de dados chipseq.
genefilter: métodos para filtrar genes de experimentos de alto rendimento.
GeneMeta: Meta análise para experimentos de alto rendimento.
GenomeInfoDB: Utilitários para manipular nomes de cromossomos, incluindo modificá-los para seguir um estilo de nomenclatura específico.
GenomicAlignments: Representação e manipulação de alinhamentos genômicos curtos.
GenomicRanges: Representação e manipulação de intervalos genômicos.
ShortRead: Entrada e manipulação de FASTQ.
UniProt.ws: Interface R para serviços da web do UniProt.

Como instalar os pacotes do Bioconductor?

Execute os seguintes comandos:
if (!requireNamespace(“BiocManager”, quietly = TRUE))
install.packages(“BiocManager”)
BiocManager::install()

Até agora, já conhecemos alguns pacotes bases do R e do Bioconductor. Mas como utilizar esses recursos na prática? Vejamos algumas aplicações:

Aplicações dos pacotes do R e Bioconductor

1. Análise de dados de sequenciamento de alto rendimento

Geralmente, dados de sequenciamento de RNA ou DNA em grande escala começa com o alinhamento de leituras a partir de um genoma de referência. Esse alinhamento normalmente é entregue em um arquivo BAM. Os pacotes do Bioconductor Rsamtools e GenomicAlignments fornecem uma interface flexível para importar e manipular os dados em um arquivo BAM, para avaliação de qualidade, visualização e detecção de eventos que podem ocorrer durante o alinhamento.

As regiões de interesse nessas análises podem ser genes, transcrições ou intervalos de sequência que podemos acessar através das suas coordenadas genômicas.

2. Análise coordenada de múltiplas amostras

O pacote SummarizedExperiment, facilita a análise de estudos com múltiplas amostras. Um experimento pode gerar dezenas de milhares de intervalos vindos de centenas de amostras. O pacote citado, compila esses resultados em uma matriz retangular onde as linhas correspondem aos intervalos e as colunas são as diferentes amostras.

O SummarizedExperiment também armazena metadados nas linhas e colunas. Os metadados geralmente dizem respeito a covariáveis ​​experimentais ou observacionais, bem como informações técnicas, como datas de processamento ou lotes, caminhos de arquivo etc.

Mais informações podem ser inseridas, como identificadores de gene ou exon, referências a bancos de dados externos, reagentes, classificações ou associações genéticas no caso de estudo de doenças raras ou genética do câncer por exemplo.

A presença desses metadados reduz a probabilidade de erros durante operações de manipulação dos dados.

3. Análises de Estruturas Biomoleculares

O Bio3D é um pacote relacionado com o processamento, organização e análise de estruturas moleculares. Os principais recursos incluem a recuperação de sequências, análise de conservação de estruturas tridimensionais e métodos de predição de estruturas de proteínas.

Um ponto forte particular do Bio3D é sua capacidade de prever movimentos internos e analisar a dinâmica funcional entre famílias de proteínas. Isso permite que o pacote seja usado como uma ferramenta poderosa para a análise de estruturas experimentais no Protein Data Bank (PDB).

varstation análises em ngs

Conclusão

Como podemos perceber, o R possui uma infinidade de pacotes básicos e específicos para os mais diversos tipos de manipulação, visualização e análises de dados. Conhecendo a especificidade de análises que os pacotes do Bioconductor fornecem, fica fácil entender por que essa linguagem está cada vez mais em alta no mundo da bioinformática.

Aqui foram apresentados apenas algumas das diversas ferramentas que o R proporciona. E não se esqueça, se não achar nenhum pacote que atenda às suas demandas, você mesmo pode colocar a mão na massa e desenvolver o seu próprio conjunto de ferramentas!

Sobre a autora: Iasmin Moreira é graduanda em Biotecnologia pela Universidade Federal da Bahia. Atualmente, é bolsista CNPq de Iniciação Científica, desenvolve análises genômicas para estudo do Transtorno do Espectro Autista. Também é membro da empresa júnior de Informática Biomédica da Universidade de São Paulo.

Referências

  • What is R? Disponível em: <https://www.r-project.org/about.html>. Acesso em 26. out. 2021.
  • About RStudio. Disponível em: <https://www.rstudio.com/about/>. Acesso em 26 out. 2021.
  • Quick list of useful R packages. Disponível em <https://support.rstudio.com/hc/en-us/articles/201057987-Quick-list-of-useful-R-packages>. Acesso em 26 out. 2021.
  • Introduction to R packages. Disponível em <https://r-pkgs.org/intro.html>. Acesso em 27 out. 2021
  • Bioconductor. Disponível em <https://www.bioconductor.org/>. Acesso em 27 out. 2021
  • GENTLEMAN, Robert C. et al. Bioconductor: open software development for computational biology and bioinformatics. Genome biology, v. 5, n. 10, p. 1-16, 2004.
  • ORLOV, Yuriy L. et al. Bioinformatics of genome regulation and structure–2020 papers collection. Journal of Integrative Bioinformatics, v. 17, n. 4, 2020.
  • GRANT, Barry J.; SKJAERVEN, Lars; YAO, Xin‐Qiu. The Bio3D packages for structural bioinformatics. Protein Science, v. 30, n. 1, p. 20-30, 2021.
  • Mariano, DCB (org.) et al. BIOINFO – Revista Brasileira de Bioinformática e Biologia Computacional. 1. Ed. Vol. 1. ISBN: 978-6-599-275326. Lagoa Santa: Alfahelix, 2021. DOI: 10.51780/978-6-599-275326
  • HUBER, Wolfgang et al. Orchestrating high-throughput genomic analysis with Bioconductor. Nature methods, v. 12, n. 2, p. 115-121, 2015.
Relacionados