programas de bioinformática python e miniconda

Configure sua máquina para programas de bioinformática

Aprenda a instalar e utilizar programas de bioinformática com o auxílio do miniconda e otimize o uso das ferramentas científicas.

Nesse texto, eu vou dar dicas de como configurar uma máquina Unix para usar programas de Bioinformática com o auxílio de sistemas como o Miniconda. Se você tem o Windows 10 ou 11, pode usar o Subsistema Windows para o Linux (WSL2). Como eu uso o Windows 10 no meu computador pessoal, tenho o Ubuntu 20.04 LTS (Focal Fossa) 64-bit no WSL2.

Preparando o sistema

Vamos primeiro usar a linha de comando do seu sistema Unix para atualizá-lo. Abra o terminal e insira os seguintes comandos:

sudo apt-get update
sudo apt-get upgrade

Agora, vamos instalar alguns programas úteis, principalmente para garantir que os programas que vamos instalar vão funcionar corretamente. Alguns deles (como por exemplo o default-jdk e bibliotecas do Java), podem já estar instalados por padrão no seu sistema. Mas só para garantir mostro os comandos abaixo:

sudo apt-get install -y curl unzip build-essential ncurses-dev
sudo apt-get install -y byacc zlib1g-dev python-dev git cmake
sudo apt-get install -y default-jdk ant

Instalando o Miniconda

Agora eu vou instalar o software do Miniconda.

O que é o Miniconda?

Miniconda é uma versão simplificada do conda, um sistema de gerenciamento de ambientes. Cada programa que instalamos em nossos computadores depende de outros programas para funcionar. Vamos supor que existe um programa X que precisa de um programa Y para funcionar. O X pode parar de funcionar se o Y ganha uma atualização que por qualquer motivo é incompatível com o programa X original.

Dessa forma, ambientes foram desenvolvidos para solucionar esse tipo de problema, porque eles servem para isolar grupos de programas, para assegurar que apenas softwares compatíveis estão funcionando juntos.

Instalei o Miniconda para criar um ambiente e preenchê-lo com ferramentas de Bioinformática. O ideal é criar cada ambiente para cada finalidade.

Uma funcionalidade do Miniconda é fazer backups do ambiente em arquivos de configuração, que podem inclusive ser compartilhados com outras pessoas, assegurando a reprodutibilidade dos ambientes.

Verifique a versão do Python instalada no seu sistema com o comando:

python --version

Em seguida, verifique na página de instalação. No meu caso, tenho o Python 3.7.7 instalado, então eu faço o download do instalador com o comando abaixo. Substitua o link do script de instalação correspondente caso necessário.

curl https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh > Miniconda3-latest-Linux-x86_64.sh

Agora, vá até a pasta onde o instalador foi salvo e execute o script:

bash Miniconda3-latest-Linux-x86_64.sh
./Miniconda3-latest-Linux-x86_64.sh # mesmo efeito

Após a instalação, devemos inicializar o Miniconda:

miniconda3/condabin/conda init

Feche o terminal e abra novamente. Nesse momento, o miniconda já deve estar pronto para uso. Você pode verificar usando o comando conda no terminal.

Agora, podemos configurar os canais do conda. Canais são repositórios remotos onde programas são depositados. Por padrão, o miniconda configura o canal defaults. Podemos acrescentar dois canais que são voltados para programas de Bioinformática e Análise de Dados, pois são programas mais especializados que os canais padrão talvez não tenham.

Configurando os canais do Miniconda

Digite os seguintes comandos no terminal:

conda config --add channels bioconda
conda config --add channels conda-forge

O miniconda define prioridades na lista de canais configurados. Quando instalamos algum programa, o miniconda vai procurar primeiro nos canais com maior prioridade, depois nos com menor prioridade. Portanto, podemos indicar ao miniconda que canais mais especializados devem ser procurados primeiro.

O comando --add usado acima coloca o canal no topo da lista de prioridades. Caso você não quisesse um deles no topo, utilize o comando --append em vez do --add. Assim, a ordem dos canais na nossa nova instalação do miniconda será: conda-forge, bioconda e finalmente, defaults.

Criando um ambiente

Agora que configuramos o miniconda, vou criar o ambiente que receberá os programas de Bioinformática. Vou chamá-lo de bioenv. Você pode escolher qualquer nome que quiser!

conda create -y --name bioenv python=3.6

A flag python indica qual versão do Python deverá ser instalada no ambiente. Observe que, portanto, escolhi a versão 3.6.

Ativando e desativando um ambiente com Miniconda

Com o ambiente bioenv criado, devemos ativá-lo para poder usá-lo:

conda activate bioenv

É necessário fazer esse passo toda vez antes de usar os programas contidos no ambiente. Esse comando serve para que o sistema “enxergue” os programas que instalamos pelo conda separadamente de outros ambientes e do sistema operacional.

Desativar o ambiente vai fazer com que o sistema não mais procure os programas através do conda:

conda deactivate

Instalando programas

Agora finalmente podemos instalar os programas. Ative o ambiente caso esteja desativado. Baixe o arquivo bioenv.txt no meu repositório GitHub. Esse arquivo contém uma lista de programas de Bioinformática bastante utilizados (agradecimentos ao Dr. István Albert). Em seguida, execute o comando abaixo:

cat bioenv.txt | xargs conda install -y

Explicando: o comando cat lê o arquivo e passamos o output por meio de um pipe | para o comando xargs construir uma série de comandos conda install -y. A flag -y instala os programas sem solicitar confirmações para o usuário.

Salvando e recuperando a configuração do seu ambiente

O miniconda possui um comando especial para fazer um backup da configuração do seu ambiente. Ative o ambiente caso necessário e execute o comando:

conda env export | grep -v "prefix" > bioenv.yml

O output será um arquivo YAML na pasta de trabalho atual contendo todas as configurações do seu ambiente. Eu chamei o arquivo de bioenv.yml, mas você pode escolher o nome que quiser. Observe que se já houver um arquivo chamado bioenv.yml na pasta ele será sobrescrito, então fique atento(a).

Para recuperar esse ambiente em seu computador (ou outro computado com uma instalação miniconda), primeiro instale o miniconda novamente se necessário e então use o comando:

conda env create -f bioenv.yml

A flag -f indica que você criará um ambiente usando um arquivo (no caso, o bioenv.yml). A primeira linha do .yml define o nome do ambiente, então você pode alterá-lo se quiser. Ele também vai restaurar eventuais canais configurados na instalação anterior do miniconda.

Conclusão

Pronto! Agora você tem um kit de ferramentas de Bioinformática no seu computador. Sugiro ler com atenção a lista de programas que eu forneci, procure na internet para que eles servem e, claro, ponha a mão na massa! Nós do Blog da Varsomics pretendemos postar exemplos em breve dos usos dessas ferramentas, então fique ligado(a).

  • Preparei um sistema Unix para receber programas de Bioinformática;
  • Instalei o miniconda, um gerenciador de ambientes;
  • Configurei canais do miniconda para que eu conseguisse instalar os software desejados;
  • Criei um ambiente, demonstrei como ativá-lo e desativá-lo, e finalmente instalei programas comumente usados para análises de Bioinformática nele;
  • Demonstrei como fazer um backup do ambiente.

Quer saber mais sobre medicina de precisão e as soluções para seu laboratório? Conheça as ferramentas da Varsomics!

Relacionados