Hail: ferramenta de análise genômica escalonável

Hail é uma ferramenta de código livre escrita em Python/Spark que tem o objetivo de simplificar a análise de dados genômicos.

Com o avanço dos métodos de sequenciamento genético, cada vez mais os bioinformatas precisam de ferramentas de análise de genomas capazes de lidar com grandes volumes de dados. Conheça uma delas: a Hail.

O campo de estudo da Genética está em constante desenvolvimento. O progresso contínuo no rendimento de máquinas de sequenciamento de nova geração (NGS) permite que criemos arquivos de computador contendo a sequência completa de genomas de indivíduos com facilidade e velocidade que eram impensadas até poucos anos atrás. Essa grande velocidade de geração de dados vem exigindo computadores mais poderosos e programas de computador que consigam lidar com grandes volumes de dados genômicos. Uma ferramenta foi criada com isso em mente: a Hail.

O que é a Hail?

A Hail é uma ferramenta de código livre (open-source) escrita em Python/Spark criada pelo Instituto Broad. A Hail tem o objetivo de simplificar a análise de dados genômicos. Outra proposta interessante da ferramenta é que ela funciona de maneira escalonável, ou seja: é projetada para funcionar tanto com milhares de computadores conectados em cluster na nuvem funcionando em paralelo, quanto em um computador comum com uma razoável configuração de hardware. O objetivo da Hail é usar as máquinas disponíveis da maneira mais eficiente possível.

Para que serve a Hail?

A Hail possui várias funções relacionadas com o processo de análise genômica: importar dados genômicos (formatos compatíveis incluem arquivos VCF, BED , separado por tabulações, dentre outros), realizar controle de qualidade do sequenciamento (retirar amostras com cobertura de sequenciamento abaixo do desejável), fazer cálculos estatísticos (estudos de associação de genoma completo), dentre outros. Dessa forma, a ideia do Hail é reunir em um só programa o que normalmente se faz com vários programas separados (um “canivete suíço bioinformático”, por assim dizer).

Quem está usando a Hail?

A Hail está sendo desenvolvida desde 2016. Desde então, ela foi usada pelo Instituto Broad para auxiliar no desenvolvimento do gnomAD, um importante banco de dados genômicos a nível populacional, utilizado por vários pesquisadores ao redor do mundo. Além disso, vem ganhando atenção da comunidade científica, sendo citada em mais de 50 publicações nesses cinco anos.

Como começar a usar a Hail?

O usuário utiliza a ferramenta por meio da linguagem Python, uma linguagem de programação geralmente considerada de fácil entendimento para novos usuários. Assim, novos usuários podem instalar a Hail por meio do gerenciador pip, normalmente instalado junto com o interpretador Python. A ferramenta é compatível com Unix, MacOS, e clusters em nuvem tais como Google Dataproc e Spark. Para mais detalhes e dependências, consulte a documentação da Hail . O usuário pode utilizar a ferramenta em seu próprio computador com pequenos volumes de dados ou testar o código antes de aplica-lo na computação em nuvem.

Como posso aprender mais sobre o assunto?

Existem vários recursos para ajudar novos usuários da ferramenta. A documentação é um bom ponto de partida. O Instituto Broad possui uma playlist de vídeos no YouTube  de um workshop sobre a Hail.

Como a Varstation pretende usar a ferramenta?

O Varstation é parceiro do Projeto Genomas Raros, uma parceria público-privada entre o Hospital Israelita Albert Einstein e o Ministério da Saúde no âmbito da lei de Projetos de Apoio ao SUS (Lei 12.101/09), que tem como objetivo melhorar a implementação de análise genômica no SUS, para melhorar a taxa de diagnósticos de doenças raras no Brasil. A equipe do Projeto Genomas Raros pretende usar a Hail para investigar o genoma completo de milhares de indivíduos com suspeita de serem afetados por doenças genéticas para identificar novas variantes genéticas raras de importância clínica.

1 comment
Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Relacionados