Inovamos hoje para que você tenha um amanhã melhor.

Bioinformática: Como implementar pipelines de NGS

Através da crescente evolução das metodologias de sequenciamento de DNA, especificamente o sequenciamento de nova geração (NGS), houve uma revolução na prática da medicina. Hoje, é possível personalizar diagnósticos, avaliar riscos com precisão, e direcionar tratamentos mais eficazes para pacientes com diversas doenças. O alto rendimento dos sequenciadores de DNA permitiu o acesso a milhares de dados complexos, e hoje, um dos grandes desafios dos laboratórios clínicos é justamente a análise bioinformática e interpretação de todos esses dados para detecção de alterações clinicamente relevantes.

Uma vez sequenciado o DNA de interesse, o que fazer com toda a informação gerada?

É aí que entra a bioinformática. Especialmente no contexto da genômica, a bioinformática organiza e analisa informações genéticas complexas utilizando uma combinação de ferramentas de informática, matemática e estatística. O processamento dos dados brutos para detecção de alterações genéticas tem um impacto muito significante no manejo clinico dos pacientes, e a bioinformática é a disciplina que compreende e organiza esses dados.

Algoritmos de bioinformática executados através de uma sequência pré-determinada para processar os dados de NGS são coletivamente denominados de pipeline de bioinformática. Um pipeline de bioinformática orienta e processa progressivamente dados de NGS através de uma série de conversões de dados, utilizando vários componentes de softwares, bancos de dados e ambientes operacionais.

Assim como todos os hardwares e softwares utilizados para o cuidado clínico do paciente, cada passo de um pipeline de NGS emite controles de qualidade (CQ), que são fundamentais para acompanhar a qualidade das análises para solução de possíveis problemas, e para estar em conformidade com os requisitos de validação e regulamentação. Além disso, é importante lembrar que um pipeline de bioinformática depende tipicamente da disponibilidade de alguns recursos, como capacidade de armazenamento adequada, computadores, conexão à rede, ambiente apropriado para execução dos softwares.

Antes de continuar, precisamos entender os principais termos utilizados em NGS e bioinformática

A seguir, temos um glossário dos principais termo utilizados, fundamentais para compreensão de todo processo de pipelines de análise:

Tabela 1: Principais termos de bioinformática utilizados para pipelines de análise de NGS

Entendendo como ocorre o processamento e análise de bioinformática

Os pipelines de bioinformática (Figura 1) geralmente são plataformas específicas customizadas de acordo com as necessidades de cada laboratório, mas que consistem basicamente em alguns passos principais: geração da sequência de interesse, alinhamento da sequência com o genoma de referência, chamada de variantes, anotação das variantes, seleção das variantes e elaboração do laudo clínico. A seguir, entenderemos um pouco melhor como funcionam cada um desses passos.

  • Geração da sequência de interesse: É o processo que converte os sinais emitidos pelos sensores (informações ópticas ou químicas) em informação binária para identificação da sequência de nucleotídeos de cada pequeno fragmento de DNA sequenciado. Para cada nucleotídeo é atribuído o score de qualidade Phred, que é específico para cada tipo de plataforma de sequenciamento. As sequências juntamente com o score Phred são armazenados em arquivos FASTQ.
  • Alinhamento da sequência: Processo que determina onde cada pequeno fragmento de DNA sequenciado alinha com o genoma de referência. Esse processo mapeia os scores de qualidade Phred para cada read, além de mapear a localização (coordenada genômica) de cada read alinhado, que pode ser utilizado para determinar a cobertura do sequenciamento. As informações de alinhamento são armazenadas em um arquivo BAM.
  • Chamada de variantes: Processo de identificação das bases que diferem do genoma de referência. O arquivo input geralmente é o BAM gerado no alinhamento dos reads. A chamada de variantes é um conjunto de algorítimos utilizados estrategicamente para cada tipo de variantes, como por exemplo, SNVs ou Indels. A acurácia da chamada de variantes é muito dependente da qualidade das bases chamadas e dos reads alinhados. O produto final da chamada de variantes é um arquivo no formato VCF.
  • Anotação das variantes: Processo de consultas em bancos de dados de sequenciamento e variantes para caracterizar cada variante chamada utilizando inúmeras informações como, por exemplo, a localização da variante, sequencia prevista de aminoácidos (nomenclatura HGVS), frequência alélica populacional, prevalência em diversos bancos de dados, entre outros. Esse processo é fundamental para selecionar ou filtrar variantes para classificação e interpretação.
  • Seleção de variantes e elaboração do laudo clínico: A partir da anotação das variantes, são identificadas as variantes clinicamente significantes para revisão e interpretação. Para esse processo, é fundamental que os pipelines de bioinformática estejam muito bem alinhados e validados, para que não se perca nenhuma variante que possa ser importante para o paciente. As variantes selecionadas são classificadas de acordo com as diretrizes da ACMG. Hoje, plataformas como o Varstation auxiliam fundamentalmente nesse processo de anotação, seleção e classificação de variantes.
Figura 1: Esquema demonstrativo de um pipeline de análise de bioinformática para sequenciamento de nova geração (NGS). Adaptado de Roy et al., 2018.

Como implementar um pipeline de bioinformática?

É fundamental que sejam realizadas validações adequadas para se obter a maior precisão e confiança para análise de resultados de NGS. O pipeline de bioinformática e a plataforma correspondente trabalham em conjunto com outros equipamentos, como por exemplo, os sequenciadores, computadores, recursos de armazenamento de dados, e outros softwares como por exemplo, os programas do próprio centro médico. É essencial que a validação do pipeline de bioinformática inclua também a interface com esses equipamentos e sistemas.

Ainda, para validação e implementação de recursos de bioinformática, é essencial que o laboratório esteja de acordo com as leis federais e locais de regulamentação, bem como sistemas de acreditação (Por exemplo, a acreditação laboratorial CAP). Esse processo é muito importante também para garantir a segurança das informações de cada paciente.

É importante considerar uma abordagem multidisciplinar quando se desenvolvem recursos de bioinformática. O desenvolvimento de uma estrutura completa envolve profissionais com experiência em bioinformática, engenharia de softwares, planejamento estratégico, além de médicos, analistas, entre outros.

Validando um pipeline

O processo de validação como um todo se inicia com a adequação da metodologia de NGS ao quadro clínico que se quer investigar. Hoje temos disponíveis diversas abordagens possíveis para o estudo genômico, como por exemplo, o sequenciamento completo do genoma (WGS), sequenciamento do exoma, e painéis específicos. É necessário então compreender, principalmente, quais informações buscamos, qual o custo-benefício de cada uma das opções, e como será o processamento das amostras e dos resultados obtidos.

A maioria dos laboratórios que realizam exames por NGS estabelecem seus próprios pipelines de bioinformática, que podem envolver diversos softwares para cada passo do processamento das informações. Todos os pontos do processamento dos dados devem ser validados com base no contexto clínico, utilizando amostras de referência específicas comercialmente disponíveis, e/ou amostras do próprio biobanco institucional com resultados prévios conhecidos. Ainda, é possível utilizar dados brutos específicos para validação in silico de pipelines de bioinformática. Todo o processo de validação deve ser desenhado para que o pipeline de bioinformática seja capaz de assegurar a acurácia, especificidade, sensibilidade e reprodutibilidade dos ensaios e das análises.  

Em 2018, foi definida uma diretriz de recomendação de consenso para validação de pipelines de bioinformática que determina, entre outros pontos, que:

– Laboratórios clínicos oferecendo exames por NGS devem realizar a validação do seu próprio pipeline de bioinformática

– Profissionais médicos devidamente qualificados para interpretação de resultados de NGS devem estar envolvidos no processo de análise

– A validação deve ser realizada apenas após a conclusão do projeto, desenvolvimento, otimização e familiarização do pipeline de bioinformática e seus componentes

– A validação deve incluir todos os componentes individuais do pipeline de bioinformática usado na análise, e cada componente deve ser revisado e aprovado por um profissional devidamente qualificado

– O projeto e a implementação do pipeline de bioinformática devem garantir a segurança das informações identificáveis do paciente e estar em conformidade com todas as leis aplicáveis nos níveis local, estadual e nacional

– A validação do pipeline de bioinformática deve ser apropriada e aplicável para o uso clínico pretendido, amostras e tipos de variantes detectados no teste

– Os laboratórios devem garantir que o projeto, a implementação e a validação do pipeline de bioinformática estejam em conformidade com os padrões e regulamentos de acreditação de laboratórios aplicáveis

– O pipeline de bioinformática faz parte do procedimento de teste e seus componentes e processos devem ser documentados de acordo com os padrões e regulamentos de acreditação do laboratório

– Parâmetros específicos de controle de qualidade e garantia de qualidade devem ser avaliados durante a validação e usados para determinar o desempenho satisfatório do pipeline de bioinformática

– Os métodos usados para alterar ou filtrar as leituras de sequência em qualquer ponto do pipeline de bioinformática antes da interpretação devem ser validados para garantir que os dados apresentados para interpretação representem de forma precisa e reproduzível a sequência na amostra, e a documentação completa desses métodos deve ser mantida como parte da documentação de teste de acordo com os padrões e regulamentos de acreditação de laboratório

– A validação in silico pode ser usada para complementar a validação do pipeline de bioinformática, mas não deve ser usada no lugar da validação ponta a ponta dos pipelines de bioinformática usando amostras humanas

– A validação do pipeline de bioinformática deve incluir a confirmação de um conjunto representativo de variantes com dados independentes de alta qualidade; métricas de validação apropriadas por tipo de variante devem ser relatadas

– Os laboratórios clínicos devem garantir a precisão da nomenclatura e anotações de variantes do HGVS geradas por softwares e ter um alerta para indicar quando a nomenclatura e anotações geradas pelo software precisam ser revisadas e / ou corrigidas manualmente, e a documentação de quaisquer correções deve ser mantida

A bioinformática clínica é uma ciência nova e promissora, e que reflete a necessidade de analisar e interpretar adequadamente os dados genômicos gerados em larga escala. Compreender a relação entre informação clínica, informação genética e informação computacional é a premissa principal da bioinformática, para que seja cada vez mais possível decifrar o nosso código genético e compreender, diagnosticar e tratar doenças.

Referências

  • Roy, S., et al. Standards and Guidelines for Validating Next-Generation Sequencing Bioinformatics Pipelines: A Joint Recommendation of the Association for Molecular Pathology and the College of American Pathologists. The Journal of Molecular Diagnostics. Vol 20, issue 1, January. Pg 4-27. 2018
  • Jennings LJ, Arcila ME, Corless C, et al. Guidelines for validation of next-generation sequencing-based oncology panels: A joint consensus recommendation of the Association for Molecular Pathology and College of American Pathologists. J Mol Diagn. 19:341-65. 2017
  • Roy S, LaFramboise WA, Nikiforov YE, et al. Next-generation sequencing informatics: Challenges and strategies for implementation in a clinical environment. Arch Pathol Lab Med. 140:958-75. 2016
  • Wang X, Liotta L. Clinical bioinformatics: a new emerging science. J Clin Bioinformatics. 1(1):1. Published 2011 Jan 20. doi:10.1186/2043-9113-1-1. 2011

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Relacionados