Arquivos de Sequenciamento: Conheça Os Principais

Quais são os principais arquivos de computador gerados pelo sequenciamento genético? Descubra!

O sequenciamento de DNA tornou-se uma ferramenta importante para entender melhor o genoma humano. Com esta técnica, conseguimos entender variações no genoma de cada indivíduo, e se estas variações têm relação, ou não, com alguma condição.

Dessa forma, surgiram arquivos de sequenciamento específicos para armazenar, analisar e transferir informações geradas nesse processo.

Para entender melhor esse universo, vamos falar sobre os arquivos: FASTA, FASTQ, BAM/SAM, VCF e BED, acompanhe!

Principais arquivos de sequenciamento genético

Os arquivos de sequenciamento geralmente são armazenados em formato digital, e contêm uma grande quantidade de informações sobre a amostra que foi sequenciada. Eles são usados em muitas áreas da pesquisa em biologia molecular, incluindo estudos de genética, evolução, doenças genéticas e desenvolvimento de medicamentos.

Os arquivos de sequenciamento podem ser processados ​​usando uma variedade de ferramentas bioinformáticas para extrair informações úteis, como identificar variantes genéticas, analisar padrões de expressão gênica e comparar sequências entre diferentes espécies.

Conheça a seguir os principais formatos de arquivo gerados em uma rotina de sequenciamento.

FASTA

O arquivo FASTA é utilizado para armazenar informações biológicas, tanto de nucleotídeos quanto de aminoácidos. Em rotinas de análise de dados provenientes de sequenciamento do genoma humano é crucial usarmos genomas de referência, que são armazenados em arquivos FASTA.

Os genomas de referência contém toda a informação de forma linear de um material genético de uma espécie. 

Um arquivo .FASTA do genoma humano, terá cerca de 3 bilhões de letras (ATCG), que representam o material genético de um grupo de indivíduos selecionados para compor o genoma de referência. E este arquivo FASTA será usado como guia nos programas de mapeamento e chamada de variantes, para entendermos quais são as variantes presentes em um determinado paciente.

FASTq

O arquivo FASTQ é resultado da conversão das informações geradas pela tecnologia de sequenciamento utilizada, como a análise de imagens quando consideramos a tecnologia Illumina. Neste tipo de arquivo estão contidas as sequências de bases nitrogenadas do DNA e suas respectivas pontuações de qualidade.

Cada sequência neste arquivo é comumente chamada de read, termo em inglês para leitura, que faz referência a um trecho do material genético que foi “lido” pelo processo de sequenciamento. 

São estes arquivos que são utilizados na etapa de mapeamento, junto com o genoma de referência em formato FASTA, para permitir a identificação de variantes.

BED

O arquivo BED é usado para representar regiões genômicas de forma simples e flexível. Ele é baseado em linhas e contém informações sobre as anotações do dado genômico, em sua forma mais básica, onde inicia e onde termina alguma característica (um gene por exemplo) em um segmento de DNA, no nosso caso, de um cromossomo.

Esse formato é comumente usado para delimitar regiões do genoma que serão estudadas, ignorando o restante, como por exemplo, em um estudo de mutações dos genes BRCA – que afetam a probabilidade de uma pessoa desenvolver câncer de mama – não precisamos olhar para todo o genoma, apenas para as regiões destes genes. 

BAM

O arquivo BAM representa as informações do mapeamento – FASTQ comparado com FASTA – de forma binária. O arquivo binário contém toda a informação do arquivo Sequence Alignment Map (SAM), porém, costuma ser mais utilizado pois ocupa menos espaço de armazenamento.

Esses arquivos contém diversas informações sobre o alinhamento read-referência, como a posição do alinhamento, a qualidade do mapeamento (MAQ), o nome dos reads e das sequências de referência com as quais foram alinhados.

VCF

O arquivo VCF armazena as informações das variantes genéticas identificadas em um organismo. Ele é baseado em texto e contém informações como variantes do tipo SNP, Indels e variantes estruturais maiores, além de anotações adicionais.

Além disso, este arquivo é versionado, ou seja, existem diferentes versões de arquivos VCF, e isto reflete no conteúdo de informações que podem ser abrigadas.

Representação dos arquivos de sequenciamento em diversas etapas da análise genômica
Em um sequenciamento genético, fragmentos do material genético (reads) são gerados e armazenados com suas pontuações de qualidade em arquivos do tipo FASTQ, que podem ser então mapeados contra um genoma de referência, este em formato FASTA. O mapeamento resulta na produção de um arquivo BAM, que será utilizado na chamada de variantes em sua totalidade, ou em regiões específicas indicadas em um arquivo BED. O arquivo VCF, portanto, é o produto da chamada de variantes, ou seja, da identificação das bases que diferem do genoma de referência.

Seguindo o fluxo descrito na imagem, o VCF é o produto final de uma análise de chamada de variantes, após mapearmos os reads (FASTQ) contra o genoma de referência (FASTA), e identificar regiões específicas (BED) no mapeamento (SAM/BAM), nós podemos obter as variantes nestas regiões (VCF).

Conclusão

São diversas as etapas envolvidas na análise do sequenciamento genético humano, e entender os arquivos presentes em cada etapa é o primeiro passo para quem deseja trabalhar nesta área. Caso você queira aprofundar ainda mais o seu conhecimento, confira nosso E-book “principais arquivos utilizados em rotinas de sequenciamento”.

Relacionados