O sequenciamento de DNA tornou-se uma ferramenta importante para entender melhor o genoma humano. Com esta técnica, conseguimos entender variações no genoma de cada indivíduo, e se estas variações têm relação, ou não, com alguma condição.
Dessa forma, surgiram arquivos de sequenciamento específicos para armazenar, analisar e transferir informações geradas nesse processo.
Para entender melhor esse universo, vamos falar sobre os arquivos: FASTA, FASTQ, BAM/SAM, VCF e BED, acompanhe!
Principais arquivos de sequenciamento genético
Os arquivos de sequenciamento geralmente são armazenados em formato digital, e contêm uma grande quantidade de informações sobre a amostra que foi sequenciada. Eles são usados em muitas áreas da pesquisa em biologia molecular, incluindo estudos de genética, evolução, doenças genéticas e desenvolvimento de medicamentos.
Os arquivos de sequenciamento podem ser processados usando uma variedade de ferramentas bioinformáticas para extrair informações úteis, como identificar variantes genéticas, analisar padrões de expressão gênica e comparar sequências entre diferentes espécies.
Conheça a seguir os principais formatos de arquivo gerados em uma rotina de sequenciamento.
FASTA
O arquivo FASTA é utilizado para armazenar informações biológicas, tanto de nucleotídeos quanto de aminoácidos. Em rotinas de análise de dados provenientes de sequenciamento do genoma humano é crucial usarmos genomas de referência, que são armazenados em arquivos FASTA.
Os genomas de referência contém toda a informação de forma linear de um material genético de uma espécie.
Um arquivo .FASTA do genoma humano, terá cerca de 3 bilhões de letras (ATCG), que representam o material genético de um grupo de indivíduos selecionados para compor o genoma de referência. E este arquivo FASTA será usado como guia nos programas de mapeamento e chamada de variantes, para entendermos quais são as variantes presentes em um determinado paciente.
FASTq
O arquivo FASTQ é resultado da conversão das informações geradas pela tecnologia de sequenciamento utilizada, como a análise de imagens quando consideramos a tecnologia Illumina. Neste tipo de arquivo estão contidas as sequências de bases nitrogenadas do DNA e suas respectivas pontuações de qualidade.
Cada sequência neste arquivo é comumente chamada de read, termo em inglês para leitura, que faz referência a um trecho do material genético que foi “lido” pelo processo de sequenciamento.
São estes arquivos que são utilizados na etapa de mapeamento, junto com o genoma de referência em formato FASTA, para permitir a identificação de variantes.
BED
O arquivo BED é usado para representar regiões genômicas de forma simples e flexível. Ele é baseado em linhas e contém informações sobre as anotações do dado genômico, em sua forma mais básica, onde inicia e onde termina alguma característica (um gene por exemplo) em um segmento de DNA, no nosso caso, de um cromossomo.
Esse formato é comumente usado para delimitar regiões do genoma que serão estudadas, ignorando o restante, como por exemplo, em um estudo de mutações dos genes BRCA – que afetam a probabilidade de uma pessoa desenvolver câncer de mama – não precisamos olhar para todo o genoma, apenas para as regiões destes genes.
BAM
O arquivo BAM representa as informações do mapeamento – FASTQ comparado com FASTA – de forma binária. O arquivo binário contém toda a informação do arquivo Sequence Alignment Map (SAM), porém, costuma ser mais utilizado pois ocupa menos espaço de armazenamento.
Esses arquivos contém diversas informações sobre o alinhamento read-referência, como a posição do alinhamento, a qualidade do mapeamento (MAQ), o nome dos reads e das sequências de referência com as quais foram alinhados.
VCF
O arquivo VCF armazena as informações das variantes genéticas identificadas em um organismo. Ele é baseado em texto e contém informações como variantes do tipo SNP, Indels e variantes estruturais maiores, além de anotações adicionais.
Além disso, este arquivo é versionado, ou seja, existem diferentes versões de arquivos VCF, e isto reflete no conteúdo de informações que podem ser abrigadas.

Seguindo o fluxo descrito na imagem, o VCF é o produto final de uma análise de chamada de variantes, após mapearmos os reads (FASTQ) contra o genoma de referência (FASTA), e identificar regiões específicas (BED) no mapeamento (SAM/BAM), nós podemos obter as variantes nestas regiões (VCF).
Conclusão
São diversas as etapas envolvidas na análise do sequenciamento genético humano, e entender os arquivos presentes em cada etapa é o primeiro passo para quem deseja trabalhar nesta área. Caso você queira aprofundar ainda mais o seu conhecimento, confira nosso E-book “principais arquivos utilizados em rotinas de sequenciamento”.

