FASTA: como realizar a leitura de sequências?

FASTA e FASTQ são são formatos básicos, onipresentes e versáteis de informações para armazenar sequências de nucleotídeos e proteínas.

Um dos principais desafios no uso de softwares para a bioinformática é a grande variedade de formatos de sequência como o GenBank, EMBL e FASTA. Muitas vezes, uma sequência ou um conjunto de sequências está em um formato de arquivo, mas é necessário em outro.

A Sequência FASTA é um dos formatos mais versáteis de informações para análises de bioinformática, na qual pode ser feita com diferentes algoritmos e softwares. Por exemplo, é possível realizar a comparação de uma sequência contra um banco de dados para entender o que já é conhecido sobre sequências similares (sequências similares podem ter funções similares).

Tendo esse conhecimento em mente, uma sequência em formato FASTA é o início do mundo da bioinformática, pois utilizamos esses arquivos para as mais diversas análises dependendo da pergunta biológica ou da pesquisa.

O formato FASTA

O que é uma sequência FASTA?

FASTA e FASTQ são formatos básicos e onipresentes para armazenar sequências de nucleotídeos e proteínas. O FASTA foi introduzido pela primeira vez no software FASTA, e o FASTQ foi originalmente desenvolvido no Wellcome Trust Sanger Institute. Manipulações comuns do arquivo FASTA/Q incluem conversão, pesquisa, filtragem, exclusão de duplicações, divisão, embaralhamento e amostragem de amostras.

As ferramentas existentes implementam apenas algumas dessas manipulações, e não são particularmente eficientes. Além disso, algumas estão disponíveis apenas para certos sistemas operacionais. O processo complicado de instalação de pacotes necessários e ambientes em execução pode tornar esses programas menos fáceis de usar por causa de outros formatos em que são aceitos (GenBank, EMBL e FASTA).

O formato FASTA confere o acesso rápido de sequências e reduz o uso de memória computacional.

O arquivo FASTA codifica um identificador, ou seja, uma descrição de texto livre e a sequência para cada proteína. O formato é muito simples, usado pela maioria dos mecanismos de pesquisa e ferramentas de processamento à jusante, e é exportado por quase todos os fornecedores de listas de sequências de proteínas.

Nos casos em que um mecanismo de pesquisa de sequência não usa FASTA, há um programa de pré-indexação ou pré-processamento para transformar arquivos FASTA no formato necessário.

Leitura de sequência em FASTA

Exemplo de uma sequência fasta
Disponível em: <https://www.ncbi.nlm.nih.gov/nuccore/NM_000157.4?report=fasta>
Como ler o formato FASTA?

Ao visualizar a imagem adquirida no banco de dados do NCBI, observe que a cada sequência o FASTA há um símbolo “>” que indica o início de uma sequência, os números de identificação, seguido pela espécie (Homo Sapiens) e a proteína (glucosylceramidase beta (GBA)).

Neste caso, também podemos observar a presença de variantes indicado por “transcript variant 1” e que é uma sequência de mRNA. Em seguida é disponibilizada a sequência.

No entanto, o formato FASTA tem várias deficiências amplamente reconhecidas.

  • Os arquivos FASTA podem não conter metadados sobre a própria coleção: origem, data de produção, principais suposições e parâmetros usados em sua produção etc.
  • A linha de descrição de cada entrada é um texto livre não estruturado no qual diferentes produtores de arquivos inserem metadados de nível de entrada de várias maneiras. Desse modo, pacotes de software não conseguem interpretar os dados de forma consistente; até mesmo o identificador de uma única proteína está sujeito a variações de análise, dificultando o mapeamento de proteínas em diferentes versões de um arquivo FASTA.
  • Não há nenhum mecanismo para anotar os locais e a natureza das modificações pós-traducionais (PTMs) conhecidas e variantes de sequência. Essas informações estão se tornando cada vez mais importantes em análises abrangentes de conjuntos de dados e para descrever formas proteicas reais. O formato UniProtKB/Swiss-Prot.DAT permite a codificação de variantes e PTMs, mas não é padronizado ou comumente usado para informar a pesquisa de banco de dados.

À medida que os estudos de proteogenômica se tornam mais difundidos, o interesse em PTMs cresce e a capacidade computacional disponível se expande, as deficiências no formato FASTA se tornaram um problema agudo que poderia ser corrigido com um padrão aprimorado desenvolvido pela comunidade do PSI.

Todos os padrões propostos são primeiramente submetidos ao Processo de Documento PSI, um processo de revisão de três níveis que deve ser concluído antes que qualquer proposta seja declarada padrão ratificado.

O PSI é um consórcio aberto de partes interessadas, e incentiva a participação e feedback crítico, sugestões e contribuições para o PEFF e outros formatos PSI por meio da participação em workshops anuais da PSI, teleconferências, plataforma de colaboração GitHub e listas de discussão PSI (consulte http://www.psidev.info/).

Leitura de sequencia em FASTQ


Exemplo de sequencia FASTQ. fonte: COCK, Peter JA et al. The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. Nucleic acids research, v. 38, n. 6, p. 1767-1771, 2010.
Como ler o formato FASTQ?

A primeira linha contém o título ‘@’ que geralmente apresenta apenas um identificador de registro. Este é um campo de formato livre sem limite de comprimento – permitindo que anotações arbitrárias ou comentários sejam incluídos, como no exemplo acima, onde o NCBI incluiu um ID alternativo e o comprimento da sequência. Alguns centros de sequenciamento codificam informações de leitura final emparelhadas aqui (alternativamente, dois arquivos FASTQ correspondentes são frequentemente usados).

  • Depois, temos a(s) linha(s) de sequência, que, como no formato FASTA, podem ser enroladas em linha. Assim como no formato FASTA, não há limitação explícita nos caracteres esperados, mas a restrição aos códigos de letra única da IUPAC para DNA ou RNA (ambíguo) é sábia, e maiúsculas são convencionais. Em alguns contextos, o uso de maiúsculas e minúsculas ou mistas ou a inclusão de um caractere gap pode fazer sentido. Espaços em branco, como guias ou espaços, não são permitidos.
  • Para sinalizar o final das linhas de sequência e o início da string de qualidade, vem a linha ‘+’. Originalmente, isso também incluía uma repetição completa do texto da linha de título (como mostrado no exemplo NCBI acima); no entanto, pelo uso comum e pela convenção da ferramenta MAQ, isso é opcional e a linha ‘+’ pode conter apenas esse caractere, reduzindo significativamente o tamanho do arquivo.
  • Finalmente, a linha de qualidade que novamente pode ser embrulhada. Como discutido acima, eles usam um subconjunto dos caracteres imprimíveis ASCII (no máximo ASCII 33-126 inclusive) com um mapeamento de deslocamento simples. Fundamentalmente, após a concatenação (remoção de quebras de linha), a string de qualidade deve ser igual em comprimento à string de sequência.

É vital observar que o caractere marcador ‘@’ (ASCII 64) pode ocorrer em qualquer lugar da string de qualidade, inclusive no início de qualquer uma das linhas de qualidade. Isso significa que qualquer analisador não deve tratar uma linha começando com ‘@’ como indicando o início do próximo registro, sem verificar adicionalmente o comprimento da string de qualidade até agora corresponde ao comprimento da sequência.

Devido a essa complicação, a maioria das ferramentas produz arquivos FASTQ sem quebra de linha da sequência e string de qualidade. Portanto, cada leitura consiste exatamente em quatro linhas (às vezes linhas muito longas), ideais para um analisador muito simples lidar. As ferramentas OBF seguem esta convenção de saída, assim como o script de conversão MAQ. Recomendamos isso para máxima compatibilidade com analisadores (simplistas).

Como os arquivos FASTQ (como arquivos FASTA) são texto simples, os novos caracteres de linha normalmente seguirão a convenção do sistema operacional. No entanto, como os dados são compartilhados entre máquinas, qualquer analisador deve lidar com novas linhas no estilo Unix (somente alimentação de linha, ASCII 10) e com o estilo DOS/Windows (retorno de carro e alimentação de linha, ASCII 13 e depois 10).

Sobre o Autor:

Sarah Sandy Sun, graduanda em Informática Biomédica pela Universidade de São Paulo de Ribeirão Preto, membro de Recursos Humanos da Empresa Júnior (Infobio Jr).

Referências:

PEARSON, William R. Using the FASTA program to search protein and DNA sequence databases. In: Computer Analysis of Sequence Data. Humana Press, 1994. p. 307-331.

SHEN, Wei et al. SeqKit: a cross-platform and ultrafast toolkit for FASTA/Q file manipulation. PloS one, v. 11, n. 10, p. e0163962, 2016.

GILBERT, Don. Sequence File Format Conversion with Command‐Line Readseq. Current protocols in bioinformatics, n. 1, p. A. 1E. 1-A. 1E. 4, 2003.

BINZ, Pierre-Alain et al. Proteomics standards initiative extended FASTA format. Journal of proteome research, v. 18, n. 6, p. 2686-2692, 2019.

COCK, Peter JA et al. The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. Nucleic acids research, v. 38, n. 6, p. 1767-1771, 2010.

Relacionados