O que é um arquivo com formato BED?

O formato BED (Browser Extensible Data) é uma forma flexível e simples de representar regiões genômicas.
ilustração de arquivo em formato bed

O formato BED (Browser Extensible Data) é uma forma flexível e simples de representar regiões genômicas. Esse formato é baseado em linhas, delimitado por tabulações, designado para anotações de informações sobre o dado genômico.

Como o arquivo BED pode ser utilizado em um estudo?

Além de ser um bom formato para armazenar diferentes tipos de anotações sobre uma determinada região, o BED pode ser utilizado em tarefas bem específicas. Em estudos genômicos, por exemplo, um arquivo BED delimita exatamente regiões do genoma (por exemplo, genes) que você quer estudar, ignorando todo o resto. Além disso, após uma etapa de alinhamento, medidas como cobertura da amostra, ou mesmo de regiões alvo, ficam intrinsecamente ligada às posições contidas no arquivo BED. Podemos ver ainda o arquivo BED sendo utilizado amplamente para representar repetições no genoma, isoformas de proteínas, regiões ORF ou mesmo regiões de ligação de fatores de transcrição.

Para a manipulação de um arquivo BED, destaca-se o programa Bedtools.

Especificações do formato

As três primeiras colunas são compulsórias e de formato padrão, utilizadas para indicar as regiões genômicas. As demais colunas que o arquivo BED pode vir a ter, varia de acordo com o tipo de análise a ser realizada e de acordo com o programa que irá utilizá-lo. Além disso, cada linha corresponde à uma única anotação.

Na maioria das vezes é necessário que o arquivo BED utilizado esteja ordenado por nome, seguido de posição inicial.

Sobre colunas obrigatórias:

  • 1º coluna – Fragmento genômico em que a anotação poderá ser encontrada (ex: chr5; scaffold SCAF01; contig NGAT753783);
  • 2º coluna – Posição inicial da região de interesse que inicia em base zero. Isso o faz diferente de alguns outros arquivos de uso comum, como VCF e GFF, que possuem a base 1 como início;
    – A base zero significa que a primeira base do fragmento genômico é numerada como zero;
  • 3º coluna – Posição final da região de interesse em base 1;
    – A base 1 na posição final, significa que a base final representada pelo valor não será capturado pelos programas, entretanto ele estará representado na tabela.

Ex.: Queremos as primeiras 30 bases do cromossomo 21. A anotação dessa informação no formato BED seria:

Chr21     0     30

Ou seja, os programas usariam a base 0 até 29 do cromossomo 21, e não de 0 até 30 (o que seriam 31 bases).

ebook principais arquivos em rotinas de sequenciamento

Sobre a autora:

Livia Moura é Ph.D em bioinformática, já trabalhou com curadoria de genoma e desenvolvimento de scripts na Universidade da Califórnia, Berkeley e hoje em dia atua como bioinformata no Hospital Albert Einstein.

Referências:

[1] https://bedtools.readthedocs.io/en/latest/content/general-usage.html

https://doi.org/10.1093/bioinformatics/btq033

[2] https://www.ensembl.org/info/website/upload/bed.html

1 comment
Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Relacionados