O formato BED (Browser Extensible Data) é uma forma flexível e simples de representar regiões genômicas. Esse formato é baseado em linhas, delimitado por tabulações, designado para anotações de informações sobre o dado genômico.
Como o arquivo BED pode ser utilizado em um estudo?
Além de ser um bom formato para armazenar diferentes tipos de anotações sobre uma determinada região, o BED pode ser utilizado em tarefas bem específicas. Em estudos genômicos, por exemplo, um arquivo BED delimita exatamente regiões do genoma (por exemplo, genes) que você quer estudar, ignorando todo o resto. Além disso, após uma etapa de alinhamento, medidas como cobertura da amostra, ou mesmo de regiões alvo, ficam intrinsecamente ligada às posições contidas no arquivo BED. Podemos ver ainda o arquivo BED sendo utilizado amplamente para representar repetições no genoma, isoformas de proteínas, regiões ORF ou mesmo regiões de ligação de fatores de transcrição.
Para a manipulação de um arquivo BED, destaca-se o programa Bedtools.
Especificações do formato
As três primeiras colunas são compulsórias e de formato padrão, utilizadas para indicar as regiões genômicas. As demais colunas que o arquivo BED pode vir a ter, varia de acordo com o tipo de análise a ser realizada e de acordo com o programa que irá utilizá-lo. Além disso, cada linha corresponde à uma única anotação.
Na maioria das vezes é necessário que o arquivo BED utilizado esteja ordenado por nome, seguido de posição inicial.
Sobre colunas obrigatórias:
- 1º coluna – Fragmento genômico em que a anotação poderá ser encontrada (ex: chr5; scaffold SCAF01; contig NGAT753783);
- 2º coluna – Posição inicial da região de interesse que inicia em base zero. Isso o faz diferente de alguns outros arquivos de uso comum, como VCF e GFF, que possuem a base 1 como início;
– A base zero significa que a primeira base do fragmento genômico é numerada como zero; - 3º coluna – Posição final da região de interesse em base 1;
– A base 1 na posição final, significa que a base final representada pelo valor não será capturado pelos programas, entretanto ele estará representado na tabela.
Ex.: Queremos as primeiras 30 bases do cromossomo 21. A anotação dessa informação no formato BED seria:
Chr21 0 30
Ou seja, os programas usariam a base 0 até 29 do cromossomo 21, e não de 0 até 30 (o que seriam 31 bases).


Sobre a autora:
Livia Moura é Ph.D em bioinformática, já trabalhou com curadoria de genoma e desenvolvimento de scripts na Universidade da Califórnia, Berkeley e hoje em dia atua como bioinformata no Hospital Albert Einstein.
Referências:
[1] https://bedtools.readthedocs.io/en/latest/content/general-usage.htmlhttps://doi.org/10.1093/bioinformatics/btq033
[2] https://www.ensembl.org/info/website/upload/bed.html
Sensacional.
Um assunto complexo, escrito de forma clara e elucidativa.