Índice
- Como funciona o sequenciamento?
- Aplicações de Bulk Sequencing em biologia molecular e medicina de precisão
- Limitações e possíveis fontes de erro em Bulk Sequencing
- Diferenças entre Bulk-Seq e Single-Cell Sequencing
- Avanços recentes em Bulk-seq e suas implicações na pesquisa e tratamento de doenças
- O papel da Bioinformática na análise de dados de Bulk-Seq
- Conclusão
- Referências
O sequenciamento massivo (bulk-sequencing ou bulk-seq) é um método que permite ao pesquisador avaliar quantitativamente a expressão de milhares de genes em um único experimento.
Antes desse método, pesquisadores estavam limitados a estudar a expressão gênica de forma direcionada para os genes de interesse, além de conseguirem quantificar o estado ativo ou inativo de apenas um número limitado de genes.
Assim, com o método bulk-seq associado a bioinformática, tal limitação pode ser contornada, permitindo o descobrimento de novos genes, além de estudar todo o transcriptoma de células heterogêneas em uma escala sem precedentes.
Mas você sabe como funciona esse sequenciamento e como analisar os dados gerados? Talvez mais importantemente: quais insights podemos obter com esse experimento e suas análises?
Como funciona o sequenciamento?
O sequenciamento massivo paralelo ou Sequenciamento de Nova Geração (NGS) é um termo utilizado para se referir a um conjunto de técnicas que visam identificar componentes moleculares em larga escala. Tais componentes podem ser o DNA, RNA, elementos da cromatina, entre outros.
O bulk-seq, por sua vez, emergiu na década de 2000 em advento com as tecnologias de NGS. Para fins comerciais, os primeiros recursos utilizados foram desenvolvidos pela Illumina em 2006 com a plataforma Genome Analyzer.
Desde então, diversas outras empresas têm gerado uma quantidade massiva de dados de sequenciamento, tornando mais acessíveis os estudos que envolvem moléculas de ácidos nucleicos.
No entanto, para produzir esses dados em larga escala, é necessário a junção de várias amostras (células ou tecidos) de diferentes tipos em uma única, a qual será sequenciada. Assim, com essa “mixagem”, é possível obter uma amostra grande o suficiente para realizar inferências durante as análises bioinformática, após o processo de sequenciamento.
Em geral, o processo de sequenciamento consiste em:
- Preparação de amostras: essa etapa consiste no processo de coleta, processamento e extração do conteúdo em que se deseja sequenciar (ex: DNA ou RNA);
- Agrupamento: as amostras previamente preparadas são mixadas a fim de se obter uma única amostra (bulk), a qual será sequenciada;
- Seleção de biblioteca: as moléculas de interesse a serem sequenciadas sofrem fragmentação para a posterior inserção de adaptadores às extremidades (3’ UTR ou 5’UTR) para sua amplificação;
- Sequenciamento: processo onde ocorre a leitura destes fragmentos, gerando uma quantidade gigantesca de dados. Tais leituras podem estar na escala de milhares ou milhões de fragmentos.
- Processamento e análise de dados por bioinformática: Nesta etapa os dados gerados são convertidos em informação. Para isso, podem ser utilizadas ferramentas de bioinformática, como o Varstation.


Além da Illumina, existem algumas outras empresas que são referência e que realizam esse sequenciamento, tal como PacBio e Ion Torrent. Apesar de haver algumas diferenças em suas abordagens de sequenciamento, ambas utilizam o material fragmentado para a geração de reads.
Aplicações de Bulk Sequencing em biologia molecular e medicina de precisão
Um exemplo de utilização da tecnologia de bulk-seq está no sequenciamento em massa de RNA (bulk RNA-seq). A abordagem de sequenciamento bulk RNA-seq foi utilizada pela primeira vez em 2008 para quantificar a expressão de genes em mamíferos.
Atualmente, o RNA-seq utiliza duas grandes bibliotecas, uma delas captura somente mRNA, enquanto a outra é empregada na captura de todas as moléculas de RNA presentes na amostra.
Essa separação é devida a abundância de rRNA em uma célula eucariótica, onde os ribossomos podem constituir cerca de 90% de todo o conjunto de RNA.
Nesse contexto, é possível utilizar o bulk-seq para analisar a expressão gênica de células agrupadas em contextos como saúde vs doença e identificar, a nível molecular, quais são as alterações genéticas que levam o indivíduo/paciente a apresentar o fenótipo de determinada doença, sendo ela complexa ou não (ex: câncer).
Além disso, por meio dessa metodologia, é possível identificar marcadores genéticos que auxiliam o médico na elaboração de estratégias clínicas.
Já em pesquisas acadêmicas, o bulk-seq é amplamente utilizado para identificar a expressão diferencial de genes, além de identificar quais as funções biológicas eles exercem, suas vias metabólicas e, até mesmo, quais os RNAs não codificadores estão atuando na regulação dessa expressão.
Limitações e possíveis fontes de erro em Bulk Sequencing
Apesar de ser uma poderosa metodologia para o estudo da expressão gênica, o sequenciamento em massa pode possuir algumas limitações e também características que podem diminuir a confiabilidade dos resultados.
Uma das maiores limitações está em uma de suas premissas: o “aglomerado” de células.
Por utilizar diferentes células ou tecidos de amostras para inferir a expressão média de determinado gene, o sequenciamento em massa perde a característica de conseguir medir essa expressão em célula(s) específicas.
Isso significa que em doenças como o câncer não há como inferir por bulk-seq se determinado gene está sendo expresso em um subtipo celular específico, apenas relatar sua expressão diferencial, dado que o microambiente tumoral é composto por diferentes tipos celulares.
Além disso, por ser um experimento sensível, o mesmo está sujeito a erros. Assim, é importante considerar certas características durante o processo que podem levar ao erro, como por exemplo:
- Preparação de amostra: variável relacionada aos processos de amplificação, contaminação, manipulação das células gerando estresse celular e afetado a expressão gênica;
- Erros no sequenciamento: está associado a sequências incompletas ou bases repetidas. Além disso, determinadas sequências podem tendem a ser mais sequenciadas (profundidade), o que pode levar uma super-representação do fragmento e induzir a interpretação na análise dos resultados. Assim, é importante estar atento a tal característica;
- Tamanho amostral incorreto;
- Estágio do desenvolvimento das células que compõem a amostra.
Existem também possíveis fontes de erro durante a análise dos dados gerados pelo sequenciamento, sendo alguns:
- Não realizar a correta análise de controle de qualidade;
- Alinhamento e anotação gênica incorretos;
- Não correção do efeito de lote;
- Falta de avaliação da distribuição dos dados.
Diferenças entre Bulk-Seq e Single-Cell Sequencing
Apesar dos avanços fornecidos pelo sequenciamento, há algumas limitações e, uma das principais, se refere a perda da informação da composição heterogênea de uma determinada amostra. Essa informação pode ser fundamental para estudos de doenças em um contexto multicelular.
Por exemplo, no câncer, existem diferentes células que exercem a comunicação/regulação em outras células, fazendo com que o paciente apresente tolerância medicamentosa no tratamento quimioterápico.
Além disso, cada célula apresenta um conjunto de cerca de 20.000 genes codificadores de proteínas que são expressos de maneira exclusiva em cada uma, independentemente de seu subtipo.
Curiosamente, James Eberwine e Iscove compartilharam da mesma visão sobre essa limitação, mesmo antes do sequenciamento bulk-seq sair do papel. Na década de 1990, os dois pesquisadores (e colaboradores), realizaram a amplificação do material genético de células individuais (neurônio e células hematopoéticas).
Mas, a grande revolução em ciências ômicas veio em 2009. Nesse ano, Tang e colaboradores anunciaram ao mundo a caracterização dos estágios iniciais do desenvolvimento juntamente com a análise de mRNA, utilizando o sequenciamento de última geração em células únicas.
Desde então, há um interesse exponencial por parte de pesquisadores do mundo todo em obter informações de alta resolução da heterogeneidade de moléculas (gênicas ou proteicas) em células únicas, sejam em estágios de desenvolvimento, doenças complexas, entre outros.
Assim, o termo single cell é sinônimo de alta resolução e especificidade sem precedentes para estudos em ômicas.

Como funciona o processo de sequenciamento single cell?
Existem metodologias e metodologias para realizar o sequenciamento. Mas, de modo geral, o processo consiste em:
- Dissociação: em casos de amostras de tecidos, as células que o compõem são dissociadas para a posterior suspensão. Os métodos de dissociação devem preservar os padrões de expressão gênica;
- Isolamento: etapa em que consiste separar as células individuais. Pode ser realizado por meio de diluição utilizando pipetas; micromanipulação utilizando pipetas capilares junto a um microscópio; fluxo utilizando marcadores fluorescentes; microdissecção por captura a laser; microfluídos (microgotículas com células individuais) ou sistema CellSearch. Além disso, as metodologias podem variar de acordo com a quantidade de células que podem ser isoladas;
- Lise celular: após serem isoladas, as células são lisadas para liberaram seu material genético (DNA ou RNA). Em geral, as células são lisadas em um tampão hipotônico e a seleção poli(A)+ é realizada usando primers poli(dT) para capturar RNAs mensageiros (mRNAs)
- Transcrição reversa: o material genético liberado é transcrito em cDNA. Nessa etapa, também é incorporado uma sequência que contém o molecular único (UMI) e o “código de barras” da célula (cell barcoding). Essa sequência/estrutura reduz a taxa de falsos positivos, além de ser necessária para as análises de bioinformática que utilizam os UMIs e barcoding para clusterizar as células com base nas mesmas;
- Amplificação e preparação da biblioteca: o cDNA da etapa anterior é amplificado e utilizado como a biblioteca que será sequenciada.
Mas, assim como todos os métodos, o single cell sequencing também tem suas limitações. Uma das principais limitações se refere à quantidade muito pequena e sensível de material disponível para o sequenciamento.
Por exemplo, cada célula produz aproximadamente ~10 picogramas de RNA total, dos quais somente ~0.1pg corresponde a mRNA.
Assim, para quantificar a expressão de certos genes, essa quantidade amostral pode ser insuficiente. Além disso, a etapa de amplificação não é perfeita, o que pode acarretar em uma diferença de profundidade de sequenciamento.
Outras variáveis técnicas como ruídos, a dissociação e manipulação de células individuais podem afetar os resultados.
Vale lembrar que esse é um experimento caro e envolve uma maior complexidade na hora de analisar os dados gerados.
Avanços recentes em Bulk-seq e suas implicações na pesquisa e tratamento de doenças
O sequenciamento em massa está em constante avanço, desde a elaboração de novas plataformas de sequenciamento até o desenvolvimento de novas metodologias computacionais para a análise de dados.
Uma das principais revoluções atuais para o bulk-seq está no sequenciamento de terceira geração, também conhecida como ultra long reads.
Esse termo se refere ao sequenciamento de sequências longas, visto que todo o sequenciamento dito até agora se referia a fragmentos, os quais são necessários para as plataformas.
As long reads têm permitido aos pesquisadores acessar informações mais detalhadas sobre o genoma, detectar novas variantes e inferir com mais precisão as informações epigenéticas.
Além disso, essas sequências reduzem a complexidade computacional para a algumas análises que necessitam de maiores recursos computacionais. Assim, essas características abrem um novo caminho para o entendimento de regiões antes inacessíveis no genoma para a compreensão detalhada de doenças complexas.
Adicionalmente, com o passar dos anos, o custo para o bulk-seq tem diminuído constantemente, tornando mais acessível esse experimento, bem como o aumento da precisão da capacidade e sensibilidade em quantificar a expressão gênica.
O papel da Bioinformática na análise de dados de Bulk-Seq
A bioinformática tem o papel chave em decifrar todo esse experimento por meio de recursos e softwares de alta precisão.
Além disso, esses recursos permitem o pesquisador/bioinformata em ir além da hipótese original, por conseguir explorar a pente fino todos os dados gerados pelo sequenciamento, seja por elaboração de heatmaps, redes de co-expressão ou pela formulação de novas ideias após a visualização dos resultados.
E, com essa forma de obter novos insights, a ciência molecular computacional ou bioinformática, consegue superar barreiras inimagináveis e levar consigo o avanço da ciência juntamente com a compressão de doenças complexas que não é obtida apenas por métodos laboratoriais”.
Então, meu caro leitor, se você ainda tem dúvidas sobre para onde ir nesse amplo leque científico, eis minha recomendação: a ciência bioinformática, a qual tenho orgulho em estar, está de portas abertas para você!
Conclusão
Em resumo, não existe sequenciamento melhor ou pior, existe o que é adequado para a sua pesquisa. Vai do pesquisador escolher o qual está a seu alcance (seja financeiro ou para análise da complexidade) e qual irá responder melhor a sua pergunta.
Não há como mensurar o progresso astronômico da biologia molecular após as metodologias de bulk-seq.
Mas, é possível visualizar esse avanço em diagnósticos precisos,melhora na qualidade de vida, combate a uma pandemia, nas prateleiras de farmácias… Bom, acho que já deu pra entender.
De forma geral, o sequenciamento em massa utiliza amostras heterogêneas de células (ex: tecido) para o procedimento enquanto single cell consegue utilizar células individuais. Vale lembrar que também há diferenças na forma de análise dos dados.
Referências
Kulkarni, A. et al. Beyond bulk: a review of single cell transcriptomics methodologies and applications. Current Opinion in Biotechnology. v.58. p. 129-136. 2019.
Jana-Ch. Hegenbarth. et al. Perspectives on Bulk-Tissue RNA Sequencing and Single-Cell RNA Sequencing for Cardiac Transcriptomics. Front. Mol. Med. v.2. 2022.
Hwang, B. et al. Single-cell RNA sequencing technologies and bioinformatics pipelines. Experimental & Molecular Medicine. v.50. n.96. p.1-14. 2018.
Potter, S.S. Single-cell RNA sequencing for the study of development, physiology and disease. Nature Reviews Nephrology. v.14. p.479-492. 2018.
Valihrach, L. et al. Platforms for Single-Cell Collection and Analysis. Int J Mol Sci. v.19. n.3. 2018.
Yu, X. et al. Statistical and Bioinformatics Analysis of Data from Bulk and Single-Cell RNA Sequencing Experiments. Methods Mol Biol. 2021.
Wang, Y & Navin, N. Advances and applications of single-cell sequencing technologies. Mol. Cell. v.58. p.598-609. 2015.
Mortavazi, A. et al. Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods. v.5.n.7. 2008.