Índice
Quando se faz experimentos biológicos, geralmente o objetivo é responder a uma pergunta sobre uma população. Para isso, os cientistas analisam dados de uma amostra dessa população, ou seja, uma representação da população de interesse. Para garantir que as tendências observadas naquela amostra são verdadeiras para o restante da população, os cientistas usam estratégias estatísticas como o p-valor
Entenda o que é p-valor e como este critério é utilizado em experimentos biológicos!
O que é inferência estatística?
O ramo da inferência estatística se dedica à criação de critérios matemáticos para, a partir de dados amostrais limitados, tirar conclusões e responder a perguntas científicas.
Embora não seja possível garantir com total certeza que as conclusões tiradas em uma amostra sejam verdadeiras no restante da população, o uso de critérios da estatística inferencial nos permite avaliar a confiança associada a cada descoberta desses experimentos biológicos.
Na maioria dos estudos, o p-valor (em inglês, p-value) é utilizado como critério. Para entender bem o que são os p-valores, é importante ter claro os conceitos de hipótese nula e hipótese alternativa.
Hipótese nula e hipótese alternativa
Quando uma tendência é observada em uma amostra de um experimento biológico, existem duas explicações possíveis:
- Hipótese nula: A tendência pode ser uma característica apenas daquela amostra, que não seria confirmada se tivéssemos dados da população inteira.
- Hipótese alternativa: A tendência pode refletir um efeito real da população de interesse
– Pessoas com certa variante genética têm a mesma incidência de COVID-19 que o resto da população;
– Um medicamento novo não diminui a incidência de dor de cabeça em pacientes com enxaqueca;
– Não há diferenças de peso entre os gatos de uma raça e de outra.
Portanto, a tarefa da estatística inferencial é desenvolver métodos para decidir com base em dados amostrais qual duas hipóteses é mais plausível. Por esse motivo, esses procedimentos são denominados testes de hipóteses.
O que é P-valor (P-value)?
Podemos entender o p-valor (p-value) como uma medida da compatibilidade entre os resultados dos experimentos biológicos e uma hipótese. Ou seja, o p-valor é definido como a probabilidade de que uma tendência amostral tão grande quanto a que foi observada aconteça, mesmo que a hipótese nula seja verdadeira.
O resultado do p-valor podem ser interpretados da seguinte forma:
- P-value é não significativo: se a hipótese nula fosse verdadeira, esse resultado amostral seria bastante improvável, portanto faz sentido rejeitar a hipótese nula.
- P-value é significativo: os dados são compatíveis com a hipótese nula, e não podemos rejeitá-la.

O que é um p-value significativo e não significativo?
A primeira dificuldade com os p-valores é definir qual é o ponto de corte, que divide entre p-valores significativos (que rejeitam a hipótese nula) e não-significativos (que não a rejeitam).
Esse ponto de corte é denominado nível de significância e é representado pela letra grega alfa (α). Por padrão utiliza-se o nível α = 5%.
Porém, não há qualquer bom motivo por trás dessa escolha: historicamente, 5% foi apenas um exemplo usado pelo estatístico R. Fisher. Ainda assim, esse “número mágico” é comumente usado para discernir quais achados são significativos e quais não são.
Apesar de sua quase onipresença em trabalho científicos, os p-valores possuem alguns nuances que muitas vezes passam despercebidos por cientistas que os utilizam em seus trabalhos, levando a algumas interpretações equivocadas.
Vamos discutir alguns desses nuances a seguir.
Significância estatística vs. significância biológica
Muitos estatísticos têm chegado à conclusão de que a terminologia “significativo versus não-significativo” leva a uma ideia errada sobre o significado dos p-valores.
Quando o p-valor está abaixo do ponto de corte, podemos concluir com boa confiança que a tendência observada na amostra corresponde a uma tendência na população – mas não nos diz nada sobre a magnitude dessa tendência, denominada pelos estatísticos tamanho do efeito.
Por exemplo, suponha que um teste clínico foi feito para avaliar a eficácia de uma nova droga, tendo acompanhado um total de 2000 voluntários. 1000 foram medicados com a nova droga (dos quais 800 tiveram melhora clínica) e 1000 receberam placebo (dos quais 760 tiveram melhora clínica).
Utilizando um teste chi-quadrado, obtém-se um p-valor de 3%. Ou seja, com um nível de significância de 5%, podemos rejeitar a hipótese nula e concluir que o remédio funciona! Porém, veja que os pacientes tratados com a nova droga melhoraram em 80% dos casos, enquanto o grupo placebo melhorou em 76% dos casos. Isso corresponde a uma eficácia de apenas 16.7% da nova droga!
Esses resultados não são contraditórios: o p-valor pequeno sugere que a droga faz algum efeito, mas não traz informação sobre o quão grande é esse efeito. Por isso é importante analisar tanto a significância estatística, que nos diz se a tendência observada é confiável, quanto a magnitude dos efeitos observados. Nesse exemplo, tivemos uma significância estatística satisfatória, mas um tamanho do efeito bastante modesto.
P-valor vs. Probabilidade a posteriori
É comum observar, até mesmo em alguns livros, afirmações com o teor de “o p-valor indica a probabilidade de a hipótese nula ser verdadeira”. Essa é uma interpretação bastante simples do que o p-valor significa, e parece uma boa justificativa para rejeitarmos a hipótese nula quando o p-valor é pequeno, mas é uma interpretação equivocada.
P-valor e estatística frequentista
A matemática por trás do cálculo dos p-valores é baseada no formalismo da Estatística frequentista. Os estatísticos frequentistas entendem que resultados experimentais são variáveis aleatórias (porque o processo de amostragem e eventuais erros de medida são aleatórios), mas que as hipóteses e parâmetros populacionais são valores fixos.
A rigor, só faz sentido calcular probabilidades referentes a eventos aleatórios, por esse motivo, um estatístico frequentista jamais calcularia a probabilidade de uma hipótese ser verdadeira.
P-valor e estatística Bayesiana
Na Estatística Bayesiana, a probabilidade não é entendida como uma forma de descrever eventos aleatórios (entendimento objetivo da probabilidade), mas sim como uma forma de descrever eventos sobre os quais temos informação incompleta (entendimento subjetivo da probabilidade).
Nesse formalismo, faz todo o sentido calcular a probabilidade de a hipótese nula ser verdadeira ou falsa, e elas são calculadas como probabilidades a posteriori.
P-valores e probabilidades a posteriori são conceitos diferentes e são calculados de forma totalmente diferente.
Estatística em experimentos biológicos
O nível de significância α pode ser interpretado como a probabilidade de que ocorra um resultado significativo, caso a hipótese nula seja verdadeira.
Poder estatístico
Pode-se também fazer a pergunta oposta: qual é a probabilidade de se obter um resultado significativo, caso a hipótese nula seja falsa? Essa probabilidade tem grande importância e recebe o nome de poder estatístico.
Em um dado mesmo teste de hipóteses e tamanho amostral, quanto maior o nível de significância, maior o poder estatístico. Em outras palavras: para aumentar o poder estatístico do teste, é necessário aumentar a taxa de falsos positivos. Esse é um trade-off clássico e de grande importância.
Por exemplo, em um contexto no qual falsos positivos sejam muito mais problemáticos que falsos negativos, faz sentido usar um nível de significância menor (mais rígido), de modo a ter mais falsos negativos e menos falsos positivos.
A resposta é sim, aumentando o tamanho da amostra. Isso leva a outro problema clássico da Estatística: quão grande deve ser uma amostra para representar adequadamente uma população?
Há diversas fórmulas e métodos para cálculo do tamanho amostral, e uma abordagem bastante comum é a calcular qual é o tamanho amostral que permite ter α = 5% e um poder estatístico de 80%.
Tamanho do efeito
Outro fator que influencia o poder estatístico é o tamanho do efeito que está sendo analisado. Isso faz sentido: efeitos grandes são fáceis de detectar, enquanto tendências mais modestas requerem amostras bem maiores para serem observadas.
Por isso, quando se faz o cálculo do tamanho amostral baseado em poder estatístico, é necessário ter uma estimativa a priori do tamanho do efeito. Alguns estatísticos advertem que essa estimativa não precisa ser uma estimativa acurada do tamanho do efeito em estudo, mas sim a resposta para a pergunta: “qual é o menor efeito que eu considero relevante biologicamente e portanto eu espero ser capaz de detectar?”.


Experimentos biológicos e o problema de testes múltiplos
Finalmente, uma questão muito recorrente em Bioestatística é o problema dos testes múltiplos. Em algumas análises, é pertinente testar um grande volume de hipóteses simultaneamente.
Por exemplo, em Bioinformática é comum testar mudanças no nível de expressão de todos os genes humanos em alguma condição fisiológica (análise de expressão diferencial). Nesse caso, há milhares de testes a serem feitos, um para cada gene humano.
Um exemplo menos extremo ocorre em Epidemiologia, quando se testa o impacto de diversas variáveis sobre a incidência de uma doença, para encontrar fatores de risco.
O problema é que quando se testa muitas hipóteses simultaneamente, a chance de encontrar algum falso positivo (rejeitar uma hipótese nula quando ela é verdadeira) aumenta drasticamente.
Por exemplo, suponha que um estudo testa 10000 hipóteses, com α = 5%. Mesmo que todas as hipóteses nulas sejam verdadeiras, cada uma delas tem uma probabilidade de 5% de ser rejeitada: ou seja, em média 0.05*10000=500 tendências falsas serão encontradas nesses dados!
P-valor: Falso positivo e falso negativo
Há algumas maneiras de tentar mitigar esse efeito. A mais simples de entender é a correção de Bonferroni, que simplesmente divide o nível de significância pelo número de hipóteses que serão testadas.
Dessa forma, o critério para aceitar uma hipótese fica muito mais rígido, e os falsos positivos tendem a sumir. É por isso que em Genômica se utiliza muitas vezes o critério α = 5*10^-8, que é um milhão de vezes mais baixo que o tradicional α = 5%.
A correção de Bonferroni pode levar a um excesso de falsos negativos, porque o teste de hipóteses resultante fica excessivamente rígido. Por isso, outros métodos como o Benjamini-Hochberg são geralmente recomendados.
Nesse método, p-valores menores passam por um critério mais estrito, enquanto os maiores passam por um critério mais relaxado, de modo a manter a taxa de falsas descobertas sob controle. Por vezes, após aplicar essas correções, reporta-se um p-valor ajustado, que pode ser livremente comparado com α = 5%, pois já passou por um ajuste que leva em conta os múltiplos testes que foram feitos.
Deixar de usar correções de testes múltiplos quando elas são necessárias é uma falta grave, e leva a um excesso de falsos positivos.
Por exemplo, análises de subgrupos, nas quais a amostra é dividida em função de alguma característica e as hipóteses são testadas dentro de cada subgrupo, são um ímã para problemas de testes múltiplos.
Não usar as correções nesses casos acaba sendo uma forma de p-hacking, que consiste em manipular p-valor de forma inapropriada para obter mais resultados significativos.
Considerações finais
O uso de p-values tem sido tópico de muitas discussões, tanto por estatístico quanto por cientistas, com vários profissionais argumentando pelo abandono dos p-valores enquanto critério principal de decisão sobre hipóteses. De todo modo, os p-valores ainda são usados massivamente pela comunidade científica, de modo que é muito importante entender o que eles significam e como usá-los de forma correta.
Referências
- Wasserstein RL, Lazar NA (2016). “The ASA’s statement on p-values: context, process, and purpose”. The American Statistician. 70 (2): 129–133. doi:10.1080/00031305.2016.1154108
- Schervish MJ (1996). “P values: What they are and what they are not”. The American Statistician. 50 (3): 203–206. doi:10.2307/2684655
- Three simple rules to ensure reasonably credible subgroup analyses, BMJ 2015; 351 doi: https://doi.org/10.1136/bmj.h5651 (Published 04 November 2015)
- Casella, G., & Berger, R. L. (2002). Statistical inference. Belmont, CA: Duxbury.