
Estamos constantemente fazendo perguntas como:
- Esta vacina é eficaz na prevenção da gripe?
- Este medicamento é eficaz para o tratamento da COVID-19?
- Esta substância causa câncer?
Médicos baseiam sua prática clínica em estudos e dados científicos. Assim, para que a medicina possa evoluir, a comunidade científica está sempre se fazendo perguntas relevantes e desenvolvendo estudos a fim de respondê-las.1
Desta forma, todo estudo começa com uma pergunta! Então, os pesquisadores fazem uma hipótese a ser testada, por exemplo, se um determinado tratamento é mais eficaz do que os outros que já existem. A partir daí, são estabelecidos os objetivos, as características dos indivíduos que serão convidados a participar (população do estudo), como os resultados serão avaliados (quais exames ou avaliações serão realizados)… Por fim, temos a estatística, uma ciência que vai ajudar a mostrar se a hipótese tem mais chances de ser verdadeira ou falsa!1,2
Nesta matéria vamos abordar alguns conceitos estatísticos e métodos científicos utilizados para responder às perguntas, separando dados reais de meras coincidências.
Correlação e causalidade
A palavra correlação é utilizada no dia a dia para demonstrar alguma forma de associação, como por exemplo, a chegada do frio e o aumento dos problemas respiratórios.
Em termos estatísticos, a correlação significa uma associação entre duas variáveis quantitativas (características que podem ser mensuradas, como peso e altura). Também assumimos que essa associação é linear, ou seja, que uma variável aumenta ou diminui a um valor fixo para um aumento ou diminuição da outra (Figura 1).3
A definição de causalidade gera um debate contínuo entre a comunidade científica. Mas, de uma maneira simples, a causa de um evento pode ser definida como uma condição ou característica que existia antes deste evento e que foi necessária para a sua ocorrência. Em outras palavras, para inferir que uma condição foi a causa de uma doença, é necessário que esta condição tenha precedido a doença e que, sem essa condição, a doença não teria ocorrido.5
É possível que sejam identificadas associações, mas que não haja uma relação de causalidade entre as variáveis analisadas.6 Algumas associações podem ocorrer simplesmente ao acaso, ou seja, são associações falsas.7 Abaixo há um divertido caso exemplificando isso!
Nicolas Cage e número de afogamentos nos EUA
Se forem feitas diversas comparações aleatórias entre diferentes conjuntos de dados, eventualmente poderemos encontrar dois conjuntos que exibem uma alta associação, simplesmente ao acaso.7
Um exemplo muito interessante foi divulgado há alguns anos, quando foi verificado uma associação do “número de pessoas que se afogaram em piscinas nos EUA” e “o número de filmes com a participação de Nicolas Cage exibidos entre 1999 a 2009” (Figura 2). Curiosamente, o número de pessoas que se afogaram pareceu acompanhar o número de filmes com Nicolas Cage…7 Entretanto, apesar da associação, não podemos inferir que o ator é responsável pelos afogamentos!
Por exemplo, vamos supor que um estudo identificou que pessoas que bebem muito café têm menor chance de ter câncer de pele. Isso não significa necessariamente que o café tem propriedades de proteção contra o câncer! Uma explicação alternativa seria que as pessoas que bebem muito café trabalham em ambientes fechados por longas horas e, portanto, têm pouca exposição ao sol, um fator de risco conhecido. Aqui o número reduzido de horas ao ar livre é uma variável de confusão – é uma variável comum ao fato de beber muito café e ao risco de câncer de pele (Figura 3).6
Ou seja, a observação de uma associação apenas sugere uma hipótese, mas não oferece provas de que uma variável seja a causa da outra.6

Para inferir que uma variável causa a outra, existem métodos científicos e testes estatísticos necessários para tal.4
Condições de causalidade
Todo evento é efeito de outro evento anterior que, por sua vez, foi causado por outro evento, e assim por diante.9
Uma relação causal entre dois eventos implica em haver três condições:9
- O “evento considerado como causa” precede “evento considerado como consequência” no tempo.
- A lei do isolamento fatorial é verdadeira, na qual: se X, então Y; se não X, então não Y.
- A relação é verificável, pelo menos em princípio, o que significa que a condição 2 citada acima persiste ao longo do tempo. E para que a relação seja verificável, também é necessário que os eventos na condição 1 sejam repetíveis. A repetição de eventos é que permite usarmos a causalidade para fazermos previsões.
Como exemplo, sabemos que o SARS-CoV-2 é o agente causador da COVID-19.10 Então:
- A infecção pelo vírus precede a doença (COVID-19) no tempo.
- Se o indivíduo for infectado (estando vulnerável), desenvolverá a doença; se não for infectado, não terá COVID-19.
- Diversos indivíduos que foram infectados pelo SARS-CoV-2 desenvolveram a doença.
Significância estatística
Quando não sabemos a resposta para uma pergunta científica, pesquisadores se baseiam em dados preexistentes para criar uma hipótese para o atual dilema!
Em estatística, a hipótese é testada usando as leis da probabilidade, para avaliar as chances dos achados observados ocorrerem por acaso ou, em outras palavras, a estatística busca encontrar padrões reais nos dados.2
A significância estatística indica o nível de evidência dos dados do estudo. Quando diz-se que a diferença é estatisticamente significativa, isso indica que foi rejeitada a hipótese nula (por exemplo, de que não há diferença entre os 2 grupos avaliados). Neste caso, parece que há realmente uma diferença entre eles.11
Por exemplo, no teste de hipótese, foi definido que a hipótese nula (H0) significa que o tratamento experimental não tem efeito maior do que o tratamento controle. Se a diferença na resposta média dos grupos for igual a zero, não conseguimos dizer que a H0 é falsa. Então, é verdade que os grupos não diferem entre si? Pelo menos neste estudo, com seus critérios e características, os dados indicam que não há diferença entre eles…11
O valor de P
A maioria dos testes estatísticos termina com o cálculo do valor de P!12,13
O valor de P é definido como uma probabilidade. Mas qual? A probabilidade de obter um efeito igual ou mais extremo do que o observado, presumindo que a hipótese nula = H0 (ou seja, a hipótese de que não há efeito algum) é verdadeira. Também pode-se interpretar que é a probabilidade dos dados observados terem sido ao acaso (ou seja, de que na realidade não há efeito algum). Em outros termos, quanto menor o valor P, mais distantes da H0 estão os dados observados.12
Mas como podemos entender isso na prática?
Imagine um estudo clínico randomizado (RCT, randomized clinical trial em inglês) que compara um novo medicamento antidepressivo com um placebo. No final do estudo, foi constatado que 60% dos pacientes do grupo do novo medicamento e 40% dos pacientes do grupo do placebo tiveram uma boa resposta; o valor P calculado foi de 0,03.13
Então, qual é a conclusão e interpretação corretas? Imagine que a hipótese nula é verdadeira; ou seja, o novo antidepressivo não é diferente do placebo. Agora, se você conduzir uma centena de ensaios clínicos randomizados que comparam o medicamento com o placebo, certamente não obterá uma taxa de resposta idêntica para o medicamento e o placebo em cada RCT. Em vez disso, em alguns RCTs, o medicamento superaria o placebo e, em outros, o placebo superaria o do medicamento. Além disso, a magnitude pela qual a droga e o placebo superaram um ao outro variaria de ensaio para ensaio.13
Neste contexto, o que P = 0,03 (ou seja, 3%) significa é que se a hipótese nula for verdadeira e se você realizar o estudo um grande número de vezes e exatamente da mesma maneira, então, em 3% das ocasiões, você obteria a mesma ou maior diferença entre os grupos do que obteve nesta ocasião.13
Porém, é necessário um critério para definir a significância estatística! O ???? é esse critério. É uma probabilidade que aceitamos de considerar H0 falsa quando, na verdade, ela é verdadeira. Ou seja, é o erro máximo que estamos dispostos a aceitar. Ele é estabelecido arbitrariamente. Por exemplo, α = 5%. Se ???? = 0,05 e P = 0,03 (ou seja, P é menor que o ???? e mais distante da H0), então a significância estatística é alcançada. Se ???? = 0,01 e P = 0,03, a significância estatística não é alcançada. Intuitivamente, se o valor de P for menor do que o ???? pré-especificado, os dados sugerem que o resultado do estudo é tão raro que não parece ser consistente com a H0, levando à rejeição da H0. Por exemplo, se o valor P for 0,001, isso indica que, se a hipótese nula for realmente verdadeira, haveria apenas 1 chance em 1.000 de observar dados nesse extremo. Portanto, ou dados muito incomuns foram observados ou, então, a suposição sobre a veracidade da H0 está incorreta. Dessa forma, pequenos valores de P (menores que ????) levam à rejeição da H0, em favor de uma H1 de algum efeito (por exemplo, efeito de algum tratamento).11,12
Por que 5%?
Praticamente todos profissionais da área da saúde estão familiarizados com a expressão “P<0,05” como um corte que indica “significância estatística”.13
Por décadas, 0,05 (5%, ou seja, 1 chance em 20) foi convencionalmente aceito como o limite para discriminar resultados significativos de não significativos, inadequadamente traduzidos em diferenças ou fenômenos existentes de não existentes. Na prática, em uma curva de distribuição normal, enquanto 95% da área sob a curva cai entre +2 e -2 desvios-padrão centrais, 5% estaria nas extremidades das caldas da curva (Figura 4).14 Isto significa que aproximadamente 5% da distribuição normal compreende valores periféricos ou “significativamente diferentes”, ou seja, valores que são mais de dois desvios-padrão distantes da média.11
Assim, o valor de P é menor que 0,05 (ou seja, 5%) significa que, se a hipótese nula (H0) for verdadeira e se você realizar o estudo um grande número de vezes e exatamente da mesma maneira, então, em 5% das ocasiões, seria obtido diferença igual ou maior entre os grupos do que obteve nesta ocasião. Isso é algo tão raro de acontecer que podemos considerar que H0 tem grandes chances de estar incorreta!13

Conclusões
Uma correlação entre duas variáveis é uma medida de associação, mas não indica relação causal. Para tanto, são necessários ensaios controlados randomizados ou outros métodos estatísticos.4
Quando os pesquisadores querem saber a resposta para uma pergunta científica, eles criam uma hipótese para ser testada em um estudo.2
Para isso, o valor de P e a teoria do teste de hipóteses são ferramentas úteis, que ajudam a planejar um experimento, interpretar os resultados observados e relatar as descobertas aos colegas. Porém, é fundamental que essas ferramentas sejam entendidas! Dessa forma, as interpretações e conclusões sobre os resultados são feitas com base em premissas científicas plausíveis e não apenas na avaliação isolada das análises estatísticas.12 E assim, as evidências vão nos aproximando das verdades científicas!
Referências:
- Farrugia P, Petrisor BA, Farrokhyar F, Bhandari M. Practical tips for surgical research: Research questions, hypotheses and objectives. Can J Surg 2010;53(4):278–81.
- Miller J. Hypothesis Testing in the Real World. Educ Psychol Meas 2017;77(4):663–72.
- The BMJ. Correlation and regression [Internet]. [cited 2020 Aug 31];Available from: https://www.bmj.com/about-bmj/resources-readers/publications/statistics-square-one/11-correlation-and-regression
- Hung M, Bounsanga J, Voss MW. Interpretation of correlations in clinical research. Postgrad Med 2017;129(8):902–6.
- Rothman KJ, Greenland S. Causation and Causal Inference in Epidemiology. Am J Public Health 2005;95(S1):S144–50.
- Altman N, Krzywinski M. Association, correlation and causation. Nat Methods 2015;12(10):899–900.
- Keogh B, Monks T. The impact of delayed transfers of care on emergency departments: common sense arguments, evidence and confounding. Emerg Med J 2020;37(2):95–101.
- Vigen T. Spurious correlations [Internet]). [cited 2020 Aug 31];Available from: https://www.tylervigen.com/spurious-correlations
- Chang M. What Constitutes Science and Scientific Evidence: Roles of Null Hypothesis Testing. Educ Psychol Meas 2017;77(3):475–88.
- Tay MZ, Poh CM, Rénia L, MacAry PA, Ng LFP. The trinity of COVID-19: immunity, inflammation and intervention. Nat Rev Immunol 2020;20(6):363–74.
- Palesch YY. Some common misperceptions about P values. Stroke 2014;45(12):e244–6.
- Biau DJ, Jolles BM, Porcher R. P value and the theory of hypothesis testing: an explanation for new researchers. Clin Orthop Relat Res 2010;468(3):885–92.
- Andrade C. The Value and Statistical Significance: Misunderstandings, Explanations, Challenges, and Alternatives. Indian J Psychol Med 2019;41(3):210–5.
- Di Leo G, Sardanelli F. Statistical significance: p value, 0.05 threshold, and applications to radiomics-reasons for a conservative approach. Eur Radiol Exp 2020;4(1):18.