Compreensão pública da ciência

O p-valor e a inferência científica

Quem já teve a oportunidade de ler um artigo publicado numa revista científica, muito provavelmente notou a presença de um número que parece emprestar credibilidade ao que dizem os autores do trabalho. Esse número – chamado de p-valor – via de regra é encontrado inserido dentro dos gráficos ou nas legendas do artigo. Os pesquisadores mostram algum resultado e garantem – Nosso resultado é altamente significante! – em seguida estampam o cabalístico p ≤ 0,05. O que este número, aparentemente exotérico, significa de fato, é o que tentaremos responder em seguida.

Quando escrevemos um trabalho científico que envolva experimentação, geralmente estamos interessados em saber se uma dada condição afeta um fenômeno pontual. Essas relações são representadas matematicamente como variáveis. Frequentemente, dizemos que certa quantidade de algo pode afetar um sistema que funcione com o máximo de controle de variáveis. Na prática científica, diferente de nossa vida cotidiana, a observação pura e simples não nos autoriza a fazer inferência sobre o modo como algo interfere num sistema em funcionamento na natureza.

Alguns dirão que, com algum conhecimento de mecânica, se ficarmos parados diante de um equipamento eletrônico defeituoso simples poderemos dizer qual seria o problema e estar certos em grande parte das vezes que fizermos isso. Bem, embora funcional, esta não é uma prática a qual poderíamos chamar científica. Primeiro, porque não elaboramos uma pergunta cuja resposta ainda nos seja ausente sobre a natureza. Segundo, porque fizemos uma única observação, o que torna a evidência inadequada e, finalmente, porque não aplicamos nenhum tipo de teste.

Quando fazemos ciência, devemos atribuir valores às observações. Suponhamos que seja de nosso interesse saber sobre a sensibilidade de um fungo específico ao tratamento com uma nova droga. Devemos nos preocupar com alguns aspectos importantes para extrair conclusões corretas:

  1. Elaboramos uma hipótese sobre o fenômeno que será nosso objeto de teste. Neste caso, dizemos que a sobrevivência e/ou crescimento do fungo em questão serão afetados pelo tratamento. Podemos ainda sugerir a direção da interferência, isto é, se a droga testada irá interferir positiva ou negativamente no fenômeno observado.
  2. Nosso desenho experimental deve envolver controles adequados. Uma droga sabidamente funcional para tratar a infecção pode ser útil como controle positivo e uma cultura do mesmo fungo sem qualquer tratamento deve ser nosso controle negativo;
  3. Excluindo-se os tratamentos (variável analisada) todas as demais condições das culturas devem ser as mesmas;
  4. O fenômeno observado deve ser reproduzido por experimentos independentes. Usualmente realizamos pelo menos três vezes o experimento inteiro para assegurar a reprodutibilidade dos resultados;
  5. Uma estratégia adequada de quantificação dos resultados deve ser empregada. Para isso, usamos a estatística. Extraímos médias e medidas de dispersão dos dados obtidos experimentalmente. Naturalmente, cada tratamento deve ser feito mais de uma vez concomitantemente. Usualmente, fazemos triplicatas ou quintuplicatas experimentais para gerar os dados para estatística descritiva;
  6. Finalmente, fazemos o que chamamos teste de hipótese. Inicialmente, havíamos declarado que culturas do fungo tratadas com a nova droga deveriam se comportar de maneira diferente do controle negativo (chamamos isso de hipótese alternativa, H1) e sugerimos a direção da mudança, isto é, dissemos que provavelmente as culturas tratadas com a nova droga se comportariam como o controle positivo.

Se uma falha é notada em qualquer das etapas mencionadas, todo o experimento é repetido. Este é um fluxo de trabalho rotineiro nos laboratórios de pesquisa do mundo inteiro. Em seguida, vamos analisar cada uma dessas etapas cuidadosamente. A primeira fase é fundamental, pois a formulação negligente de hipóteses pode levar a resultados sem a menor relevância, quando estão corretos. No nosso exemplo é preciso ficar claro qual é o fenômeno sobre o qual elaboramos nossa hipótese, isto é, a sobrevivência e/ou crescimento do fungo. Segundo nossa hipótese alternativa, o tratamento faz diferença. A direção do teste diz se esta diferença melhora ou prejudica a sobrevivência do fungo.

Uma vez formulada nossa hipótese, passamos aos controles. Precisamos mostrar como uma cultura do fungo se comporta em termos de crescimento e sobrevivência em condições normais, isto é, sem drogas no meio de cultura. Como não há tratamento, chamamos de controle negativo e usamos como referência. Se nossa cultura que recebeu a droga a ser testada reagir como este controle negativo, aceitamos a hipótese nula, H0. A hipótese nula assume que o tratamento não faz diferença quando comparado ao grupo controle não tratado. Neste caso específico, usamos um controle positivo, isto é, uma droga que tem notório efeito inibitório sobre o crescimento do fungo. Este controle é útil caso a comparação da eficácia dos tratamentos testados seja desejável. É importante manter em vista que para fazer inferência iremos comparar os diferentes grupos entre si.

Como mencionamos, excetuando-se os tratamentos, as demais condições do experimento são iguais para todos os grupos. Isto garante que eventuais distúrbios no fenômeno observado estão relacionados à variável “tratamento” e não a qualquer outra. É importante assegurar que o efeito observado é continuo e por isso repetimos todo o experimento do início, pelo menos três vezes. Este procedimento é necessário dado que há variáveis que podem fugir ao nosso controle experimental. Por exemplo, é possível que haja algum problema no lote da droga que compramos para fazer nosso controle ou ainda que nossa droga teste tenha tido algum problema durante a síntese ou sofrido degradação natural, causando a perda da atividade. Se uma droga sabidamente funcional não está dando resultado, algo está errado.

A preocupação seguinte é que nossos resultados possam ser reportados com o rigor estatístico que nos permita fazer uma inferência segura. De uma única vez, fazemos triplicatas de cada grupo testado. As três repetições serão analisadas de modo a gerar valores numéricos. Usamos a média dos valores experimentais e alguma medida de dispersão, como desvio padrão, erro padrão, etc. A medida de dispersão mostra como os dados estão distribuídos ao redor da média, isto é, qual o erro que admitimos para cima ou para baixo. Frequentemente, usamos um tipo de distribuição de dados ao qual chamamos normal. Não entraremos em detalhes sobre tipos de distribuição, mas há outros. De modo geral, esta representação dos dados é mostrada como média ± a medida de dispersão.

Agora que elaboramos nossa hipótese, desenhamos o procedimento experimental e realizamos os testes necessários, é hora de analisar os resultados. Para isso, precisaremos realizar o que chamamos de teste estatístico de hipóteses. Uma boa ferramenta para este tipo de análise é o que chamamos de teste t-Student[1]. Embora haja outros testes estatísticos, por amor à simplicidade, ficaremos com apenas este. Uma vez escolhido o teste estatístico adequado, estabelecemos o que chamamos de nível de significância para a inferência. Esta medida reflete o quanto de incerteza permitiremos que seja atribuída à nossa inferência. Se escolhermos o nível de significância de 95%, estaremos aceitando que, em 5% dos casos, o fenômeno poderá responder de modo diferente do que demonstramos com nossos experimentos. Uma vez que 5 dividido por 100 é igual a 0,05, poderemos representar os 5% de incerteza como 0,05.

Inicialmente, devemos demonstrar se nossa hipótese alternativa foi confirmada pelos experimentos, isto é, se o tratamento com a nova droga afetou o crescimento do fungo. Comparamos então os conjuntos de dados numéricos brutos (triplicatas) obtidos da análise das culturas tratadas com a droga teste com os dados do controle negativo. O teste t-Student deve retornar um valor que poderá ser maior ou menor que a incerteza atribuída à nossa análise (isto é, 0,05). Uma vez que optamos por atribuir o máximo de 5% de incerteza à nossa inferência, qualquer resultado que expresse uma medida de incerteza maior que esta será interpretado como não significante. Em termos práticos, dizemos que se a incerteza encontrada é maior que a admitida (isto é, 5%), não temos segurança estatística para dizer que o tratamento funcionou.

Supondo que em nossa análise os dados mostraram que a droga é funcional. A comparação entre os grupos controle negativo e tratado com a droga teste deveriam mostrar um valor do teste t-Student menor que 0,05. Se isso ocorre, escrevemos que p ≤ 0,05. Em termos práticos, isto nos autoriza a dizer que temos 5% de chance de estar errados quando assumimos que a droga funciona.

Naturalmente, cabe a pergunta: 5% não é uma quantidade elevada de incerteza? A resposta é – depende do caso. Há testes que são tão específicos que mesmo atribuindo uma incerteza de 5%, o máximo que os dados expressam é 1%. Há, no entanto, casos em que verdadeiramente precisamos usar níveis de incerteza menores. Suponhamos que um grupo de cientistas esteja desenvolvendo um novo método molecular para o diagnóstico de tumores de mama. A incerteza admitida para este tipo de teste deve ser tão baixa quanto possível. Se admitirmos uma incerteza de 1%, isto é p ≤ 0,01, diremos que temos até 1% de chance de estar errados quando diagnosticamos um tumor de mama em cada mulher submetida ao método diagnóstico em questão. Isso assegura que o método não irá autorizar o clínico a oferecer quimioterapia, um tratamento bastante agressivo, a uma paciente que não tenha a doença, de fato.

O raciocínio explicado aqui descreve como são conduzidos os experimentos em laboratórios do mundo todo. Em toda inferência científica, isto é, aquela formulada a partir da evidência experimental, atribuímos alguma quantidade de incerteza. Sempre tão baixa quanto possível, mas ainda assim há incerteza. Importa contudo assinalar que, em ciência, sempre falamos em termos de probabilidades. Um cientista jamais deveria falar em termos de quanta certeza tem sobre uma inferência, uma vez que estamos numa busca constante pela redução da incerteza sobre tudo o que conhecemos. A declaração de uma verdade científica, portanto, figura no nível das mais altas probabilidades se comparada a qualquer tipo de declaração não científica.

[1] Não é nosso objetivo oferecer um curso estatístico, assim não entraremos nos detalhes matemáticos do teste. Nosso objetivo aqui é entender como fazer o uso correto e interpretar os resultados para, no final, podermos dizer com uma boa segurança se o fenômeno foi afetado ou não pelo tratamento.

Licença Creative Commons
Este texto de Alison Chaves está licenciado com uma Licença Creative Commons Atribuição-NãoComercial-SemDerivações 4.0 Internacional.

Comente

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s