segunda-feira, 19 de setembro de 2011

Estatística - Significativo & Não-Significativo



Lendo o artigo Erroneous analyses of interactions in neuroscience: a problem of significance, de Sander Nieuwenhuis, Birte U. Forstmann e Eric-Jan Wagenmakers (Nature Neuroscience 14, 1105-1107), publicado em 26 de agosto de 2011, pensei em trazer para os leitores do CLM a sua (do artigo) primeira referência bibliográfica, The Difference Between “Significant” and “Not Significant” is not Itself Statistically Significant. de Andrew Gelman & Hal Stern (AQUI), já que a mera consideração de P ser maior ou menor do que 0,05 ajuda mas não resolve satisfatoriamente em muitos casos em que a significância tende a ser importante.

Eis aqui o parágrafo de Nieuwenhuis e colegas que me levou a chamar a atenção para o artigo de Gelman & Stern:

Os pesquisadores que escreveram isso queriam afirmar que um efeito (por exemplo, o efeito do treinamento sobre a atividade neuronal de ratos mutantes) era maior ou menor do que o outro efeito (o efeito do treinamento em ratos controles). Para sustentar esta afirmativa, eles precisavam registrar uma interação estatisticamente significativa (entre a quantidade de treinamento e o tipo de ratos), mas ao invés disso eles notaram que um dos efeitos era estatisticamente significativo, ao passo que o outro não era. Ainda que superficialmente convincente, este último tipo de raciocínio estatístico está errado porque a diferença entre significativo e não-significativo não precisa ser, ela mesma, estatisticamente significativa. 1 Considere um cenário radical (CLM - extreme - muito rigoroso), no qual a atividade induzida pelo treinamento quase não chega à significância nos ratos mutantes (por exemplo, P = 0,049), e quase deixa de chegar à significância nos ratos controles (por exemplo, P = 0,051). A despeito dos dois valores estarem em lados opostos da marca dos 0.05, não se pode concluir que o efeito do treinamento em ratos mutantes difere estatisticamente do efeito em ratos controles. Isto é, como notaram Rosnow & Rosenthal em famosa citação: "por certo, Deus ama 0,06 por cento das pessoas quase tanto quanto ama 0,05 por cento delas". Desse modo, quando fizerem uma comparação entre dois efeitos os pesquisadores devem registrar a significância estatística de sua (dos efeitos) diferença, mais do que da diferença entre seus níveis de significância.

Gelman & Stern expõem seu raciocínio:


É comum resumir comparações estatísticas através de declarações de significância ou não-significância estatística. Aqui, nós discutimos um problema que existe em tais declarações, a saber, que modificações em significância estatística frequentemente não são por si mesmas estatisticamente significativas. Com isso, não estamos simplesmente fazendo a observação corriqueira de que qualquer limite (threshold) é arbitrário - por exemplo, apenas uma pequena modificação é necessária para se passar uma estimativa de um nível de significância de 5,1% para para 4,9%, levando esta estimativa até a significância estatística. Ao invés, estamos mostrando que mesmo grandes modificações em níveis de significância podem corresponder a mudanças pequenas e não-significativas nas quantidades básicas.


O erro que descrevemos é conceitualmente diferente de outros problemas frequentemente citados - que significância estatística não é a mesma coisa que importância prática, que a dicotomização em resultados significativos e resultados não-significativos encoraja o abandono de diferenças observadas em favor de hipóteses nulas quase sempre menos interessantes onde não há nenhuma diferença, e que qualquer limite particular para a declaração de significância é arbitrário. Ficamos incomodados com todas essas preocupações, e não pretendemos minimizar sua importância. Antes, nossa meta é chamar a atenção para esse erro adicional de interpretação. Ilustramos a situação com um exemplo teórico e dois exemplos aplicados. A ubiquidade desse erro estatístico nos leva a sugerir que os estudantes e profissionais procurem se informar melhor sobre o fato de que a diferença entre "significativo" e "não-significativo" não é, em si mesma, estatisticamente significativa.

Nota - A palavra "dicotomização" está claramente sendo usada por Gelman & Stern em sua acepção crítica, assim descrita no OED:

b.1.b gen. Division into two. Something divided into two or resulting from such a division; something paradoxical or ambivalent.

Também de interesse (ou: não fique triste):

THE FALLACY OF THE NULL-HYPOTHESIS SIGNIFICANCE TEST
William W. Rozeboom 1960
St. Olaf College
http://stats.org.uk/statistical-inference/Rozeboom1960.pdf

PROMOTING GOOD STATISTICAL PRACTICES: SOME SUGGESTIONS
Roger E. Kirk 2001
Baylor University
http://psy2.ucsd.edu/~hflowe/EffectSize.pdf