22 votos

¿Qué es el tamaño del efecto... y por qué es útil?

Tengo conocimientos de estadística a nivel de introducción a la licenciatura (se supone que conozco la estadística matemática y la probabilidad a nivel de licenciatura (por ejemplo, Wackerly et al., Ross' Probability), y tengo algunos conocimientos de teoría de medidas).

Recientemente he empezado a trabajar haciendo diseño experimental e informes estadísticos en el ámbito de la estadística educativa, y me han asignado a un proyecto en el que básicamente evalúo las métricas de rendición de cuentas de las escuelas y tengo que analizar los datos, proponer cambios, etc. Hay que tener en cuenta que soy el único de mi departamento con formación en estadística matemática.

En mi posición, la gente ha sugerido encarecidamente utilizar el tamaño del efecto para medir la eficacia de los programas. La única vez que he oído hablar del tamaño del efecto ha sido a mi amigo, que estudió psicología. Mi impresión es que $$\text{Effect Size} = \dfrac{\text{Difference of Means}}{\text{Standard Deviation}}\text{.}$$

¿Qué tiene de útil esta métrica frente a las pruebas de hipótesis tradicionales y por qué debería interesarme? A mí no me parece más que un estadístico de prueba para una muestra de dos $t$ -prueba. No lo veo útil en absoluto, aparte de quizá ponerlo todo en la misma escala (que es para lo que nadie "normaliza" realmente nada), pero creía que las estadísticas de prueba (que es lo que me parece el tamaño del efecto) estaban pasadas de moda, y $p$ -son preferibles.

27voto

Sean Hanley Puntos 2428

Es decir un medida del tamaño del efecto, pero hay muchos otros. Ciertamente no el $t$ estadística de prueba. Su medida del tamaño del efecto se denomina a menudo Cohen's $d$ (en sentido estricto, esto sólo es correcto si la DE se estima mediante MLE, es decir, sin Corrección de Bessel ); más genéricamente, se denomina "diferencia de medias estandarizada". Quizá así quede más claro que $t\ne d$ :
\begin{align} d &= \frac{\bar x_2 - \bar x_1}{SD} \\[10pt] &\ne \\[10pt] t &= \frac{\bar x_2 - \bar x_1}{SE} \\[10pt] t &= \frac{\bar x_2 - \bar x_1}{\frac{SD}{\sqrt N}} \\ \end{align} Es decir, el " $/\sqrt N$ " falta en la fórmula de la diferencia de medias estandarizada.

En términos más generales, sacar el tamaño de la muestra del valor proporciona información real. Suponiendo que el efecto real no sea exactamente $0$ a infinitos decimales, puede alcanzar cualquier nivel de significación que desee con suficiente $N$ . En $p$ -El valor proporciona información sobre el grado de confianza que podemos tener para rechazar la hipótesis nula, pero lo hace confundiendo la magnitud del efecto con la cantidad de datos de que se dispone. Desde luego, es bueno saber si debemos rechazar la hipótesis nula, pero también sería bueno saber si el efecto de su intervención educativa produce grandes beneficios para los escolares o es trivial y sólo fue significativo debido a la gran cantidad de datos de que dispone. $N$ .

16voto

AdamSane Puntos 1825

Espero que alguien con experiencia en un área más relevante (psicología o educación, por ejemplo) ofrezca una respuesta mejor, pero voy a intentarlo.

" Tamaño del efecto "es un término con más de un significado, lo que en el pasado me llevó a mantener conversaciones confusas hasta que me di cuenta de ello. En este caso, se trata claramente de la versión escalada por desviación típica ("¿en cuántas desviaciones típicas ha cambiado?").

Parte de la razón para buscar este tipo de "tamaño del efecto" en las áreas temáticas en las que son comunes es que a menudo tienen variables cuyos valores particulares no son intrínsecamente significativos, sino que se construyen para tratar de medir algo subyacente que es difícil de alcanzar.

Por ejemplo, imagine que intenta medir la satisfacción laboral (quizá para un modelo que la relacione con algún conjunto de variables independientes, entre las que quizá se incluya algún tratamiento de interés, por ejemplo). No tiene ninguna forma de obtenerla directamente, pero podría (por ejemplo) intentar construir algún cuestionario para obtener diferentes aspectos de la misma, quizás utilizando algo como una escala de Likert.

Un investigador diferente puede tener un enfoque diferente para medir la satisfacción laboral, por lo que sus dos conjuntos de mediciones de "Satisfacción" no son directamente comparables, pero si tienen las diversas formas de validez y así sucesivamente que estas cosas se comprueban (para que razonablemente puedan estar midiendo la satisfacción), entonces se puede esperar que tengan tamaños de efecto muy similares; al menos el tamaño del efecto va a ser más casi comparable.

7voto

jUST1N3 Puntos 91

La fórmula anterior es la forma de calcular Cohen's d para muestras relacionadas (que es probablemente lo que tiene), si no están relacionadas puede utilizar la varianza combinada. Hay diferentes estadísticas que le informarán sobre el tamaño del efecto, pero la d de Cohen es una medida estandarizada que puede variar entre 0 y 3. Si tiene muchas variables diferentes, puede ser bueno tener una medida estandarizada cuando piense en todas juntas. Por otro lado, muchas personas prefieren entender el tamaño del efecto en términos de las unidades que se miden. ¿Por qué calcular d cuando ya se tienen los valores p? He aquí un ejemplo de un conjunto de datos con el que estoy trabajando actualmente. Estoy estudiando una intervención conductual llevada a cabo en escuelas, medida mediante cuestionarios psicológicos validados (que producen datos Likert). Casi todas las variables muestran cambios estadísticamente significativos, lo cual no es sorprendente, ya que la muestra es grande (n=~250). Sin embargo, en el caso de algunas variables, los coeficientes de Cohen d es bastante minúsculo, digamos 0,12, lo que indica que aunque ciertamente hay un cambio, puede que no sea un cambio clínicamente importante, por lo que es importante para el debate y la interpretación de lo que ocurre en los datos. Este concepto se utiliza mucho en psicología y ciencias de la salud, donde los profesionales (o las escuelas, en su caso) tienen que considerar la utilidad clínica real de los tratamientos (o lo que sea que estén experimentando). Cohen d nos ayuda a responder preguntas sobre si realmente merece la pena realizar una intervención (independientemente de los valores p). En las ciencias médicas también les gusta considerar la NNT y evaluarlo en función de la gravedad de la afección en cuestión. Echa un vistazo a este gran recurso de @krstoffr http://rpsychologist.com/d3/cohend/

3voto

Loffen Puntos 163

De hecho, los valores p también han pasado de moda: http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . La prueba de significación de hipótesis nula (NHST) produce poco más que una descripción del tamaño de su muestra.(*) Cualquier intervención experimental tendrá algunos lo que equivale a decir que la hipótesis nula simple de "ningún efecto" es siempre falsa en sentido estricto. Por lo tanto, una prueba "no significativa" significa simplemente que el tamaño de la muestra no era lo suficientemente grande; una prueba "significativa" significa que se han recogido suficientes datos para "encontrar" algo.

El "tamaño del efecto" representa un intento de remediarlo, introduciendo una medida en la escala natural del problema. En medicina, donde los tratamientos siempre tienen algunos (aunque sea un efecto placebo), la noción de "efecto clínicamente significativo" se introduce para protegerse de la probabilidad previa del 50% de que un "tratamiento" tenga "un efecto positivo (estadísticamente) significativo" (por minúsculo que sea) en un estudio arbitrariamente amplio.

Si comprendo la naturaleza de su trabajo, Clarinetista, al fin y al cabo, su objetivo legítimo es informar sobre acciones/intervenciones que mejoren la educación en las escuelas de su competencia. Así pues, su entorno es un Teoría de la decisión uno, y los métodos bayesianos son los más apropiados (y unívocamente coherente[1] ).

De hecho, la mejor manera de entender los métodos frecuentistas es como aproximaciones a los métodos bayesianos . El tamaño del efecto estimado puede entenderse como una medida de centralidad para el modelo bayesiano. distribución posterior mientras que el valor p puede entenderse como el objetivo de medir una cola de esa posterior. Así pues, juntos estas dos cantidades contienen una idea general de la posterioridad bayesiana que constituye la entrada natural a una perspectiva teórica de la decisión sobre su problema. (Alternativamente, un intervalo de confianza frecuentista sobre el tamaño del efecto puede entenderse igualmente como un aspirante a intervalo creíble .)

En los campos de la psicología y la educación, los métodos bayesianos son bastante populares. Una de las razones es que resulta fácil introducir "constructos" en los modelos bayesianos, como variables latentes. Si lo desea, puede consultar "El libro de los cachorros", de John K. Kruschke psicólogo. En el ámbito de la educación (donde los alumnos están agrupados en aulas, en escuelas, en distritos, etc.), los modelos jerárquicos son inevitables. Y los modelos bayesianos también son estupendos para la modelización jerárquica. En este sentido, puede que le interese consultar Gelman & Hill [2].

[1]: Robert, Christian P. La elección bayesiana: From Decision-Theoretic Foundations to Computational Implementation. 2ª ed. Springer Texts in Statistics. Nueva York: Springer, 2007.

[2]: Gelman, Andrew, y Jennifer Hill. Data Analysis Using Regression and Multilevel/hierarchical Models. Métodos analíticos para la investigación social. Cambridge ; Nueva York: Cambridge University Press, 2007.


Para saber más sobre la "coherencia" de un no-tiene-necesidad-de-golpearte-en-la-cabeza-con-un-ladrillo-bayesiano véase [3].

[3]: Robins, James, y Larry Wasserman. "Condicionamiento, probabilidad y coherencia: A Review of Some Foundational Concepts". Journal of the American Statistical Association 95, no. 452 (1 de diciembre de 2000): 1340–46. doi:10.1080/01621459.2000.10474344.

(*) En [4], Meehl azota NHST mucho más elegantemente, pero no menos abrasivamente, que yo:

Dado que la hipótesis nula es casi siempre falsa, las tablas que resumen la investigación en términos de patrones de "diferencias significativas" son poco más que resultados complejos y causalmente ininterpretables de funciones de potencia estadística.

[4]: Meehl, Paul E. "Riesgos teóricos y asteriscos tabulares: Sir Karl, Sir Ronald y el lento progreso de la psicología blanda". Journal of Consulting and Clinical Psychiatry 46 (1978): 806-34. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf


Y aquí hay una cita relacionada de Tukey: https://stats.stackexchange.com/a/728/41404

2voto

CrockGill Puntos 73

Lo que has escrito no es una estadística de prueba. Es una medida utilizada para definir lo diferentes que son las dos medias. Generalmente, los tamaños del efecto se utilizan para cuantificar lo lejos que está algo de la hipótesis nula. Por ejemplo, si está realizando un análisis de potencia para las dos muestras $t$ -se puede cuantificar la potencia en función del tamaño del efecto (para un efecto fijo). $n$ ) que acabas de escribir (que, creo, se llama D de Cohen). En otros contextos, el tamaño del efecto podría ser otra cosa.

Tampoco es infrecuente informar de los tamaños del efecto utilizando cantidades de la muestra, que pueden coincidir con algunas estadísticas familiares, como la correlación de Pearson: el verdadero tamaño del efecto es el coeficiente de correlación subyacente que generó los datos, pero a veces también es útil disponer de la correlación de la muestra. El propósito de cuantificar lo lejos de la hipótesis nula que están los datos observados, de una forma u otra, en lugar de simplemente informar de un $p$ -valor y dar por terminado el día.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X