58 votos

¿Cuáles son algunos ejemplos de prácticas anacrónicas en estadística?

Me estoy refiriendo a las prácticas que aún mantienen su presencia, aunque los problemas (generalmente computacional) que fueron diseñados para hacer frente a han sido en su mayoría resueltos.

Por ejemplo, Yates, la continuidad de la corrección fue inventado para aproximar la prueba exacta de Fisher con $\chi^2$ prueba, pero no es práctico, ya que el software puede manejar de Fisher prueba incluso con muestras grandes (sé que esto puede no ser un buen ejemplo de "mantener su presencia", ya que los libros de texto, como Agresti del Análisis de Datos Categóricos, a menudo se reconoce que la corrección de Yates "no es necesaria").

¿Cuáles son algunos otros ejemplos de este tipo de prácticas?

51voto

Nick Cox Puntos 22819

Es muy discutible que el uso de umbral de los niveles de significación como $P = 0.05$ o $P = 0.01$ es un histórico de la resaca de un período cuando la mayoría de los investigadores dependía calculado previamente las tablas de valores críticos. Ahora bien software dará $P$-valores directamente. De hecho, un buen software le permite personalizar su análisis y no dependen de los libros de texto de las pruebas.

Esto es relativo, si sólo porque algunas pruebas de significación de problemas que requieren decisiones, como en el control de calidad, donde la aceptación o rechazo de un lote es la decisión necesaria, seguido por una acción de cualquier manera. Pero incluso en los umbrales utilizados deberían desarrollarse a partir de un análisis de riesgo, no dependen de la tradición. Y, a menudo, en las ciencias, el análisis cuantitativo de las indicaciones es más apropiado que las decisiones: el pensamiento cuantitativo que implica la atención a los tamaños de $P$-valores y no sólo a un crudo dicotomía, significativo o no significativo.

Voy a la bandera que me toque en un intrincado y controvertido tema, que es el foco de la totalidad de los libros y, probablemente, miles de papeles, pero parece un ejemplo justo para este hilo.

24voto

Cliff AB Puntos 3213

Un método que creo que estarán de acuerdo conmigo en muchos visitantes de este sitio es regresión stepwise. Es aún hecho todo el tiempo, pero usted no tiene que buscar lejos para expertos en este sitio diciendo deplorando su uso. Un método como LASSO es muy preferido.

19voto

hstoerr Puntos 698

Mi opinión es que al menos en (aplicado a) de la econometría, es más y más la norma a utilizar la robusta o empírica de la matriz de covarianza en lugar de la de "anacrónica práctica" de confiar (asintóticamente) en la especificación correcta de la matriz de covarianza. Este es, por supuesto, no está exenta de polémica: ver algunas de las respuestas que he enlazado aquí en CrossValidated, pero sin duda es una tendencia clara.

Los ejemplos incluyen heterocedasticidad robusto error estándar (Eicker-Huber-White errores estándar). Algunos investigadores como Angrist y Pischke aparentemente aconsejo siempre usar heterocedasticidad robusto error estándar en lugar de la de "anacrónica" procedimiento para el uso normal de error estándar como predeterminado y comprobar si la hipótesis de $E[uu'] = \sigma^2 I_n$ está garantizado.

Otros ejemplos incluyen datos de panel, Imbens y Wooldridge escribir, por ejemplo, en su conferencia de diapositivas argumentar en contra del uso de los efectos aleatorios varianza de la matriz de covarianza (suponiendo implícitamente algunos misspecification en los componentes de varianza de forma predeterminada):

Totalmente robusto inferencia está disponible y generalmente debe ser utilizado. (Nota: La costumbre de VOLVER a la varianza de la matriz, que sólo depende de la $\sigma_c^2$$\sigma_u^2$, no necesita ser especificado correctamente! Todavía tiene sentido usarlo en la estimación, pero hacer inferencia robusta.)

Uso de modelos lineales generalizados (para las distribuciones que pertenecen a la exponencial de la familia), a menudo se recomienda utilizar siempre el llamado sándwich estimador en lugar de confiar en la correcta distribución de la hipótesis (la anacrónica práctica aquí): ver por ejemplo esta respuesta o Cameron en referencia a los datos de recuento, porque pseudo-estimación de máxima verosimilitud puede ser bastante flexible en el caso de misspecification (por ejemplo, el uso de Poisson si binomial negativa sería correcto).

[Blanca] error estándar correcciones que se deben efectuar para la regresión de Poisson, ya que puede hacer mucho más diferencia que la de similar heterocedasticidad correcciones por OLS.

Greene escribe en su libro de texto en el Capítulo 14 (disponible en su sitio web), por ejemplo, con una nota crítica y va más en detalle acerca de las ventajas y desventajas de esta práctica:

Hay una tendencia en la literatura actual para calcular este [sándwich] estimador de forma rutinaria, independientemente de la probabilidad de la función.* [...] *Hacemos hincapié una vez más que el sándwich estimador de, en y de sí mismo, no es necesariamente de virtud alguna, si la probabilidad de la función está mal especificada y las demás condiciones para la M estimador no se cumplen.

16voto

Cliff AB Puntos 3213

Un método que es innecesariamente utiliza todo el tiempo es el de la corrección de Bonferroni p-valores. Mientras que las comparaciones múltiples es un problema tan grande como lo fue siempre, a la corrección de Bonferroni es esencialmente obsoleta para los p-valores: para cualquier situación en la que la corrección de Bonferroni es válido, por lo que es la Carrasca-corrección de Bonferroni, que tendrá estrictamente poder superior bajo la alternativa si $m > 1$ donde $m$ es el número de hipótesis (la igualdad en $m = 1$).

Creo que la razón de la persistencia de la corrección de Bonferroni es la facilidad de uso mental (es decir, p = 0,004 $m = 30$ se ajusta fácilmente a 0,12, mientras que Encinas de Bonferroni requiere la clasificación de los valores de p).

16voto

Sean Hanley Puntos 2428

La mayoría de los anacrónico prácticas son, probablemente, debido a la forma en que las estadísticas que se enseña y el hecho de que los análisis están dirigidos por un gran número de personas que sólo han tomado un par de clases básicas. A menudo nos enseñan un conjunto de ideas estadísticas y procedimientos debido a que forman una secuencia lógica de creciente sofisticación conceptual que hace sentido pedagógico (cf., ¿Cómo podemos saber la varianza de la población?). Soy culpable de esto mismo: en ocasiones me enseñan estadísticas 101 y 102, y constantemente me dicen, "no hay una manera mejor de hacer esto, pero está más allá del alcance de esta clase'. Para aquellos alumnos que no van más allá de la introducción de la secuencia (a casi todos), que se quedan con los básicos, pero superada, estrategias.

  1. Para las estadísticas de 101 ejemplo, probablemente el más común anacrónico práctica es poner a prueba algunas hipótesis y, a continuación, ejecutar una tradicional análisis estadístico debido a que la prueba no fue significativa. Una más moderna y avanzada / defendible enfoque sería utilizar un método robusto para la asunción desde el principio. Algunas referencias para obtener más información:

  2. Para las estadísticas de 102 ejemplos, cualquier número de prácticas de modelado se han anticuado:

    • La transformación de $Y$ para alcanzar la normalidad de los residuos para obtener fiable $p$-valores frente de arranque.
    • La transformación de $Y$ para alcanzar homoscedasticity en lugar de utilizar un sándwich estimador, etc.
    • El uso de un polinomiales de orden superior para la captura de curvatura vs splines cúbicos.
    • La evaluación de los modelos diseñados para la predicción usando $p$-de valores y en la muestra de bondad de ajuste métricas como $R^2$ en lugar de la validación cruzada.
    • Con medidas repetidas de datos, la categorización de una variable continua, de modo que rmANOVA puede ser usado o un promedio de varias mediciones versus uso de un modelo lineal mixto.
    • Etc.

El punto en todos estos casos es que las personas están haciendo lo que se enseña primero en una clase introductoria porque simplemente no saben más avanzada y métodos adecuados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X