7 votos

Al tratar con una distribución no normal en conjuntos de datos "grandes", ¿cuándo hay que descartar la CLT?

Disculpas desde el vamos ya que esta pregunta viene de un novato absoluto y definitivamente no satisfará muchos de los detalles requeridos. Por lo tanto, su orientación en el suministro de la información correcta para permitir la respuesta adecuada a mi pregunta puede ser inevitable.

Un breve resumen de lo que me preocupa actualmente. He recibido un conjunto de datos de un colega, que contiene ~5000 pacientes y estamos tratando de determinar cómo un tratamiento inicial afecta a diversas variables de resultado. Algunas de ellas son categóricas (con 3 niveles), otras son continuas. La variable categórica es actualmente la menor de mis preocupaciones, porque por lo que puedo decir, tendría que realizar una regresión multivariante, quizás usando MANOVA, para ver cómo esta variable dependiente se ve afectada por las otras variables independientes.

Ahora, lo que realmente me molesta es la distribución de los datos continuos. Estos datos consisten en los clásicos datos de "recuento" (número de veces que se visitó al médico tras el tratamiento), pero luego contienen el "tiempo de curación". Los datos de "recuento" supondrían una distribución de Poisson, pero en este caso var>media... por lo que quizás una cuasi-Poisson sería más adecuada. La distribución de esos datos de "recuento" se representa en la figura 1. Figure 1

Ahora el tiempo de curación es lo que realmente me molesta. Algunas personas argumentarían que esto requeriría un modelo de regresión lineal, pero lo que no puedo entender es que el tiempo de curación no puede ser cero o tomar números negativos. Y si uno mira la distribución de los datos, parece mucho más Poisson que otra cosa (Figura 2). Entonces, ¿requeriría esto, de hecho, una regresión de Poisson? Además, desde el punto de vista biológico, es probable que el tiempo de curación no sea completamente lineal, sino más bien lo que vemos en el crecimiento de los cultivos celulares, que tiene un patrón más exponencial, con una fase lineal.

Figure 2

O -y esto me lleva a la pregunta de mi título- debido al tamaño del conjunto de datos, que es bastante grande, ¿podría decirse que el teorema del límite central es cierto y que no tengo que preocuparme por la distribución de los datos? Está claro que mis gráficos me dicen que sí, ¿no?

Si transformo mis datos en logaritmos, las cosas empiezan a parecer bastante bien (Figura 3)... pero ¿es adecuado un modelo lineal, ya que los valores no pueden ser negativos ni nulos?

Figure 3

He representado los residuos de un modelo de regresión lineal para los datos del tiempo de curación en la Figura 4, que muestra que las colas no se ajustan realmente a la linealidad. A continuación, he trazado los residuos de la regresión utilizando una regresión de Poisson (Figura 5). A continuación, los residuos de un modelo de regresión lineal utilizando la transformación logarítmica (Figura 6).

Figure 3 - Linear Model Figure 4 - Poisson model Figure 6 - Log transformed linear model

Sólo con ver lo que tiene aquí, ¿qué más información necesitaría? ¿Estoy yendo por un camino completamente equivocado? Y si asumimos una curva exponencial para el tiempo de curación, ¿qué tengo que hacer para corregir esto en mi proceso de modelado? Y sólo por la regla de los números, ¿podría ahorrarme todas estas reflexiones y suponer simplemente que la CLT se cumple?

Soy muy nuevo en esto, así que cualquier orientación será más que bienvenida.

Espero no haber hecho perder el tiempo a nadie y pido disculpas si no estoy publicando información crucial aquí. Feliz de aprender, lo que más se requiere.

7voto

dan90266 Puntos 609

No está muy claro por qué te empeñas en el CLT. Lo que importa para su propósito es la solidez y la bondad del ajuste. Para los datos de tiempo-evento es habitual utilizar un modelo de supervivencia semiparamétrico como el modelo de probabilidades proporcionales de Cox. También se puede utilizar el modelo logístico ordinal de probabilidades proporcionales, si no hay censura. Este modelo ordinal puede manejar las otras variables de resultado. Tanto los modelos de probabilidades proporcionales como otros modelos ordinales no requieren que se seleccione una transformación para $Y$ y manejan agrupaciones arbitrarias (por ejemplo, a cero días).

Entre otros problemas del "pensamiento CLT" está su falsa suposición de que las desviaciones estándar son buenas medidas de dispersión para distribuciones asimétricas $Y$ .

5voto

AdamSane Puntos 1825

No sólo hay que preocuparse por la normalidad, sino también por la igualdad de la varianza; con los datos de recuento (y las distribuciones continuas con sesgo a la derecha), la varianza tiende a estar relacionada con la media de alguna manera. Este problema de la varianza no se soluciona con el teorema del límite central.

Creo que tienes razón al pensar que quizás deberías utilizar algo como la regresión de Poisson para tu variable de recuento. Hay algunas alternativas, pero la regresión de Poisson sería lo primero que consideraría. Sin embargo, por el aspecto de algunos de tus gráficos, es posible que necesites algo de cola más pesada, como una binomial negativa.

En principio, yo consideraría alguna forma de GLM para todas sus variables de respuesta. Esto también facilitará el tratamiento de la curvatura (mediante el uso de funciones de enlace adecuadas).

Mencionas la censura en tu comentario de abajo; tienes razón en no ignorar la censura - los riesgos proporcionales de Cox (que mencionaste) es algo estándar para probar pero hay otras opciones disponibles.

3voto

Doug Kavendek Puntos 1244

OP, puede que te esté interpretando mal: si es así, por favor, házmelo saber y borraré esta respuesta.

Me parece que usted está fundamentalmente confundido sobre lo que significa el CLT. Nadie más lo ha señalado, así que tal vez me equivoque; de nuevo, si es así, por favor, intervenga.

Su puesto incluye lo siguiente:

O -y esto me lleva a la pregunta del título- debido al tamaño del conjunto de datos, que es bastante grande, ¿se podría decir que el teorema del límite central es cierto y no tengo que preocuparme por la distribución de los datos? Está claro que mis gráficos me dicen que sí, ¿no?

Si realizo una transformación logarítmica de mis datos, las cosas empiezan a estar bastante bien (Figura 3)

¿A qué se refiere exactamente cuando dice que "el teorema del límite central es cierto"? Si no me equivoco, usted cree que, dado un tamaño de muestra suficientemente grande, todas las distribuciones se vuelven normales, y eso es falso.

Para dar un ejemplo concreto: si $X_i$ son i.i.d. Uniformes en $[0, 1]$ entonces $\frac{1}{n}\sum_{i=1}^nX_i$ se distribuirá asintóticamente de forma normal como $n\rightarrow\infty$ . Pero eso no significa que, dado un gran tamaño de la muestra, se deba esperar un histograma del $X_i$ s para que parezca una distribución normal.

0voto

OpenAndroid Puntos 116

El teorema del límite central es un resultado asintótico, lo que significa que tiene que cumplirse como $n \rightarrow \infty$ (bajo ciertas condiciones de regularidad), suficientemente grande es un término demasiado vago.

En su caso, la distribución tiene una cola derecha muy pesada (a juzgar por la varianza calculada en la figura 2). Por lo tanto, un valor grande ocasional puede constituir una gran parte de la suma.

Para que las ideas sean más claras, supongamos que 100 números muestreados de la distribución verdadera dan 98 ceros y 2 números con valor 300. Su estimación de la media será de 6, que se ve mucho más afectada por los números grandes ocasionales (300).

-1voto

rkthkr Puntos 6651

Las distribuciones de $X$ y $Y$ no son importantes

La distribución de $X$ y $Y$ no importan a la regresión lineal. Recordemos los supuestos habituales de los mínimos cuadrados ordinarios. En ninguna parte dice nada sobre la forma de la variable dependiente e independiente.

Para creerlo, ejecuta esta regresión en R:

x<-rexp(1000)
y<-5*x+rnorm(1000)
summary(lm(y~x))

Ambos $X$ y $Y$ se distribuyen exponencialmente, la regresión sigue encontrando el parámetro correcto.

La normalidad de los errores está sobrevalorada

Nos has mostrado que los residuos no son normales. Bien, ¿qué te dice eso en realidad? Muy poco. No significa que las estimaciones estén mal, prueba esto en R:

x<-rexp(1000)
y<-5*x+rexp(1000)
summary(lm(y~x))

Y mira, incluso con errores exponenciales, la regresión sigue en la marca.

El hecho es que: la normalidad de los errores sólo importa para la estimación de los intervalos de confianza y los valores p . ¿Y si realmente necesitas intervalos de confianza o valores p y los residuos no son normales? Usar bootstrap .
Un verdadero problema son los valores atípicos (¿ves esos residuos a 15 en tu gráfico?), esos sí que sesgan los resultados y puede que tengas que eliminarlos, o utilizar alguna regresión robusta o ambas cosas.

Su verdadero problema es la selección del modelo

Lo que veo es que tienes muchos modelos con los que puedes alimentar estos datos. Nos pide que elijamos uno. No podemos responder por usted. Tienes que hacerlo por tu cuenta. Por suerte es bastante fácil de hacer. Ejecuta todos los modelos que se te ocurran. Todas las regresiones, con todas las transformaciones de los datos y todas las permutaciones de los regresores. Luego elige el que predice mejor.

Aprender la validación cruzada . Que es fácil y hace precisamente eso. Elige el modelo con el menor error validado cruzado

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X