4 votos

¿Qué hacer con los datos que son bimodales en dos colas de la distribución?

Me encuentro en una situación extraña en la que preescribí un plan para utilizar la regresión lineal para analizar mis datos, y declaré que utilizaría transformaciones para abordar cualquier violación de los supuestos. Estoy bastante seguro de que mis datos no son adecuados para la regresión lineal, ni se arreglarán con una transformación. Pienso utilizar un análisis más apropiado, pero me gustaría al menos considerar la posibilidad de que estos datos puedan transformarse O que sigan siendo aceptables para la regresión lineal. ¿Alguna idea para transformaciones y/o opiniones sobre si es aceptable o no utilizar la regresión lineal con estos datos?

Edición: Sé que el análisis de supervivencia es más apropiado dado que los datos están censurados a la derecha (la variable de respuesta es la cantidad de tiempo que los sujetos esperaron antes de realizar un determinado comportamiento, y el experimento se terminó si el sujeto esperó 15 minutos). Pero lo que estoy preguntando es si la regresión lineal se puede utilizar en estos datos (ignorando el problema de la censura) / si hay una transformación adecuada? Además, si la censura no debe ser ignorada, ¿por qué exactamente (ya que no viola los supuestos de la regresión lineal)?

Edit2: A continuación se muestran algunos gráficos de diagnóstico.

enter image description here enter image description here enter image description here Gracias. enter image description here

3voto

Cliff AB Puntos 3213

Yo diría que no se trata de un caso de datos bimodales, sino de censura del derecho . No le interesa saber cuánto dura el experimento (que suele terminar a los 15 minutos), sino el tiempo hasta la acción. Desgraciadamente, no se puede observar el tiempo hasta el suceso en cada observación debido a la terminación anticipada. Sin embargo, en estas observaciones censuradas, usted sabe que el tiempo hasta el evento es al menos 15 minutos, que es algo informativo.

Se trata de un terreno bien transitado en el ámbito del análisis de la supervivencia. Las herramientas estándar incluyen las curvas de Kaplan-Meier (para ajustes univariantes) y los modelos de Cox-PH (el más común) o de fracaso acelerado (probablemente un modelo más fácil de entender si no se está familiarizado con las tasas de riesgo, etc.)

EDITAR: Se ha preguntado qué tiene de malo utilizar la regresión lineal (sin tener en cuenta la censura) en este caso. La respuesta es que sus estimaciones estarán sesgadas (y en su caso, este sesgo parece ser muy grave). Como ejemplo extremo, supongamos que la media de la población fuera mayor que 15 (mirando sus valores, parece que al menos la mitad de los tiempos registrados censan 15, lo que implica que la media es, de hecho, probablemente mayor que 15). Dado que todos los valores de respuesta verdaderos mayores que 15 entran en su conjunto de datos como 15, no es posible estimar una media de 15 (de hecho, el valor esperado de la media será mucho menos de 15, aunque ese sea el verdadero valor medio).

2voto

patfla Puntos 1

Ignorar la censura en los datos es una mala idea, sobre todo porque no se trata de una censura pequeña. Parece que cerca de la mitad de los datos están censurados. Para ver por qué esto puede ser malo, tome una regresión lineal verdadera $y_i=a+bx_i +e_i $ (suponer $a,b>0$ para simplificar). Ahora supongamos que recortamos todos los valores $y_i $ por encima de $15$ a $15$ . Lo que ocurre es que para los grandes $y_i >15$ es que el correspondiente gran $x_i $ ya no se encuentra en la línea recta, y se encuentra en una pendiente de aproximadamente cero (no la "verdadera pendiente" $b $ ). Por lo tanto, cuando se ajusta el modelo de regresión utilizando datos censurados, la pendiente estimada será menor.

Dicho esto, su conjunto de predictores parece bastante limitado: parece que sólo hay $3$ combinaciones distintas de la parcela residual - por lo que sólo $3$ Los valores ajustados son posibles en cualquier modelo de regresión. Se puede ejecutar $3$ análisis independiente dentro de cada grupo. Entonces sólo estás estimando datos univariados censurados a la derecha.

Espero que esto ayude.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X