2 votos

¿Cómo determinar un conductor 'fuerte'?

Tengo un conjunto de controladores que son binarios y un concepto para medir que contiene números naturales entre 1 y 10.

Actualmente estoy utilizando el análisis de controladores clave de Kruskal para determinar la contribución relativa de cada uno de los controladores. Se discute como más robusto que la Correlación de Pearson al tener en cuenta el conjunto completo de controladores y su contribución relativa.

Sin embargo, ¿es aún válido enfoque de Kruskal cuando los controladores son binarios y el concepto a medir son números naturales entre 1 y 10? Pensé en cambiar al uso de la correlación punto biserial, sin embargo, esto es idéntico al coeficiente de correlación de Pearson.

Mi pregunta es: ¿Dónde establezco el umbral entre un controlador 'bueno' y un controlador 'no tan bueno'? Depende del tamaño de los datos y también de las propiedades de los datos. Calcular la significancia utilizando pruebas t (ignorando el hecho de que los datos pueden no cumplir con las suposiciones necesarias de la prueba t (esto está incluido en el algoritmo pearsonr de scipy), los considera todos significativos, ya que generalmente lo serán porque incluso los controladores débiles tendrán alguna correlación y no son 'aleatorios'. Por lo tanto, ¿debo establecer que los controladores 'fuertes' tengan un valor de p muy bajo - algo que parece bastante arbitrario. ¿O hay un mejor algoritmo que pueda distinguir entre controladores fuertes y débiles?

¿O es que ningún algoritmo realmente puede determinar qué es un controlador fuerte? ¿Depende de otros factores relacionados con el contexto de los datos que se están analizando?

2voto

mkt Puntos 688

No creo que podamos decidir por ti lo que constituye fuerte/moderado/débil, ya que depende del sistema en el que estás estudiando además de las propiedades estadísticas de los datos.

Un débil impulsor en un experimento de física altamente controlado en laboratorio puede ser muy fuerte para un estudio de dinámicas biológicas desordenadas en condiciones naturales. Además, como seguramente reconoces, un umbral es una conveniencia que no debe tomarse demasiado en serio. Piensa en el punto que se hace con frecuencia de que p=0.049 y p=0.051 no son significativamente diferentes a pesar de estar en diferentes lados de un umbral comunmente utilizado.

1voto

user164061 Puntos 281

En lugar de una correlación, podrías usar una estadística chi-cuadrado o de razón de verosimilitud (probando la hipótesis de que la distribución del concepto, estratificada según el conductor $x_i$, después de corregir para los conductores $x_j$, $x_k$..., es diferente o igual).

Luego puedes calcular esta estadística para cada conductor basándote en el promedio de todas las permutaciones, y expresará el grado en el que la variable explica una variación en la distribución de la variable de resultado.

Puedes usar este valor promediado para hacer tu ordenamiento. Si quieres expresar la significancia (y no te importa la elegancia) entonces puedes usar un enfoque de Monte Carlo para comparar cada conductor contra una gran colección de conductores aleatorios.

Esta respuesta podría volverse menos general si se proporciona algún ejemplo numérico y antecedentes más específicos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X