5 votos

Medios de los grupos A y B difieren significativamente. Quiero clasificar valores en la A o B

Mis datos este aspecto.

Heights of hoverers and non-hoverers

La variable en la $x$ eje es la altura en pulgadas. La variable en la $y$ eje es si alguien se cierne a la hora de orinar en un baño público. Cada uno de los 103 puntos es una mujer estudiante de la universidad.

De acuerdo a un $t$-prueba, la altura media de hoverers es significativamente mayor que la de los no-hoverers.

Me gustaría hacer una inferencia en la dirección opuesta; me gustaría saber si más alto que las mujeres son más propensas a flotar.

  1. Es razonable sospechar basado en mi $t$-prueba de que el opuesto de inferencia se mantenga?
  2. Una regresión logística se encontró ninguna aumentado significativamente las probabilidades de sostenerlo, correspondiente a un incremento en la altura. Existe una prueba que se debe tratar de esta relación opuesta?

6voto

jldugger Puntos 7490

(1) Casi. Una mejor comparación sería una prueba de que las medianas (como una prueba de suma de clasificación) en lugar de un medio. Los medios son sensibles a los datos erróneos y el t-test es sensible a los datos asimétricos. Por otra parte, si las medias son diferentes, tenemos evidencia de que la proporción de personas más altas que son hoverers supera la menor proporción de personas que son, que es relevante para la predicción de la pregunta. Sin embargo, mediante un t-test como este, como una pantalla inicial para identificar las variables importantes es la norma. De Hosmer y Lemeshow escribir,

...el discriminante lineal de la función [que se parece a un t estadística] y el máximo de probabilidad de la estimación del coeficiente de regresión logística son por lo general bastante cerca cuando la variable independiente es aproximadamente una distribución normal dentro de cada uno de los resultados de los grupos. ... Por lo tanto, el análisis univariable basado en el t-test debe ser útil en la determinación de si la variable que debe ser incluido en el modelo, ya que el p-valor debe ser del mismo orden de magnitud que la de la Wald estadística, la prueba de Puntuación, o la prueba de razón de verosimilitud de la regresión logística.

(Aplica la Regresión Logística, Segunda Edición, pág. 93.)

(2) Es difícil encontrar 173 puntos en la trama; una mirada más de cerca identifica sólo 97 distintos marcadores. Pero permítanme usar para ilustrar un enfoque.

Aquí están mis datos ya que se cuenta:

Height Hovering Not hovering
60  0   5
61  2   1
62  6   5
63  1   2
64  11  11
65  10  4
66  9   5
67  5   3
68  4   5
69  3   1
70  1   1
71  1   0
72  1   0

Una regresión logística cuenta con una p-valor de .0616:

Logistic regression                               Number of obs   =         97
                                                  LR chi2(1)      =       3.49
                                                  Prob > chi2     =     0.0616
Log likelihood = -64.863893                       Pseudo R2       =     0.0262

------------------------------------------------------------------------------
      hovers |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      height |   .1539169   .0845634     1.82   0.069    -.0118243    .3196581
       _cons |   -9.76445   5.488694    -1.78   0.075    -20.52209    .9931935
------------------------------------------------------------------------------

Aunque esto no es "significativo" en cualquier nivel más estricto que el 6%, es sugerente, y el coeficiente del 15% por pulgada es grande. Una de las razones de la regresión puede no ser tan importante como la prueba de t (u otras pruebas) es que la relación entre las probabilidades de registro y la altura puede ser no lineal. Para evaluar esto, bin a las alturas y a calcular los logits de las proporciones (de hoverers para el total de sujetos) dentro de cada grupo. (Hacer esto es una buena idea para comprobar el ajuste de cualquier regresión logística, debido a que el modelo asume que los logits variará linealmente con las variables independientes.) Para manejar cero cuenta, he añadido 1/6 a cada conteo antes de realizar los cálculos.

Bubble plot of logits vs. height

Las áreas de la trama símbolos son proporcionales al total de la cuenta en cada una (una pulgada) de altura de reciclaje. Hay una tendencia, pero es fuertemente forma de s, no lineal. Es fuertemente influenciada por la izquierda del punto (a todas las mujeres de 60 cm de alto), que tiene un buen peso (que representa alrededor del 5% de los sujetos) y la gran apalancamiento (porque se encuentra en un extremo por el valor de la variable independiente). Me gustaría descuento los dos pequeños símbolos en la parte superior derecha, porque ellos representan sólo dos personas: hay una gran cantidad de incertidumbre en cuanto a su posición correcta. Pero no vamos a tirar a la basura!

Esta parcela debe recordarnos de la biofísica del problema. No estoy exactamente seguro de lo que "flotando" es, pero sospecho que es una actividad física que requiere una altura mínima de eficacia, o al menos se hace muchísimo más difícil hacerlo a menos que el umbral de altura. La gente cerca o por debajo de ese umbral necesariamente va a ser en el no-cierne clase, independientemente de la preferencia o cualquier otro mecanismo relacionado flotando a la altura. La trama proporciona evidencia de que este umbral es de entre 60 y 61 pulgadas. En consecuencia, tendría sentido para comprobar una tendencia separada sólo entre todos los sujetos 61 pulgadas o más. Esta vez, el p-valor de la regresión logística es 0.439, de acuerdo con la impresión visual de que prácticamente no hay una tendencia entre todos los puntos. (Todavía tiene un coeficiente positivo, aunque, de alrededor de 7% por pulgada. Esto es lo suficientemente significativa como la que podríamos estar interesados en prolongar el estudio para ver si el efecto es realmente debido a la oportunidad, como el p-valor sugerencias, o representa una tendencia real.)

Basado en esta versión de los datos (que puede ser incorrecta), podemos concluir que:

  • Hay alguna evidencia de un efecto umbral en torno a 60-61 pulgadas.

  • De lo contrario, no hay ninguna evidencia de regular tendencia en cierne propensión con la altura.

Porque he utilizado un análisis exploratorio para sugerir este modelo, no sería correcto utilizar los mismos datos para confirmar el modelo formal de las pruebas de hipótesis. Pero quizás en la modalidad de exploración proporciona una visión más clara, si hay menos certeza, de rutina (y ciego) de la aplicación de las pruebas estadísticas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X