En cuanto a la tasa de error de tipo I, me parece bien.
Unas cuantas simulaciones rápidas no parecen indicar ninguna dificultad importante con el nivel de significación cuando la muestra más pequeña tiene la varianza más grande.
Por ejemplo, con la muestra más pequeña que tiene $n_s=10$ y la muestra mayor con $n_l=100$ y dado que la población más pequeña tiene 25 veces la varianza de la más grande (5 veces la sd), el nivel de significación real cuando la prueba se realiza como prueba del 5% es muy cercano a 0,05 (este es el código R):
> sr=5;res=replicate(10000,t.test(rnorm(100),rnorm(10,0,sr))$p.value)
> mean(res<.05)
[1] 0.0501
> sr=5;res=replicate(10000,t.test(rnorm(100),rnorm(10,0,sr))$p.value)
> mean(res<.05)
[1] 0.0499
Parece bastante bueno. Por supuesto que querrías probar un rango de n's y ratios de varianzas. Probé algunos otros, pero todos estaban razonablemente cerca del 5% para una prueba del 5% - por ejemplo, un par de ensayos de 10000 simulaciones para una relación de varianzas de 9 y una relación de tamaños de muestra de 100/10 dio la tasa de error de tipo I en alrededor de 5,1%. Pero el error estándar de la estimación es aproximadamente del mismo tamaño que la desviación del 5%, por lo que en realidad no podemos detectar ninguna desviación del 5% (habrá algunas, pero son demasiado pequeñas para detectarlas incluso con 40000 pruebas). Un ensayo mucho mayor sugiere que en realidad está más cerca del 5% que esto.
A mí no me preocuparían esas pequeñas desviaciones en la tasa de error de tipo I; si le preocupa algún tipo de $n_s, n_l$ y algún rango de ratios de varianza, se podría simular fácilmente para comprobar ese caso en detalle, pero yo sugeriría que, aparte de algunos posibles problemas con tamaños de muestra muy pequeños ( $n_s=2$ podría tener algunos pobres, por ejemplo, por lo que probablemente querría comprobar que más cuidadosamente si tuviera $n$ tan bajo), que casi todos los casos con los que se puede encontrar en la práctica serán generalmente correctos.
¿Y el poder? Depende de con qué se compare. Si el problema es sólo emparejar una varianza mayor con una muestra menor, veamos el efecto sobre la precisión asintótica (varianza inversa) de cambiar la varianza mayor por la muestra mayor; esto debería indicarnos aproximadamente cuánto mayor sería el par de muestras que necesitaríamos para recoger la misma pequeña diferencia de medias.
Sin duda tendrá un efecto, ya que en muestras más grandes, la potencia está determinada en mayor medida por la menor de las dos precisiones de las medias de grupo; el caso en el que la mayor varianza va con el menor tamaño de la muestra sin duda reducirá la potencia debido a eso.
Sea la relación entre los tamaños de las muestras $n_r=n_l/n_s$ y como antes $V_r$ sea la relación de las varianzas (mayor sobre menor). Además, para este cálculo, que la varianza más pequeña sea 1.
En el caso que preguntas la precisión de la diferencia de medias es proporcional a $n_s(1/V_r+n_r)$ y en el caso de que la mayor varianza sea con la muestra más grande es proporcional a $n_s(1+n_r/V_r)$
Además, veamos el caso sencillo en el que $V_r=n_r$ Por ejemplo, considere 9 veces el tamaño de la muestra y 9 veces la varianza. En ese caso, la relación entre las dos precisiones es de 4,55, es decir, la precisión efectiva será aproximadamente el 22% de lo que sería con la varianza mayor combinada con el tamaño de muestra mayor. Lo que significa que para obtener aproximadamente la misma potencia con la misma proporción de tamaños de muestra necesitarías 4,5 veces más puntos de datos cuando la varianza está con el grupo más pequeño. (Por supuesto, si puedes controlarla, puedes mejorar las cosas mucho más rápidamente si te centras en mejorar el tamaño de muestra más pequeño).
[¿Por qué he puesto esas proporciones iguales? A medida que se hacen más diferentes, es la mayor de las dos proporciones la que determina la precisión de la diferencia, y por lo tanto la eficiencia relativa asintótica; el caso en el que son casi iguales es la región interesante, ahí es donde se consigue que el impacto relativo de intercambiar la varianza entre el tamaño de muestra más pequeño y el más grande sea grande].
Esto no hace que la prueba sea inutilizable, sólo relativamente menos potente. No es que haya mucho que hacer al respecto, ya que en realidad hay menos información sobre la diferencia.
0 votos
¿Le interesa el caso Igual-N, o en general?
0 votos
Sólo en el caso de que la muestra más pequeña tenga una varianza mayor. Por lo que yo sé, incluso la prueba t de Student habitual funciona bien cuando los tamaños de las muestras son iguales.
0 votos
Oh lo siento, malinterpreté su pregunta. La prueba t sigue funcionando bien cuando las varianzas son similares, ¿debemos suponer que usted está interesado en el caso en que las varianzas difieren sustancialmente?
1 votos
Sí, exactamente. ¿Podemos utilizar la prueba t de Welch cuando la muestra más pequeña tiene una varianza sustancialmente mayor?
1 votos
Cuando dice "funcionar bien", ¿la principal preocupación es el tamaño de la muestra o la potencia?
2 votos
Mi principal preocupación es que el error de tipo I puede ser mayor de lo esperado.