6 votos

Derivación del intervalo de confianza a partir del error estándar de la media cuando los datos no son normales

Tengo una muestra pequeña (n = 8) y he calculado la media y el error típico de la media. No conozco la distribución subyacente de estas observaciones, y no puedo suponer que sea normal.

Quiero obtener el intervalo de confianza del 95% de la media, y he visto que la gente utiliza la distribución t de Student junto con el error estándar para calcular el intervalo de confianza. Pero parece que el método requiere que las propias observaciones procedan de una distribución normal.

¿Cómo debo calcular el intervalo de confianza del 95% en mi caso?

0 votos

@gung, sólo he visto utilizar la desigualdad de Chebyshev cuando se conoce (o se supone) la desviación típica o la varianza de la distribución. ¿Cómo se ve afectada la desigualdad cuando se utilizan valores estimados a partir de la muestra?

0 votos

@GregSnow, gracias por el consejo, no lo sabía. Borraré mi sugerencia.

0 votos

@gung, había pensado en la misma idea en el pasado, pero me di cuenta de que no sabía cómo la desviación estándar estimada afectaría a las cosas antes de sugerirlo. Esperaba que hubieras encontrado una corrección para hacerlo funcionar, o una referencia que diera detalles.

8voto

AdamSane Puntos 1825

Esto es algo complicado. Hay varios enfoques:

  1. Supongamos que la distribución no está "demasiado lejos" de la normal (en un sentido determinado) y que el intervalo t dará una cobertura cercana a la deseada. La t es al menos razonablemente robusta a desviaciones leves de las suposiciones, por lo que si la distribución de la población no es particularmente sesgada o de cola especialmente pesada, al menos debería funcionar razonablemente bien.

  2. supongamos que la distribución es simétrica* y construyamos un intervalo para la pseudomediana (estimación de Hodges-Lehmann, mediana de medias por pares) mediante un procedimiento de rango con signo de Wilcoxon. Si la distribución t hubiera sido correcta, en promedio se pierde muy poco haciendo esto. Esto se puede hacer en muchos paquetes.

    [Con una distribución simétrica cuya media existe, la media, la pseudomediana, la mediana ordinaria (y muchas otras medidas de localización) coinciden. Un intervalo que contenga una con una probabilidad determinada contendrá también las otras].

    *(o al menos "suficientemente" cerca de ella)

    Aquí hay un ejemplo de esto hecho en R:

    y <- rlogis(8,50,1)  
    wilcox.test(y,conf.int=TRUE)  
    
    Wilcoxon signed rank test`   
    
    data:  y
    V = 36, p-value = 0.007813  
    alternative hypothesis: true location is not equal to 0  
    95 percent confidence interval:  
     47.49677 52.22811  
    sample estimates:  
    (pseudo)median   
          49.55069   

    Así que el intervalo dado allí es (47,50, 52,23):

    enter image description here

    El segmento de línea vertical morada es la media de la muestra y el central azul es el pseudomediano de la muestra. Los segmentos azules exteriores marcan los extremos del intervalo de confianza. Puede ver que en este ejemplo el intervalo incluye la verdadera media poblacional de 50.

  3. asumir simetría y construir un CI a partir de los valores de la media que no serían rechazados por una prueba de permutación (esto puede hacerse a partir de una única distribución de prueba de permutación y 8 observaciones son suficientes para obtener toda la distribución de permutación en lugar de muestrearla).

  4. utilizar el bootstrap para construir un IC para la media. El bootstrap se justifica por un argumento asintótico (por lo que puede no funcionar muy bien para muestras pequeñas), pero puede hacer varios supuestos de distribución y comprobar sus propiedades de cobertura para distribuciones plausibles mediante simulación. Este documento (el pdf puede descargarse en ese enlace) sugiere que los intervalos bootstrap-t obtienen a menudo mejores propiedades de cobertura que los intervalos t habituales, pero pueden tener una cobertura deficiente cuando las muestras son pequeñas y las distribuciones son asimétricas.

  5. Si dispone de información adicional que le ayude a orientar la elección de la distribución, puede llegar a algún sitio con otros supuestos distributivos. Por ejemplo, si sabe que la distribución es asimétrica y continua, puede intentar utilizar un modelo Gamma o lognormal (digamos) para construir un IC para la media. O si tiene datos de recuento, podría utilizar un modelo Poisson, binomial o binomial negativo para intentar construir un intervalo.

1 votos

Bootstrapping se puede hacer en R con la función boot biblioteca: boot.ci(boot(y,R=1000,statistic=function(y,ind) { mean(y[ind]) }))

0 votos

El bootstrapping con 8 observaciones no se tomará en serio. ¿Por qué se ha popularizado el bootstrapping hace relativamente poco? Porque ahora tenemos ordenadores y podemos manejar grandes muestras de datos.

1voto

Aksakal Puntos 11351

Si no se conoce la distribución no se puede hacer nada con 8 observaciones. Informa de tu desviación típica. Puedes intentar usar desigualdades de chebyshev o similares pero suelen ser tan amplias que sólo se usan en trabajos teóricos

piense en el 95%. ya sé que está de moda intentar exprimir toda la información posible de los datos, pero, vamos, seamos razonables, con 8 puntos de datos se puede esperar algo así como un percentil del 12,5% y del 87,5%. tal vez se pueda hacer algo extravagante y mover un poco los bordes, pero ¡¿al 95%?!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X