5 votos

¿Cómo predecir valores o estimar cuantiles más allá del rango de una muestra?

Estoy trabajando con un pequeño conjunto de datos que es claramente no gaussiano. Estos datos están acotados dentro de un rango bastante estrecho. Me han pedido que estime los cuantiles de la población a la que pertenecen estos datos. He utilizado el Wikipedia para mi referencia (método R-4). Todo esto ha ido bien. Sin embargo, a continuación se me pidió que estimara la probabilidad de que se produjera un valor mayor que cualquiera de los datos de mi conjunto de muestras. Parece que el análisis cuantílico no da información de la distribución de la población fuera del rango de la muestra. ¿Es esto correcto? ¿Existe otro enfoque?

2voto

jldugger Puntos 7490

En un comentario a la pregunta, @soakley escribe

Digamos que tiene una muestra de 10 puntos de datos. Cuál es la probabilidad de que un 11º punto de datos sea mayor que los 10 que has recogido?

Eso apunta a una solución, pero hay una sutileza. El azar en esta cita no se refiere a la posibilidad de que el punto 11 sea el mayor condicional en los datos (los 10 puntos), aunque así nos guste pensar en la situación. Ese azar no puede estimarse, porque esos 10 puntos podrían ser cualquier subconjunto de la población. Pero si antes de Si al recopilar cualquier dato se contemplara la posibilidad de que el undécimo punto de datos sea (únicamente) el mayor, se podrían inferir algunas cosas útiles sobre la posibilidad de que incondicional evento. La cuestión es que los datos son intercambiable : cada uno tiene exactamente la misma probabilidad de ser el más grande que cualquiera de los otros.

Si se asume una distribución continua (de modo que un empate para el más grande tiene una probabilidad nula) la probabilidad se puede calcular exactamente. En consecuencia, cada uno de los 11 valores tiene la misma probabilidad de ser el mayor que cualquiera de los otros y esas 11 posibilidades suman la unidad. Por lo tanto, la respuesta en este caso es $1/11$ .

Cuando los empates en los datos tienen posibilidades distintas de cero, esas 11 posibilidades más la posibilidad de un empate suma a la unidad. Por lo tanto, la probabilidad de que un valor determinado sea el mayor será menor que $1/11$ pero la probabilidad que sea mayor o esté empatada con la mayor debe superar $1/11$ . Sin conocer las probabilidades de empate, eso es todo lo que se puede deducir, ya que la probabilidad de estar empatado con el mayor puede acercarse a $1$ . Imagínese, por ejemplo, una población de sólo ceros y unos, con muchos más unos que ceros: la probabilidad de que el 11º valor sea igual a 1, y por tanto esté entre los mayores de la muestra, puede ser arbitrariamente cercana a $1$ .

Si resolvemos los empates de forma aleatoria y equitativa, la distribución de resultados se convierte en continua y se aplica de nuevo el resultado anterior: la probabilidad de ser declarado el mayor será exactamente $1/11$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X