7 votos

¿Cómo puedo encontrar el intervalo de predicción de una observación futura dado el conjunto de datos actual?

Me dan un conjunto de datos de una distribución desconocida y me piden que encuentre el intervalo de confianza de predicción aproximado del 99% para la observación futura. Me temo que no entiendo bien lo que significa hacer una predicción. Si asigno la fdc empírica como función de distribución de la observación futura, ¿se considera la predicción? Si no, ¿existe un método convencional para predecir el IC de la observación futura de una distribución desconocida dado el conjunto de datos?

6voto

jldugger Puntos 7490

Existe un concepto convencional que se ajusta a su pregunta: un intervalo de predicción no paramétrico. Son sorprendentemente fáciles de calcular y pueden funcionar bien con conjuntos de datos suficientemente grandes.

Un "intervalo de predicción" es un problema estadístico en el que se pretende utilizar un conjunto inicial de datos para establecer los límites entre los que se encontrarán los datos adicionales. Decimos que estos límites "cubren" los datos adicionales cuando todos los valores adicionales están incluidos dentro de los límites. La página web incondicional La probabilidad de cobertura, es decir, la que se calcularía antes de ver los datos, pretende ser al menos un porcentaje determinado, como el 95% o el 99% (como en esta pregunta).

(Utilizaré el 99% en todo momento, entendiendo que puede ser sustituido por cualquier porcentaje deseado inferior al 100% de forma obvia).

Un intervalo de predicción es "no paramétrico" cuando no se hacen suposiciones (o muy limitadas) sobre la distribución de datos subyacente. La aplicación estándar es cuando esa distribución podría ser literalmente cualquier cosa y los datos son independientes.

El caso más sencillo es el descrito en la pregunta: utilizando valores aleatorios independientes e idénticamente distribuidos $X_1, X_2, \ldots, X_n,$ para erigir un intervalo de predicción del 99% para un solo valor futuro independiente $X_0$ extraídos de la misma distribución desconocida. Proporcionado $n$ es lo suficientemente grande, hay muchas soluciones que son fáciles de obtener: todas se basan en que el $X_i$ son intercambiable: es decir, cualquiera de ellos podría desempeñar el papel de $X_0.$

El intervalo en estas soluciones viene dado por un par de estadísticas de pedidos $(X_{(l)}, X_{(u)})$ para los datos originales. Esta notación, que utiliza subíndices entre paréntesis, es convencional: cuando ordenamos el $X_i$ , $X_{(1)}$ es el más pequeño, $X_{(2)}$ el siguiente más pequeño, y así sucesivamente:

$$X_{(1)} \le X_{(2)} \le \cdots \le X_{(n)}.$$

Por lo tanto, hay $l-1$ valores de datos originales menores o iguales a $X_{(l)}$ (lo que sea $l \in \{1,2,\ldots, n\}$ puede ser) y hay $n-u$ valores de datos originales mayores o iguales a $X_{(u)}.$

La intercambiabilidad de todos los datos, incluyendo $X_0,$ implica $X_0$ es igualmente probable que sea el más pequeño de todos $n+1$ valores, el segundo más pequeño, ..., o el más grande. Esto cubre $n+1$ posibilidades igualmente probables, de las cuales $u-l$ están entre $X_{(l)}$ et $X_{(u)},$ inclusive. Por lo tanto, la posibilidad de que $X_0$ está cubierto por el intervalo $[X_{(l)}, X_{(u)}]$ es al menos $(u-l)/(n+1).$ (El valor de la cobertura es exacto para las distribuciones continuas y podría ser mayor para las distribuciones no continuas en las que son posibles los empates).

Esto demuestra que

$$\Pr(X_0 \in [X_{(l)}, X_{(u)}]) \ge \frac{u-l}{n+1}.\tag{1}$$

Para encontrar un intervalo de predicción del 99% para $X_0,$ entonces, todo lo que tenemos que hacer es elegir $l$ et $u$ para que el lado derecho sea al menos del 99%. Normalmente queremos que el intervalo de predicción sea lo más preciso posible, es decir, lo más estrecho posible, por lo que tomamos $l$ grande y $u$ pequeño, dentro de estas limitaciones. Normalmente, estos índices de orden se eligen simétricamente en el sentido de que $l-1$ et $n-u$ son aproximadamente iguales. La elección debe hacerse antes de examinar los datos.

Ejemplos

  1. Suponga que tiene $n=299$ valores de los datos. Ecuación $(1)$ declara

    $$ \frac{u-l}{300} \ge 0.99,$$

    dando las soluciones

    $$(l,u) \in \{(0, 297), (1, 298), (2, 299), (3, 300)\}.$$

    Utilizo la notación " $(0,297)$ " para indicar un intervalo sin límite inferior (es decir, $X_{(0)} = -\infty$ ) y un límite superior de $X_{(297)}$ : es un límite superior de predicción no paramétrico del 99%. Del mismo modo, " $(3,300)$ "representa el límite inferior de predicción no paramétrico del 99% dado por $X_{(3)}.$ Equivale a pretender $X_{(300)} = X_{(n+1)}=+\infty.$ Las otras dos soluciones son auténticos intervalos (finitos). Puedes elegir cualquiera de ellas (de antemano). Tal vez quiera mantener el límite superior lo más bajo posible, siempre que se cumplan todos los requisitos anteriores: para ello utilizará $(1,298)$ como su procedimiento. En este procedimiento, el intervalo de predicción va desde el valor más pequeño de los datos $X_{(1)}$ hasta el segundo valor más alto de los datos $X_{(298)}.$ De lo contrario, podría utilizar $(2,299).$ (También se puede lanzar una moneda para hacer la elección: esto se llama procedimiento aleatorio. )

  2. Suponga que tiene $n=90$ valores. Ahora no hay soluciones para $(1)$ (o, siguiendo con las convenciones del ejemplo anterior, la única solución es $l=0$ et $u=91$ correspondiente al intervalo $[-\infty, \infty]$ ): no es posible construir un intervalo de predicción no paramétrico del 99% (para una única observación adicional) con menos de $99$ puntos de datos.

Referencias

Hahn y Meeker, Intervalos estadísticos (1991).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X