7 votos

Estadística, valores esperados y filosofía

Primero una nota: no soy estadístico. Estudié matemáticas en la universidad (pero opté por no asistir a todas las clases de estadística), y ahora me encuentro en un trabajo en el que me dedico a la estadística.

Mi pregunta es un poco filosófica, y seguro que tengo el cerebro revuelto por pensar demasiado en cosas equivocadas, pero estoy luchando con el concepto de variable aleatoria.

Supongamos que un mecanógrafo puede escribir en promedio $\mu$ palabras por minuto. Si tomamos una muestra de su escritura, podríamos aproximar una distribución normal con media $\mu $ . Creo que es bastante normal.

Así que podemos decir que esperamos que el mecanógrafo escriba $\mu$ palabras por minuto. Bien, ¿y si sustituimos al mecanógrafo por otra persona? ¿Debemos esperar que la segunda persona escriba a $\mu$ ¿palabras por minuto? Por supuesto que no, porque sólo tenemos una muestra para la primera persona y no para la segunda, ¿verdad? La media del segundo mecanógrafo podría ser completamente diferente. Eso tiene sentido, pero entonces qué pasa si vuelvo a poner al mecanógrafo original y le ato una mano a la espalda. Obviamente el valor esperado es diferente, porque el mecanógrafo claramente no puede escribir tan rápido. Pero entonces en qué condiciones podemos esperar que la media del mecanógrafo sea $\mu$ ? Parece que cualquier perturbación en el estado del mecanógrafo cambia la probabilidad. Pero en realidad nunca definimos el estado del mecanógrafo para empezar, el valor esperado se calculó a partir de una muestra. Y, obviamente, cada vez que el mecanógrafo teclea se encuentra en un estado ligeramente diferente, es decir, tal vez tenga dolor de cabeza, tal vez le duelan los dedos, tal vez esté soñando despierto, pero aún así los contamos en nuestra muestra. Así que me parece que, técnicamente, si podemos aceptar algunos pequeños cambios de estado, ¿por qué no podemos aceptar grandes cambios de estado? Por ejemplo, si sustituyo a la mecanógrafa, tengo el mismo derecho a decir que las palabras por minuto esperadas siguen siendo $\mu$ .

Me gustaría que alguien explicara por qué lo anterior es erróneo. Tal vez sea una respuesta obvia.

7voto

user777 Puntos 10934

Creo que la mejor respuesta a su pregunta es centrarse en qué es, precisamente, lo que quiere saber.

Tienes razón en que el promedio de palabras por minuto del mecanógrafo es sólo una inferencia significativa sobre ese mecanógrafo en particular. Pero si se mide el rendimiento del mecanógrafo en muchos intervalos, es de esperar que se mezclen aleatoriamente esos otros estados y, por lo tanto, se haga un promedio sobre ellos. El valor medio puede verse como la media ponderada de todos estos estados diferentes. Si se quiere, se puede construir un modelo que incorpore otra información explicativa que pueda mejorar o degradar las habilidades del mecanógrafo: dolores de cabeza, falta de sueño, etc. Pero esto probablemente sólo sea necesario si se necesita medir la importancia o el tamaño del efecto de algunas circunstancias en el mecanógrafo.

Si te interesa hacer inferencias en todo el universo de mecanógrafos, está claro que tendrías que recopilar información sobre más de un mecanógrafo. Utilizando una gran muestra aleatoria del conjunto de mecanógrafos, podrías describir la tasa del mecanógrafo típico, su dispersión, etc. Aunque es probable que su índice sea una función complicada de factores biológicos, físicos y ambientales, y por tanto determinista en lugar de estocástica, si no nos interesan esas características, y creemos que nuestra muestra aleatoria es representativa de esas características, nuestras inferencias efectivamente "promediarán" esas características. Del mismo modo, si algunos mecanógrafos tienen las manos atadas a la espalda, el muestreo aleatorio captará este fenómeno y lo reflejará en cualquier estadística que se calcule utilizando esa muestra aleatoria.

Si nuestra investigación se centra más bien en las covariables de la mecanografía, sería esencial recopilar información sobre el estado de los mecanógrafos: tal vez su estado de dolor de cabeza, si tienen artritis, su edad, etc.

Espero que esto proporcione el contexto necesario para entender la lógica que subyace a las estadísticas y responda a las preguntas que has planteado. Si desea más información, hágamelo saber, y bienvenido a Cross Validated.

2voto

slowpoison Puntos 339

DJE ha dado una gran respuesta, pero yo sólo añadiría una aclaración sobre los estados que podemos y no podemos aceptar.

Cuando se mide la velocidad del mecanógrafo, en realidad se está midiendo el valor marginal esperado. Para simplificar, consideremos que la velocidad de la mecanógrafa está en uno de los dos estados (rápida =1, lenta=0) y digamos que estamos intentando estimar la probabilidad de que sea una mecanógrafa rápida.

Por lo tanto, cuando se mide la velocidad en varios puntos de tiempo y se promedia, se está estimando Pr(fast). Pero al seleccionar puntos de tiempo al azar, estás estimando esto a través de las contribuciones a la probabilidad marginal por la probabilidad de que la mecanógrafa sea rápida dados esos estados que ocurren para la mecanógrafa: Pr(rápido) = Pr(rápido|dolor de cabeza)Pr(dolor de cabeza) + Pr(rápido|cansado)Pr(cansado) + Pr(rápido|hambre)Pr(hambre) + Pr(rápido|fecha límite)Pr(fecha límite)+... etc.

Si selecciona sus puntos de tiempo de forma aleatoria, los estados que se producen en su conjunto de datos deberían ser representativos de la distribución de los estados que se producen en la población del tiempo de este mecanógrafo. Pueden perderse estados muy raros, pero a menos que tengan un gran efecto en la velocidad de mecanografía, esto no causará mucho sesgo. Si la mecanógrafa pasa alguna vez con la mano atada a la espalda mientras teclea, entonces Pr(mano atada) >0 y se representará en los datos con probabilidad = Pr(mano atada). La razón por la que no aceptamos "tener una mano atada a la espalda de la mecanógrafa" como un estado es porque no es una variación normal en el estado de la mecanógrafa, es decir, creemos que Pr(mano atada) = 0. Del mismo modo, si Pr(mecanógrafa A = mecanógrafa B) = 0, entonces no aceptamos el cambio de mecanógrafa como un estado al que se aplica nuestra probabilidad marginal.

2voto

Aaron Puntos 36

Esta cuestión gira en torno al concepto probabilístico de intercambiabilidad . Consideremos un experimento que genera una serie de resultados $X_1, X_2, X_3,...$ y supongamos que tenemos "condiciones estables", con lo que queremos decir que las condiciones del experimento son lo suficientemente similares en lo esencial de ensayo a ensayo como para confiar en que el orden de los resultados no es informativo. Esta "estabilidad" del experimento se recoge en la noción de intercambiabilidad de la secuencia de resultados. De hecho, podemos definir razonablemente las "condiciones estables" de un experimento como aquellas que creemos que conducen a la intercambiabilidad de los resultados.

La estimación paramétrica en un experimento puede entenderse operativamente como sigue. Si tenemos un experimento que puede generar una secuencia (hipotéticamente infinita) de resultados $X_1, X_2, X_3,...$ entonces podemos definir la media paramétrica:

$$\mu \equiv \lim_{n \rightarrow \infty} \frac{1}{n} \sum_{i=1}^n X_i.$$

Bajo la condición de intercambiabilidad, se puede demostrar que $\mathbb{E}(X_i) = \mu$ para cada resultado de la secuencia. Filosóficamente, este resultado operativo para una secuencia infinita es la justificación para considerar este "parámetro" en absoluto. Es decir, el "parámetro" sólo es una cosa si suponemos que hay alguna secuencia infinita de valores a partir de la cual se define operativamente. A partir de la media común que surge bajo la intercambiabilidad, la media muestral $\bar{X}_n = \sum_{i=1}^n X_i / n$ es un estimador razonable de $\mu$ que es imparcial y fuertemente consistente.

Ahora bien, si cambiar las condiciones del experimento (por ejemplo, cambiando la mecanógrafa, o cambiando las condiciones en las que opera la mecanógrafa original) entonces ya no podemos decir que los resultados combinados de esos dos experimentos son resultados intercambiables. Por lo tanto, ya no podemos apelar a la media común para una secuencia intercambiable de variables aleatorias, y ya no tenemos ninguna razón para creer que la media muestral de un experimento actuará como un estimador razonable de la media paramétrica de otro. En este caso, ahora tenemos dos secuencias de resultados separadas, que podrían ser intercambiables individualmente (si cada una tiene condiciones estables por derecho propio), pero que no son intercambiables cuando se fusionan.

La comprensión de la base filosófica de esta cuestión requiere una profunda familiaridad con el modelo IID derivado de una secuencia intercambiable. A este respecto, recomiendo encarecidamente leer sobre la intercambiabilidad y los modelos operativos de los parámetros (véase, por ejemplo Bernardo 1996 ).

0voto

romada Puntos 21

Si consideras que x es constante, pues el valor esperado será x. Si quieres mirar la evolución de x no puedes hacer la hipótesis de que x es constante.

Mi enfoque sería diferente. Supongamos ahora que su x evoluciona en el tiempo, tiene una serie temporal.

Para adivinar el valor esperado se puede construir un modelo. Este modelo debe incluir:

Una tendencia: x crecerá a medida que el mecanógrafo aprenda a escribir, disminuirá a medida que el mecanógrafo envejezca.

Efectos periódicos: Anualmente ya que la motivación va y viene con el tiempo, Mensualmente ya que la motivación va y viene con la paga, diariamente ya que el mecanógrafo puede sentir fatiga.

Y alguna variación alta: enfermedad si se mira a los días, pérdida de atención si se mira a la hora, error tipográfico si se mira a los minutos.

Como se puede ver, tomar una media como estimador del futuro no es suficiente. Hay que construir un buen estimador. Esto podría ser complejo ya que probablemente olvide algunos efectos (miedo a la página en blanco, una publicación por terminar... ) y ya que necesitará muchas medidas x.

Así que podemos volver a su solución.

Supongamos que la tendencia es lenta. Elija un período que mantenga los efectos periódicos que necesita y evite los demás. Construya un modelo para los demás efectos. Uno sencillo puede tomar simplemente la probabilidad de ser afectado y la pérdida de velocidad.

Se puede tomar la media en el periodo mencionado y ajustar por otros efectos para tener una buena estimación del valor esperado.

0voto

Allan Puntos 19

Cuando decimos "el mecanógrafo A escribe $\mu$ palabras por minuto", nos referimos al mecanógrafo A en todos sus estados diferentes (pero normales). Es decir, para evaluar la media $\mu$ hay que medir su rendimiento durante varios días de trabajo regulares. Ningún mecanógrafo trabaja con la mano atada a la espalda. Esto no forma parte de la descripción de su trabajo. Cuanto mayor sea la variabilidad de la media de un día a otro, más tiempo habrá que observar al mecanógrafo para evaluar la $\mu$ . Finalmente, los valores de $\mu$ convergerá: las observaciones adicionales no cambiarán $\mu$ mucho, y no será necesario. ¡Esta es la ley de los números más grandes!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X