6 votos

Necesita ayuda para interpretar esta declaración con respecto a la probabilidad

Estaba leyendo este texto sobre la probabilidad y he confusión en la interpretación de un enunciado. El texto se lee de la siguiente manera:

El muestreo es una técnica muy común para la estimación de la fracción de los elementos de un conjunto que tiene una cierta propiedad. Por ejemplo, supongamos que que te gustaría saber cuántos Estadounidenses planea votar por el El candidato republicano en las próximas elecciones presidenciales. Es imposible pido a todos los Estadounidenses cómo van a votar, por lo que los encuestadores normalmente póngase en contacto con n los Estadounidenses seleccionados al azar y, a continuación, calcular la fracción de los Estadounidenses que va a votar por los republicanos. Este valor se utiliza entonces como la estimación de la cantidad de todos los Estadounidenses que se votar por los Republicanos. Por ejemplo, si el 45% de la n contactado votantes informe que van a votar por los Republicanos, el encuestador informes de que el 45% de todos los Los estadounidenses votan por los Republicanos. Además, el encuestador generalmente también proporcionan algún tipo de calificación de instrucción, tales como

"Hay un 95% de probabilidad de que la encuesta es exacta dentro de (+/-) 4 puntos porcentuales".

Muchas personas interpretan la clasificación declaración en el sentido de que hay una 95% de probabilidad de que entre el 41% y 49% de los Estadounidenses tienen la intención de votar Los republicanos. Pero esto es incorrecto!

Después hay que hacer un poco de matemáticas y concluir con el significado real de que la clasificación de la declaración y por lo tanto decir que:

Hay un 95% de probabilidades de que el grupo de muestra va a producir una estimación lo que está dentro (+/-) 4 puntos porcentuales en el valor correcto para el total de la población. Así que, o hemos sido "mala suerte" en la selección de la la gente a la encuesta o los resultados de la encuesta serán correctas dentro de (+/-) 4 puntos.

Yo no veo ninguna diferencia entre las dos interpretaciones. Puede alguien por favor ayuda?

Lo que entiendo de su última declaración es que hay un 95% de probabilidades de que el resultado se obtiene a partir de ese particular grupo de muestra (es decir, el 45% de los Estadounidenses votan por los Republicanos) se encuentra dentro de (+/-) 4 % de la correcta fracción (sea p). Así que en otras palabras hay un 95% de probabilidades de que 'p' es entre 0.41 y 0,49, que es precisamente lo que la primera interpretación (que ellos consideran malo), significó.

9voto

rb612 Puntos 155

Yo no soy un experto en estadísticas, así que por favor me corrija si no estoy diciendo esto, precisamente, sin embargo, he aquí lo que yo creo que la cuestión es la siguiente:

Es más filosófica que es matemático. Así que considere la (mala) interpretación: "que hay un 95% de probabilidad de que entre el 41% y 49% de los Estadounidenses tienen la intención de votar por los Republicanos." Ahora pregúntate, ¿realmente es el azar? No es como que hay un 5% de probabilidad de que los ciudadanos no están de voto de entre el 41% y 49% de los republicanos, que ya tiene en sus mentes! No es como si se repite la elección de 20 veces en menos de 1 hora estarán los resultados de la encuesta de otoño fuera de ese rango – si usted repetir la elección, usted debe obtener el mismo resultado cada vez. La media de población es fijo.

Más bien, el 95% es si tenemos o no realmente "capturado" el intervalo correcto. Que es precisamente lo que la segunda (correcto) declaración está diciendo.

Así que me gusta pensar en él como lo que es fijo y que uno es probabilística de la real media (la proporción de personas que es votado por los republicanos en este ejemplo) es fija. No hay ninguna probabilidad. Tampoco está entre el 41% y 49% o no lo es. Pero lo que no es fijo es nuestro intervalo de confianza. Dependiendo de nuestras muestras de la población, que puede o no ser captura de la verdadera media de la población es que esta parte es la probabilística parte.

Edit: también me gustaría sugerir la comprobación de este . Aunque no en su totalidad, se presenta cómo lo he presentado más arriba (y es de suponer que el libro de texto está usando) se mira desde una "frecuentista" la perspectiva más que un "Bayesiano" perspectiva.

6voto

heropup Puntos 29437

El único aspecto filosófico a esta pregunta tiene que ver si estamos hablando acerca de los parámetros en el Bayesiano sentido, o la frecuentista sentido. El citado texto implica que el debate cae dentro de este último contexto.

Así, en el frecuentista de vista de la inferencia estadística, uno debe ser claro acerca de lo que es aleatorio y lo fija, lo que se observa y observables, y lo que es desconocido o desconocida.

Por ejemplo, supongamos que estamos interesados en la edad media (medida como el número de años vividos) de la población humana de la Tierra el 1 de enero de 2018. Este es representado por un único número cuyo valor teóricamente podría ser calculado, pero es tan poco práctico para hacer que efectivamente es imposible. Sin embargo, sabemos que es definida y fija. Tal cantidad es un parámetro. No está sujeto a la aleatoriedad. Es una fija, pero se desconoce la cantidad que es una propiedad de la distribución de las edades de todas las personas en la Tierra en ese momento dado.

Ahora, si tomamos una muestra aleatoria simple de las personas y calcular la media de edad de la muestra, que intuitivamente entendemos que esto puede dar una idea del valor de este parámetro, pero cada vez que tomar una muestra aleatoria, la media de la muestra es simplemente una estimación cuyo valor no es fijo, sino que puede cambiar a partir de una muestra a otra. El proceso de selección de personas para cada una de las muestras es donde la aleatoriedad. El resultado de cada una de las muestras es una realización de este subyacente proceso aleatorio, y es la de una estadística.

Así que, para recapitular, el parámetro es incognoscible pero fijo; la estadística (y la variable aleatoria(s) a partir de la cual es calculada) es observable, pero al azar: su valor cambia cada vez que se realiza.

En lugar de simplemente proporcionar el promedio de la muestra cada vez que se tome una muestra, y usando esto como su estimación de la media de población, que se podría incorporar alguna medida de la incertidumbre con respecto a su estimación, y esto generalmente depende del tamaño de la muestra. La intuición sugiere que el mayor tamaño de su muestra, la que más información tiene sobre la población, y más precisa que son capaces de decir la estimación resultante podría ser. Para un intervalo de confianza capta esta idea, dando una estimación que es un intervalo en lugar de un único número. Pero debido a que un intervalo de confianza es una estimación que se deriva de la muestra, también es aleatorio.

A destacar, el parámetro es fijo, pero desconocido. Cada vez que se toma la muestra, se calcula el intervalo de confianza varía. Por azar, algunos de los intervalos de confianza puede no contener el valor del parámetro (pero no lo hace y no puede saber cuando esto sucede, para una muestra dada). Sin embargo, mediante el ajuste de la anchura del intervalo de confianza, se puede afirmar que el intervalo tiene una cierta probabilidad de cobertura que representa la probabilidad de que una muestra aleatoria se toma que los resultados en un intervalo de confianza que contiene el valor del parámetro. El más grande que usted desea que esta probabilidad de cobertura o el nivel de confianza, mayor será la resultante de intervalo.

Volvemos a la pregunta original, vemos que no tiene sentido afirmar la existencia de un "95% de probabilidad de que entre el 41% y 49% de los Estadounidenses tienen la intención de votar Republicano", porque esto equivale a decir que el parámetro (la verdadera proporción de los Estadounidenses con la intención de voto Republicano) es al azar de una muestra a otra, y que los límites de confianza de 41% y 49% son fijos; cuando en realidad, es el 41% y 49% que son aleatorios, habiendo sido calculada a partir de la muestra y el parámetro, lo que refleja el verdadero estado de la realidad, es fijo.

Esto es muy confuso concepto de entender, porque cuando un dato se dio cuenta, es fácil olvidar que este fue sólo uno de los resultados posibles. Estamos tentados a pensar: "bueno, sabemos lo que hemos visto, por lo que es fijo." Pero no! La observación es lo que es, por supuesto, pero es sólo uno de los resultados posibles de muchos. No podríamos encontrar es razonable suponer que una feria de seis caras morir, rodó una vez, continuará nos dan el mismo resultado, de ahora en adelante.

Para ser absolutamente claro acerca de su ejemplo, la incorrecta interpretación, es decir que hay una cierta "posibilidad" de que el parámetro se va a caer entre dos valores fijos. La interpretación correcta es decir que hay una cierta probabilidad de que una muestra aleatoria resultará en un intervalo de cálculo que contiene el verdadero valor del parámetro.

Un Bayesiano piensa todo lo anterior es equivocada, y en su lugar se refiere a los datos como los fijos, y el parámetro como al azar. Y esto conduce a formas muy interesantes de la realización de la inferencia estadística, pero esta discusión no está dentro del alcance de su pregunta.

4voto

Tony Hellmuth Puntos 391

Considere la posibilidad de que usted va para todos los Estadounidenses. Permite llamar al tamaño de la población $N$. Para $N$ de la gente va a obtener una exacta proporción de quienes votan Republicano, decir $p$. Es decir, $p$ es nuestra correcto valor. Pero, como se señaló, no es factible para recoger la opinión de todos, y no digamos posible. Las estadísticas nos dan una manera de estimar el $p$.

Le acaba de elegir a $n$ de las personas de la muestra de $N$. La selección de $n$ de las personas debe ser al azar. Es entonces que se supone que nuestra muestra $n$ representa todo acerca de la población $N$, desde el punto de vista estadístico.

Aquí es donde siento que la interpretación puede ser confuso. Uno puede decir que son de $95$% seguros de que nuestra muestra está dentro de los 4 puntos del real $p$. No nos dice $p$ va a ser dentro de un cierto rango de $95$% del tiempo, sino lo bien que se espera de nuestra muestra han hecho, $95$% del tiempo.

Es casi una afirmación engañosa y es muy peligroso si se interpreta de forma incorrecta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X