128 votos

Más interesante estadística paradojas

Porque me parece fascinante, me gustaría escuchar lo que la gente en esta comunidad se encuentra como el más interesante de estadística de la paradoja y por qué.

107voto

simmosn Puntos 304

No es una paradoja de por sí, pero es un juego de comentario, al menos al principio.

Durante la II Guerra Mundial, Abraham Wald fue un estadístico para el gobierno de los Estados Unidos. Él miró a los bombarderos que volvió de misiones y analizado el patrón de la bala "heridas" en los aviones. Se recomienda que la Marina reforzar las áreas donde los aviones tenían ningún daño.

Por qué? Tenemos los efectos de selección en el trabajo. Este ejemplo sugiere que el daño infligido en la observó áreas podría ser resistido. Cualquiera de los aviones que nunca fueron golpeados en las áreas no afectadas, una extraña proposición, o ataca a las piezas fueron letales. Nos preocupamos acerca de los aviones que iban hacia abajo, no sólo a los retornados. Aquellos que cayó probable que sufrió un ataque en un lugar que estaba intacta en los que sobrevivieron.

Para copias de su original memorandos, ver aquí. Para más modernas de la aplicación, consulte este Científico Estadounidense blog.

Se extiende sobre un tema, de acuerdo a este blog, durante la I Guerra Mundial, la introducción de una lata casco llevó a más heridas en la cabeza que un modelo de sombrero de paño. Era el nuevo casco peor para los soldados? No; a pesar de que las lesiones fueron más altos, las muertes fueron menores.

52voto

simmosn Puntos 304

Otro ejemplo es la falacia ecológica.

Ejemplo
Supongamos que se busca una relación entre el voto y los ingresos por la regresión de la votación compartir por el entonces Senador Obama en la mediana de los ingresos de un estado (en miles). Tenemos una intercepción de aproximadamente un 20 y un coeficiente de la pendiente de 0.61.

Muchos interpretan este resultado como diciendo que el aumento de los ingresos de las personas son más propensos a votar por los Demócratas; de hecho, la prensa popular libros han hecho de este argumento.

Pero espera, yo pensaba que los ricos eran más propensos a ser Republicanos? Son.

Lo que esta regresión realmente nos está diciendo es que los ricos estados son más proclives a votar por un Demócrata y pobres de los estados son más proclives a votar por un Republicano. Dentro de un estado determinado, los ricos son más propensos a votar por los Republicanos y los pobres son más propensos a votar a los Demócratas. Ver el trabajo de Andrew Gelman y sus coautores.

Sin más supuestos, no podemos utilizar a nivel de grupo (agregado) de datos para hacer inferencias sobre el individuo a nivel de comportamiento. Esta es la falacia ecológica. A nivel de grupo de datos sólo puede decirnos acerca de grupo a nivel de comportamiento.

Para dar el salto a nivel individual de las inferencias, tenemos la constancia de la asunción. Aquí, la votación de la elección de individuos, la mayoría no varían sistemáticamente con la mediana de los ingresos de un estado; una persona que gana \$X in a rich state must be just as likely to vote for a Democrat as someone who earns \$X en mal estado. Pero la gente en Connecticut, en todos los niveles de ingresos, son más proclives a votar por un Demócrata que las personas en Mississippi en los mismos niveles de ingresos. Por lo tanto, la consistencia supuesto es violado y que nos lleva a la conclusión errónea (deje engañar por la agregación de sesgo).

Este tema era frecuente caballo de batalla de la tarde David Freedman; consulte este documento, por ejemplo. En ese papel, Freedman proporciona un medio para la delimitación nivel individual de las probabilidades utilizando los datos del grupo.

Comparación de la paradoja de Simpson
En otra parte de este CW, @Michelle propone Simpson paradoja como un buen ejemplo, ya que de hecho es. La paradoja de Simpson y la falacia ecológica están estrechamente relacionados, pero distintos. Los dos ejemplos que difieren en la naturaleza de los datos y de análisis utilizados.

La formulación estándar de Simpson paradoja es un camino de mesa. En nuestro ejemplo, supongamos que tenemos los datos individuales, y nos clasificar a cada individuo como ingresos altos o bajos. Nos gustaría obtener una renta por voto tabla de contingencia de 2x2 de los totales. Nos gustaría ver que una mayor proporción de altos ingresos de la gente votó por los Demócratas en relación a la proporción de personas de bajos ingresos. Íbamos a crear una tabla de contingencia para cada estado, sin embargo, nos gustaría ver el patrón opuesto.

En la falacia ecológica, no nos colapso de los ingresos en una escala dicotómica (o tal vez multichotomous) variable. Para llegar a nivel de estado, se obtiene la media (o mediana) estado de ingresos y estado de voto compartir y ejecutar una regresión y encontrar que el aumento de los ingresos de los estados son más propensos a votar por los Demócratas. Si se mantiene el nivel individual de los datos y corrió la regresión por separado por el estado, encontramos que el efecto opuesto.

En resumen, las diferencias son:

  • El modo de análisis: se podría decir, siguiendo a nuestro SAT prep habilidades, que de la paradoja de Simpson es a las tablas de contingencia como la ecológica, es la falacia de los coeficientes de correlación y de regresión.
  • Grado de agregación y de la naturaleza de los datos: Mientras que los Simpson paradoja ejemplo compara dos números (Demócrata voto compartir entre las personas con ingresos altos en comparación con el mismo para individuos de bajos ingresos), la falacia ecológica que utiliza 50 puntos de datos (es decir, cada estado) para calcular un coeficiente de correlación. Para obtener la historia completa de los Simpson paradoja ejemplo, prefiero necesidad de los dos números de cada uno de los cincuenta estados de estados unidos (100 números), mientras que en la falacia ecológica caso, necesitamos el nivel individual de los datos (o de lo que haya estado determinado nivel de correlaciones/regresión de pistas).

Observación General
@NeilG comentarios que esto sólo parece estar diciendo que usted no puede tener ninguna selección en no observables/variables omitidas cuestiones de prejuicios en su regresión. Eso es correcto! Al menos en el contexto de regresión, creo que casi cualquier "paradoja" es simplemente un caso especial de sesgo de variables omitidas.

El sesgo de selección (ver mi respuesta en este CW) pueden ser controlados mediante la inclusión de las variables que conducen a la selección. Por supuesto, estas variables son típicamente observados, manejar el problema de la paradoja. Espurio de regresión (mi otra respuesta) puede ser superado mediante la adición de una tendencia temporal. Estos casos decir, esencialmente, de que tiene suficientes datos, pero necesitan más predictores.

En el caso de la falacia ecológica, es cierto, se necesita más predictores (aquí, específicos de cada estado pendientes y las intersecciones). Pero se necesitan más observaciones, el individuo, en lugar de a nivel de grupo, observaciones, así como para la estimación de estas relaciones.

(Por cierto, si tienes extrema de selección donde la variable de selección perfectamente divide de tratamiento y de control, como en la segunda guerra mundial, ejemplo que doy, usted puede necesitar más datos para la estimación de la regresión; hay, las caídas de aviones.)

44voto

Peter Puntos 1

Mi contribución es de la paradoja de Simpson porque:

  • las razones de la paradoja no son intuitivos para muchas personas, así que
  • puede ser muy difícil de explicar por qué los resultados son para los laicos en la llanura inglés.

    tl;dr versión de la paradoja: la significación estadística de un resultado parece diferir dependiendo de cómo los datos son particiones. La causa parece a menudo ser debido a una confusión de la variable.

Otro buen resumen de la paradoja está aquí.

35voto

Liam Puntos 1423

No hay paradojas en las estadísticas, sólo puzzles espera de ser resuelto.

Sin embargo, mi favorito es el de dos sobres "paradoja". Supongamos que poner dos sobres en frente de ti y te dirá que contiene dos veces más dinero como los otros (pero no se cual es cual). El motivo de la siguiente manera. Supongamos que la izquierda sobre contiene $x$, con 50% de probabilidad de que el derecho sobre contiene $2x$ y con 50% de probabilidad de que contenga $0.5x$, para un valor esperado de $1.25x$. Pero, por supuesto, usted puede simplemente invertir los sobres y a la conclusión de que en lugar de la izquierda sobre contiene $1.25$ veces el valor de la derecha de la envolvente. Lo que pasó?

32voto

jldugger Puntos 7490

La Bella Durmiente Problema.

Este es un invento reciente; fue muy discutido dentro de un pequeño conjunto de revistas de filosofía en la última década. Hay partidarios acérrimos de dos respuestas muy distintas (el "Halfers" y "Thirders"). Plantea preguntas acerca de la naturaleza de la creencia, la probabilidad y acondicionado, y ha llevado a las personas a invocar la mecánica cuántica "muchos mundos" de la interpretación (entre otras cosas bizarras).

Aquí está la declaración de la Wikipedia:

La bella durmiente voluntarios para someterse a la siguiente experimento y es dijo a todos los detalles a continuación. El domingo se pone a dormir. Un feria de la moneda se lanzó para determinar qué procedimiento experimental es a cabo. Si la moneda sale cara, la Belleza se despierta y entrevistado el lunes, y luego el experimento termina. Si la moneda viene cruz, ella se despierta y se entrevistó el lunes y el martes. Pero cuando ella se pone a dormir de nuevo el lunes, ella se da una dosis de un amnesia-inducción de la droga que asegura que ella no puede recordar su anterior despertar. En este caso, el experimento termina después de que ella es entrevistada en martes.

Cualquier momento de la bella Durmiente se despierta y se entrevistó, ella se preguntó, "¿Cuál es su credibilidad ahora la proposición de que la moneda de aterrizar los jefes?"

El Thirder posición es que S. B. en caso de responder "1/3" (este es un sencillo Teorema de Bayes cálculo) y la Halfer posición es que ella debería decir "1/2" (porque eso es la probabilidad correcta para una feria de la moneda, obviamente!). En mi humilde opinión, todo el debate se basa en una comprensión limitada de la probabilidad, pero no es el punto entero de la exploración de aparentes paradojas?

Prince Florimond Finds the Sleeping Beauty

(Ilustración del Proyecto Gutenberg.)


Aunque no es este el lugar para tratar de resolver las paradojas, solo para el estado de ellos, yo no quiero dejar a la gente colgada y estoy seguro de que la mayoría de los lectores de esta página no quiere vadear a través de las explicaciones filosóficas. Podemos tomar una punta de E. T. Jaynes, que sustituye a la pregunta "¿cómo podemos construir un modelo matemático de humanos el sentido común"-que es algo que necesitamos para pensar a través de la bella Durmiente problema-por "¿Cómo podríamos construir una máquina que pueda llevar a cabo útil plausible de razonamiento, los siguientes principios claramente definidos que expresan una visión idealizada de sentido común?" Por lo tanto, si te gusta, reemplazar S. B. por Jaynes en el pensamiento de los robot. Usted puede clon de este robot (en lugar de la administración de una fantasía amnésico de drogas) para el martes parte del experimento, creando un modelo claro de la S. B. instalación que puede ser analizado de forma inequívoca. El modelado de este en una forma estándar de estadística, la teoría de la decisión, a continuación, revela en realidad, hay dos preguntas que se hacen aquí (¿cuál es la probabilidad de que una moneda cae de cabeza? y ¿cuál es la probabilidad de que la moneda ha aterrizado cabezas, condicionado por el hecho de que usted era el clon, que se despertó?). La respuesta es 1/2 (en el primer caso) o 1/3 (en la segunda, utilizando el Teorema de Bayes). No mecánico-cuántica de los principios que intervienen en esta solución :-).


Referencias

Arntzenius, Frank (2002). Reflexiones sobre la bella Durmiente. Análisis 62.1 pp 53-62. Elga, Adam (2000). La auto-localización de la creencia y la bella Durmiente Problema. Análisis de los 60 pp 143-7.

Franceschi, Pablo (2005). La bella durmiente y el Problema del Mundo de la Reducción. Preprint.

Groisman, Berry (2007). El final de la bella Durmiente de la pesadilla.

Lewis, D (2001). La bella durmiente: respuesta a Elga. Análisis de 61.3 pp 171-6.

Papineau, David y Víctor Dura-Vila (2008). Un thirder y un Everettian: una respuesta a Lewis 'Quantum de la bella Durmiente'.

Pust, Joel (2008). Horgan en la bella Durmiente. Synthese 160 pp 97-101.

Vineberg, Susan (sin fecha, quizás, 2003). La belleza de la historia con Moraleja.

Todos se pueden encontrar (o, al menos, se encontraron varios años atrás) en la Web.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X