Considere la posibilidad de un cuestionario donde le preguntamos a alguien sobre su sexualidad. Las cinco opciones, por simplicidad, son:
- Heterosexual
- Homosexual
- Bisexual
- Otros
- 'Prefiero no decirlo'
Asumir pedimos a la población. Nosotros no recogemos ninguna otra información acerca de ellos, excepto su sexualidad.
Tenemos la sospecha razonable de que 'prefiere no dice' no faltan al azar. Pensamos que la probabilidad de que un individuo selección de 'prefiere no decir" va a ser mayor para las personas que son homosexuales, bisexuales y otros(s).
Así que si se tira de la 'prefiere no dice' vamos a estar informando sobre un subconjunto de la población que, como sabemos, es sesgada.
Preferimos un informe sobre los datos, incluyendo el "prefieren que no se dice', la incorporación de nuestra incertidumbre de cómo se distribuyen.
Por ejemplo:
- Heterosexual - 60%
- Homosexual - 10%
- Bisexual - 10%
- Otros - 10%
- 'Prefiero no decir' - 10%
En teoría (aunque poco probable), cada uno de los 'prefiere no decir' podría ser heterosexual. Así que sabemos que el porcentaje de heterosexuales en la población debe estar entre el 60-70%.
Sin embargo, podemos hacer una mejor y el informe de un intervalo de confianza de algún tipo? Todo lo que podía pensar era en la creación de una antes de la distribución de probabilidad de la 'prefiere no dice" y la creación de un intervalo creíble de que.