19 votos

Bootstrapping - ¿tengo que eliminar los valores extremos en primer lugar?

Nos hemos quedado un split de prueba de un nuevo producto de la característica y desea medir si la elevación en los ingresos es significativa. Nuestras observaciones no son definitivamente normalmente distribuida (la mayoría de nuestros usuarios no pasan, y dentro de aquellos que lo hacen, es fuertemente sesgada hacia un montón de consumidores pequeños y algunos muy grandes consumidores).

Hemos decidido sobre el uso de bootstrap para la comparación de medias, para dar la vuelta a la cuestión de los datos que no están normalmente distribuidos (lado-pregunta: este es un uso legítimo de arranque?)

Mi pregunta es, ¿tengo que recortar los valores extremos del conjunto de datos (por ejemplo, los pocos muy grandes consumidores) antes de ejecutar el arranque, o no importa?

6voto

alexs77 Puntos 36

Antes de abordar esto, es importante reconocer que la estadística de la mala praxis de "la eliminación de valores atípicos" ha sido injustamente promulgada en gran parte de la estadística aplicada a la pedagogía. Tradicionalmente, los valores atípicos son definidos como de alto apalancamiento, la alta influencia de las observaciones. Uno puede y debe identificar tales observaciones en el análisis de datos, pero en esas condiciones, por sí sola, no garantiza la eliminación de esas observaciones. Un "verdadero valor atípico" es un alto apalancamiento/alta influencia de la observación que es incompatible con las repeticiones del diseño experimental. Para considerar que una observación, como tal, requiere un conocimiento especializado de la población y la ciencia detrás de los datos "mecanismo de generación". El aspecto más importante es que usted debe ser capaz de identificar los posibles valores atípicos apriori.

Como para el arranque de aspecto de las cosas, el bootstrap es el propósito de simular independiente, que se repite basa en el muestreo de la población. Si usted prespecify criterios de exclusión en el plan de análisis, aún debe dejar excluidos los valores en el referente de bootstrap distribución de muestreo. Esto es debido a que se cuenta la pérdida de energía debido a la aplicación de las exclusiones después de muestreo de los datos. Sin embargo, si no hay preespecificado criterios de exclusión y de los valores atípicos se eliminan el uso de post hoc de adjudicación, como estoy, obviamente, en contra de los rallyes, la eliminación de estos valores se propagan a la misma los errores en la inferencia de que son causados por la eliminación de valores atípicos.

Considere la posibilidad de un estudio sobre la riqueza y la felicidad en un unstratified muestra aleatoria simple de 100 personas. Si tomamos la declaración, "el 1% de la población posee el 90% de la riqueza del mundo", literalmente, entonces podemos observar que, en promedio, uno de ellos muy muy influyente en el valor. Supongamos, además, que, más allá de que ofrezcan una calidad de vida básica, no hubo exceso de felicidad atribuible a mayores ingresos (no constante tendencia lineal). De manera que este individuo es también un alto apalancamiento.

El menor de los cuadrados de la regresión coeficiente de ajuste en adulterada estimaciones de los datos de una población promedio de primer orden en la tendencia de estos datos. Es fuertemente atenuada por nuestro 1 individuo de la muestra, cuya felicidad es consistente con los cerca de mediana de los niveles de ingresos. Si quitamos a este individuo, el de los mínimos cuadrados de la regresión de la pendiente es mucho más grande, pero la varianza de la variable es reducido, por lo tanto la inferencia acerca de la asociación es aproximadamente el mismo. La dificultad de hacer esto es que yo no prespecify condiciones en las que los individuos estarían excluidos. Si otro investigador replicar este estudio de diseño, de ellos muestra un promedio de un ingreso alto, moderadamente feliz individuales, y obtener los resultados que eran incompatibles con mi "recortada" de los resultados.

Si fuéramos apriori interesados en los ingresos moderados felicidad de asociación, entonces debemos tener preespecificado que nos gustaría, por ejemplo, "comparar a las personas con ingresos de menos de $100,000 anuales de ingresos de los hogares". Para eliminar los valores atípicos, nos hace estimar una asociación no podemos describir, por lo tanto los valores de p son de sentido.

Por otro lado, descalibrado equipos médicos y burlón auto-reporte de la encuesta de la mentira puede ser eliminado. La forma más precisa que los criterios de exclusión puede ser descrito antes de que los análisis se lleva a cabo, la más válida y coherente los resultados que un análisis de este tipo se producen.

4voto

talonx Puntos 262

Mirar esto como un valor atípico problema parece mal para mí. Si "< 10% de los usuarios pasan en todos", que necesita para modelar ese aspecto. Tobit o Heckman regresión de dos posibilidades.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X