17 votos

Pueden limpieza de datos empeorar los resultados del análisis estadístico?

Un aumento en el número de casos y muertes se produce durante las epidemias (aumento repentino en el número), debido a una circulación de virus (como el Virus del Nilo Occidental en Estados Unidos en 2002) o la disminución de la resistencia de la gente o la contaminación de los alimentos o el agua o el aumento en el número de mosquitos. Estas epidemias se presentan como valores atípicos que pueden ocurrir cada 1 a 5 años. Mediante la eliminación de estos valores atípicos nos están quitando la evidencia de las epidemias que forman una parte importante de la predicción y comprensión de las enfermedades.

Es la limpieza de los datos necesarios en el trato con los valores extremos causados por las epidemias?

Se va a mejorar los resultados o empeorar los resultados del análisis estadístico?

9voto

Mike Moore Puntos 641

Eso realmente depende del propósito de su investigación. En mi opinión, no podría ser varios:

  1. Quieres entender lo que son los típicos de los factores que hace que los casos y de las muertes y que no están afectados por la epidemia de los períodos y de los factores que causa epidemias (de modo que usted está interesado en la típica no mayor de la fuerza probabilidades) - en este caso, obviamente, se necesita para eliminar la epidemia de periodos a partir de los datos, como lo son por el propósito de la investigación de los valores atípicos de lo que te gustaría concluir
  2. Puede que desee incluir en la epidemia de cambios en sus modelos (régimen de cambio de modelos, por ejemplo, cualquier buen enlaces y el modelo de sugerencias de la comunidad son bienvenidos aquí), porque desea saber la probabilidad de que la epidemia del período de que se produzca (y también cuánto tiempo va a durar), para probar la estabilidad y previsión - en este caso no se excluye a los periodos epidémicos, pero la búsqueda de la más complicada de modelos en lugar de ir a por el martillo-econométricos-herramienta $OLS$ o algo similar
  3. Su primordialmente objetivo ES detectar los periodos epidémicos y monitorear en tiempo real - es un campo especial en la econometría, varios de mis colegas están trabajando en la Universidad de Vilnius (sin duda, le gustaría tener un montón de epidemia observaciones a tratar)

Así que si tu principalmente meta es algo así como 2, borrado de datos provocará conclusiones equivocadas sobre el futuro de los pronósticos, es decir, inexacta la previsión de rendimiento. También es cierto que el 2º caso no son necesariamente mejores pronósticos, pero al menos podría hacer conclusiones acerca de las probabilidades de los periodos epidémicos y su longitud. Esto ES de vital importancia para actuarial de los matemáticos, por lo que puede ser usted es el uno?

8voto

Taylor Price Puntos 371

Para dar una respuesta a su pregunta, permítanme parapharse uno de mis antiguos directores generales: las oportunidades de investigación se encuentran en los valores extremos de la modelo que se ajuste.

La situación es similar a la del experimento realizado mi Robert Millikan en la determinación de la carga de un electrón. Décadas después de ganar el premio Nobel por su experimento, sus notas fueron examinados y se encontró que el muchacho a cabo una gran cantidad de puntos de datos porque no estaban de acuerdo con los resultados que estaba buscando. Es que los malos de la ciencia?

Si usted encuentra un par de valores atípicos, entonces tal vez ellos son debido a la "estadística abberations". Sin embargo, si encuentra más de un par de valores atípicos, es necesario explorar sus datos más de cerca. Si usted no puede atribuir una causa para la abberations, entonces usted no entiende el proceso y un modelo estadístico que no va a resolver tu problema. El objetivo de un modelo es un resumen de un proceso, el modelo no se por arte de magia resumir un proceso en el que el experimentador no entiende.

5voto

Owen Fraser-Green Puntos 642

El papel de la "limpieza de datos" es identificar cuando "nuestras leyes (modelo) no funcionan". El ajuste para los valores Atípicos o anormales de datos de puntos sirven para que podamos llegar "robusto" estimaciones de los parámetros en el modelo actual que estamos entretenidos. Estos "valores atípicos" si no se trata permitir una distorsión no deseada en los parámetros del modelo de estimación es "manejado para explicar estos puntos de datos" que "no se comporta de acuerdo a nuestra hipótesis de modelo". En otras palabras, hay un montón de amortización de la inversión en términos de lo explicó Suma de Cuadrados, centrándose en el "malos". El empíricamente identificados los puntos que requieren de limpieza deben ser cuidadosamente analizadas para potencialmente desarrollar/sugerir la causa de factores que no están en el modelo actual. La identificación de Cambio de Nivel en el ESTADO1 por los datos que se presentan en la pregunta siguiente es un ejemplo de "conocimiento de espera para ser descubierto".

Cómo evaluar el efecto de la intervención en un estado frente a otro utilizando anual de la tasa de letalidad?

Hacer ciencia es la búsqueda de patrones repetidos.

Para detectar anomalías es identificar los valores que no siguen los patrones repetidos. Cómo más se puede saber que un punto violado ese modelo? De hecho, el proceso de crecimiento, la comprensión, la búsqueda y el examen de los valores atípicos debe ser iterativo. Esta no es una idea nueva.

Sir Frances Bacon, escrito en el Novum Organum de cerca de 400 años, dijo: "Errores de la Naturaleza, los Deportes y los Monstruos corregir la comprensión en lo que respecta a las cosas ordinarias, y revelan las formas generales. Para quien conoce las formas de la Naturaleza será más fácil darse cuenta de sus desviaciones; y, por otro lado, quien sabe herdeviations va a describir de forma más precisa sus caminos."

Podemos cambiar nuestras reglas mediante la observación de las reglas de fallar.

Si, de hecho, la identificación de valores atípicos son todos los pulsos y tienen efectos similares (tamaño) a continuación le sugerimos la siguiente ( citado en otro cartel )

"Uno "rápido y sucio" manera de hacer esto en un ajuste de regresión es incluir un indicador de la epidemia en los periodos informativos como un regresor variable. Esto le dará una estimación media de los efectos de las epidemias (e implícitamente se asume que el efecto es el mismo para cada una epidemia). Sin embargo, este método sólo funciona para describir el efecto, porque en los pronósticos, su regresión de la variable es desconocida (no sé cuál de los períodos en el futuro va a ser una epidemia)."

Esta si el curso requiere que el individuo anomalías del pulso(años) tienen efectos similares. Si difieren, a continuación, un portmanteau de variables descritas anteriormente, sería incorrecta.

3voto

Brettski Puntos 5485

Uno de los métodos más comúnmente utilizados para la búsqueda de las epidemias en retrospectiva de los datos es en realidad para buscar los valores atípicos - muchos de los investigadores de la gripe, por ejemplo, se centran principalmente en los residuos de sus modelos ajustados, en lugar de los modelos mismos, para ver los lugares donde el "día a día" de las predicciones del modelo de fracasar - una de las formas en que el modelo puede fallar es con la aparición de una epidemia.

Es imperativo, sin embargo, que la distinción entre la caza de los valores atípicos en sus resultados - probablemente no es la mejor idea, nunca - y lo que la mayoría de la gente se refiere como "limpieza de datos". Aquí, usted está buscando para los valores atípicos no porque representan un problema estadístico, pero debido a que elevar la calidad de los datos de los problemas.

Por ejemplo, en un conjunto de datos que tengo, no es una variable para la aparición de la enfermedad. Para uno de los sujetos, esta fecha es en noviembre de 1929. Creo que esto es correcto? No. Esto indica que la calidad de los datos del problema que necesita ser arreglado - en este caso la corrección de la fecha basada en otra información sobre el tema. Este tipo de limpieza de datos de forma activa a mejorar la calidad de sus resultados estadísticos.

2voto

patfla Puntos 1

Yo personalmente no llamaría a esto "limpieza de datos". Creo que de la limpieza de los datos más en el sentido de edición de datos - limpieza de las inconsistencias en el conjunto de datos (por ejemplo, un registro que ha informado de la edad de 1000, o una persona de entre 4 es un padre soltero, etc.).

La presencia de un efecto real en los datos no es "desordenado" (al contrario, la presencia de efectos reales haría rico) - a pesar de que puede hacer su tarea matemática más involucrados. Yo sugeriría que los datos se "limpian" de esta manera, si es la única forma viable de obtener una predicción. Si hay una forma factible de que no tire de la información, a continuación, utilizar ese.

Suena como usted puede beneficiarse de algún tipo de análisis cíclico, dado que dicen que este efecto se produce alrededor periódicamente (como una especie de "ciclo de negocios").

Desde mi punto de vista, si usted está buscando en previsión de algo, entonces la eliminación de un auténtico efecto de que la fuente sólo puede hacer sus predicciones peor. Esto es debido a que han "tirado" la información que usted desea predecir!

El otro punto es que puede ser difícil determinar cuánto de un conjunto de muertes fueron a causa de la epidemia, y cuánto fue causado por el ordinario de las fluctuaciones.

En la terminología estadística, la epidemia parece que, desde su punto de vista, es una "molestia" para lo que en realidad se desea analizar. Así que usted no está particularmente interesado en ella, sino que necesita de alguna manera, cuenta en su análisis. Una "rápida y sucia" manera de hacer esto en un ajuste de regresión es incluir un indicador de la epidemia en los periodos informativos como un regresor variable. Esto le dará una estimación media de los efectos de las epidemias (e implícitamente se asume que el efecto es el mismo para cada una epidemia). Sin embargo, este método sólo funciona para describir el efecto, porque en los pronósticos, su regresión de la variable es desconocida (no sé cuál de los períodos en el futuro va a ser una epidemia).

Otra manera de explicar la epidemia es el uso de un modelo de mezcla de dos componentes: un modelo para la epidemia parte y un modelo para el "ordinario". El modelo a continuación, procede en dos pasos: 1) clasificar un período de epidemia o normal, a continuación, 2) aplicar el modelo a la que se clasificó.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X