Esta es un área donde hay un poco de inconsistencia en la terminología que tiene el efecto desafortunado de confundir algunas discusiones estadísticas. El concepto de "valor interno" se utiliza generalmente para referirse a un valor de datos que está en error (es decir, sujeto a error de medición) pero que aún así está en el "interior" de la distribución de los valores medidos correctamente. Según esta definición, el valor interno tiene dos aspectos: (1) está en el interior de la distribución relevante de valores; y (2) es un valor erróneo. Por el contrario, la noción correspondiente de un "valor extremo" se utiliza generalmente para referirse a cualquier valor de datos que está muy en los extremos de la distribución, pero sin ningún aspecto definicional que asuma que está en error. Esta terminología genera una inconsistencia desafortunada, donde un "valor interno" es un punto de datos erróneo (por definición) pero un "valor extremo" no es necesariamente un punto de datos erróneo. Por lo tanto, bajo esta terminología, la unión de "valores internos" y "valores extremos" no corresponde ni a todos los datos, ni siquiera a todos los datos erróneos.
Lidiando con valores extremos: He discutido acerca de cómo lidiar con valores extremos en otras preguntas aquí y aquí, pero por conveniencia, repetiré algunos de esos comentarios aquí. Los valores extremos son puntos que están distantes de la mayoría de los otros puntos en una distribución, y el diagnóstico de un "valor extremo" se hace mediante la comparación del punto de datos con alguna forma distribucional asumida. Aunque los valores extremos ocasionalmente pueden ser causados por error de medición, el diagnóstico de valores extremos también puede ocurrir cuando los datos siguen una distribución con alta curtosis (es decir, colas anchas), pero el analista compara los puntos de datos con una forma distribucional asumida con baja curtosis (por ejemplo, la distribución normal).
La identificación de "valores extremos" en pruebas de valores extremos realmente sólo significa que la distribución de modelo que estás usando no tiene colas lo suficientemente anchas para representar con precisión los datos observados. Esto podría deberse a que algunos de los datos contienen error de medición, o simplemente podría ser de una distribución con colas anchas. A menos que haya alguna razón para pensar que la desviación de la forma de modelo asumida constituye evidencia de error de medición (lo que requeriría una base teórica para la suposición distribucional), la presencia de valores extremos generalmente significa que debes cambiar tu modelo para usar una distribución con colas más anchas. Es inherentemente difícil distinguir entre error de medición y alta curtosis que forma parte de la distribución subyacente.
Lidiando con valores internos (que generalmente implica no lidiar con ellos): A menos que tengas una fuente de información externa que indique un error de medición, esencialmente es imposible identificar "valores internos". Por definición, estos son puntos de datos que están en el "interior" de la distribución, donde ocurre la mayoría de los otros datos. Por lo tanto, no son detectados por pruebas que buscan datos que son una "aberración" de los otros puntos de datos. (En algunos casos puedes detectar "valores internos" que parecen estar en el interior de una distribución, pero que en realidad son "valores extremos" cuando se toman en cuenta una representación más compleja de la distribución. En este caso, el punto es realmente un valor extremo, pero sólo parece que está en el interior de la distribución cuando estás utilizando una aproximación distribucional rudimentaria.)
En algunos casos raros podrías tener una fuente de información externa que identifica un subconjunto de tus datos como sujetos a error de medición (por ejemplo, si estás llevando a cabo una gran encuesta y descubres que uno de tus encuestadores simplemente estaba inventando sus datos). En este caso, cualquier punto de datos en ese subconjunto que estén en el interior de la distribución son "valores internos" y se conocen a través de información externa como sujetos a error de medición. En este caso, generalmente eliminarías todos los datos que se sabe que son erróneos, incluso si algunos de ellos son "valores internos" que están en el interior de la distribución donde se esperaría que estuvieran. El punto aquí es que un punto de datos puede ser erróneo incluso si no está en los extremos de la distribución.
3 votos
ec.europa.eu/eurostat/statistics-explained/index.php/… y stats.oecd.org/glossary/detail.asp?ID=3464