2 votos

Determinación de más de un valor atípico en un conjunto de datos

Tengo un conjunto de datos de observaciones repetidas y estoy tratando de determinar si alguna de las observaciones es un valor atípico. La investigación que he realizado sólo ha mostrado métodos que determinarían si un valor (máximo, mínimo o un valor cuestionado) es un valor atípico, o si tanto el valor más alto como el más bajo son atípicos. Lo que me gustaría poder mostrar es si múltiples valores en todo el conjunto de datos son valores atípicos, como sospecho, sin saber exactamente cuántos valores atípicos hay. Cualquier ayuda o dirección que pueda darme será muy apreciada.

0 votos

Seguro. Usted se refiere al máximo y al mínimo. ¿Puedo deducir que su conjunto de datos es univariado?

0 votos

Sí, se trata de una serie de purezas de medicamentos reportadas por múltiples analistas. En esencia, 50 personas midieron la pureza de una muestra 10 veces cada una y la comunicaron. 3 o 4 valores parecen visualmente atípicos y esperaba utilizar una prueba estadística para demostrar que lo son

1 votos

1voto

Aksakal Puntos 11351

Puede eliminar un valor atípico a la vez y repetir la prueba de valores atípicos, como se describe en la entrada de Wikipedia para Prueba de Grubbs .

Sin embargo, si su conjunto de datos es muy pequeño, puede acabar eliminando todos los puntos.

4 votos

Esto no funcionará por la razón explicada aquí

0 votos

La prueba de Grubbs funcionará bien con 500 observaciones. si se esperan 3-4 valores atípicos, requerirá 3-4 iteraciones. no se mencionan las regresiones en la pregunta, por cierto.

2 votos

La localización univariante no es más que un caso particular de regresión. No, no lo hará, siéntase libre de hacer esto como una pregunta, es muy fácil de desacreditar.

1voto

akrasia Puntos 980

Puede dibujar un boxplot del resultado principal por ocasión; el código de STATA para hacerlo es graph box "outcome", over("time/occasion") showyvars marker(1, msize(vsmall)) mark(1, mlab("participantID" ))

Por favor, sustituya las variables entrecomilladas por sus variables. Tienes que pedirle al software estadístico que etiquete los marcadores/valores atípicos.

0voto

Chris Pick Puntos 76

Hay que definir qué es un valor atípico. Los puntos de datos procedentes de sus medidas repetidas tienen una media y una desviación estándar.

Yo consideraría que un punto es un valor atípico si se encuentra a más de 3 o 4 veces la desviación estándar de la media de la distribución.

Por lo tanto, podría eliminar todos los puntos de datos que cumplan este criterio...

3 votos

Es posible que quiera leer el ejemplo del contador al principio para este respuesta

0 votos

Sí, buen punto. ¿Pero qué hacemos si la distribución no es simétrica? La mediana y la media serán extremadamente diferentes, ¿no?

0 votos

Si la parte buena de los datos proviene de una distribución asimétrica, la mediana funcionará bien. La MAD no lo hará. Por eso tenemos estos alternativas

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X