Muchas veces un analista de estadística se entrega un conjunto de conjunto de datos y se le pidió que se ajustan a un modelo mediante una técnica como la regresión lineal. Muy frecuentemente el conjunto de datos es acompañado con un descargo de responsabilidad similar a la de "Oh, sí, metimos la pata recopilación de algunos de estos puntos de datos, hacen lo que pueden".
Esta situación lleva a los ajustes de regresión que son fuertemente afectadas por la presencia de valores atípicos que puede ser errónea de datos. Dada la siguiente:
Es peligroso a partir de los científicos, y el punto de vista moral para tirar de datos para ninguna otra razón que "hace que el ajuste se ven mal".
En la vida real, las personas que la recogida de datos con frecuencia no están disponibles para responder a preguntas tales como: "cuando la generación de este conjunto de datos, que de los puntos que se hizo un lío, exactamente?"
¿Qué pruebas estadísticas o reglas de oro puede ser utilizado como base para la exclusión de valores extremos en el análisis de regresión lineal?
Hay consideraciones especiales para la regresión multilineal?