Una forma de abordar la solución sería construir dos modelos: uno para los valores que se ajustan a la distribución y otro para los valores atípicos. Mi sugerencia a este respecto sería crear una variable de respuesta binaria (0,1) siendo 0 el valor si el punto de datos está dentro de los límites de su distribución y 1 si se encuentra fuera. Así, para los casos de los valores atípicos que desea mantener en sus datos, tendrá 1 en su variable objetivo y el resto como 0. Ahora ejecute una regresión logística para predecir las probabilidades de los valores atípicos y puede multiplicar el valor medio para el grupo de valores atípicos con las probabilidades individuales para obtener las predicciones. Para el resto de los datos, puede ejecutar su SVM para predecir los valores.
Dado que los valores son atípicos, tendrán bajas probabilidades asociadas e incluso si se toma la media de los valores atípicos, que será sesgada, el valor esperado de los valores atípicos se reducirá debido a sus bajas probabilidades adjuntas, lo que hará que la predicción sea más razonable.
Me encontré con una situación similar al predecir el importe de los siniestros para un proveedor de servicios de seguros. Utilicé la técnica mencionada anteriormente para aumentar el rendimiento de mi modelo de forma drástica.
Otra forma podría ser tomar la transformación logarítmica de su variable objetivo, lo cual es posible si sólo tiene un valor positivo en su variable objetivo. Pero asegúrese de que si toma una transformación logarítmica de su variable objetivo, al predecir la variable debe incluir también el componente de error.
Así que, $\log(Y) = a + B'X + \epsilon$ es su ecuación modelo para, por ejemplo
entonces, $Y = \exp(a+B'X+\epsilon)$
Puede echar un vistazo al siguiente enlace para la transformación logarítmica: http://www.vims.edu/people/newman_mc/pubs/Newman1993.pdf
0 votos
... pero si te mueves $1/2$ del exponente en $n^{1/2}$ Es correcto: $p\le \frac{1}{2}n$
1 votos
¿Has visto en un simple ejemplo? ¡15=3 * 5 y 5 es un primo ciertamente más grande que la raíz cuadrada de 15!
0 votos
proofwiki.org/wiki/
0 votos
¿Implicaría esto que el conjunto de todos los números primos sería finito, limitado por la raíz cuadrada de cualquier número?
0 votos
@EddeAlmeida: No, porque sólo se habla de los factores primos de un n concreto, no de todos los enteros.
0 votos
Así que vamos a decir las cosas claras. Porque la proposición anterior es ambigua. Lo que quiere decir es: Para un número entero dado
n
no hayp
tal quep
es primo yp
es un factor den
. Enunciada de esta manera, la correcta, la proposición se demuestra fácilmente.0 votos
Tenga en cuenta que los números $4,9,25$ sólo tienen factores primos iguales a la raíz cuadrada. $8, 12, 27, 30$ sólo tienen factores primos menores que la raíz cuadrada. $6,10,14, 15$ tienen un factor primo mayor que la raíz cuadrada, pero también tienen un factor primo menor que la raíz cuadrada.
0 votos
Para completar, aquí es la conocida prueba de la menos factor principal.