7 votos

¿Por qué debe un comercio de entre sesgo y varianza?

Al parecer, un algoritmo de aprendizaje debe hacer un comercio entre sesgo y varianza cuando se produce una hipótesis. Prejuicio significa desviación sistemática de los datos. Varianza se refiere al error debido a las fluctuaciones al aplicar la hipótesis a sistemas diferentes de entrenamiento.

¿Por qué debe haber un comercio de aquí?

10voto

jpmuc Puntos 4817

Resulta como una descomposición de la función de error en dos términos, en representación de "dos fuerzas opuestas", en el sentido de que en el fin de reducir el sesgo de error, usted necesita el modelo para considerar más posibilidades para ajustar los datos. Pero esta en el otro lado aumenta la varianza de error. También, al revés: si el modelo se ajusta demasiado (empieza a encajar el ruido, que se podía ver, como no sistemático de las variaciones en sus muestras individuales), entonces usted necesita para forzar a sus parámetros no varían demasiado violentamente, y por lo tanto introducir un sesgo.

En más intuitiva términos: sesgo de error está siendo sistemáticamente mal, y la varianza de error es el aprendizaje de todos los pequeños, accidental variaciones de las muestras.

Echa un vistazo a este interesante artículo para obtener más detalles, http://scott.fortmann-roe.com/docs/BiasVariance.html

6voto

mydoghasworms Puntos 325

En general, se trata de encontrar un compromiso entre una) casos en los que la Hipótesis NULA es verdadera, pero es rechazado y b) los casos en que la Hipótesis NULA es malo, pero no puede ser rechazada.

Esta es una muy vaga tema, pero se restringe a la prueba de Hipótesis, sugiero ir a través de: el Tipo I y el Tipo II, los errores involucrados.

Y también, si es posible hacer mención de lo que es el aprendizaje de los algoritmos que se refiere. Gracias!

4voto

Sean Hanley Puntos 2428

Hay algunas buenas respuestas aquí. Déjame llenar un pequeño hueco por proporcionar una respuesta sencilla a la pregunta como se dijo: "¿por Qué tiene que haber un equilibrio entre el sesgo y la varianza?"

La respuesta es bastante sencilla. Las estimaciones de los parámetros de la población, basado en datos de la muestra varían de muestra a muestra, debido a que la muestra de datos puede variar. Esto significa que habrá una distribución de las estimaciones de los parámetros bajo muestreo repetido. Para entender los pros y los contras de los diferentes algoritmos para la estimación de los parámetros de la población, necesitamos saber acerca de las propiedades de sus distribuciones de muestreo. Específicamente, queremos saber si la distribución de muestreo se centra en el valor verdadero (es decir, si es sesgada), y queremos saber cómo 'ancho' de la distribución de muestreo es (es decir, ¿a qué distancia del verdadero valor de las estimaciones tienden a ser, en promedio, esta es la varianza de la parte).

Ahora bien, sucede que habrá un procedimiento de estimación que se tiene la menor varianza de todos los posibles procedimientos de estimación que son imparciales, pero también a menudo ser otro procedimiento de estimación que se tiene aún menor varianza (pero que será sesgada). En esta situación, el analista se enfrenta con una decisión acerca del procedimiento que desea utilizar, dependiendo de si unbiasedness o menor variación es más importante para ellos en esa situación.

En suma: debe haber un equilibrio entre el sesgo y la varianza en cualquier momento hay más de un posible procedimiento de estimación donde el uno con el mínimo de la varianza de todos los imparcial de los procedimientos no es el procedimiento con el mínimo de la varianza total.

1voto

General Stubbs Puntos 135

Un sesgo / de desviación de comercio que existe en cualquier momento no paramétrica del modelo especificado. Una máquina algoritmo de aprendizaje puede ser utilizado para determinar la papelera de ancho para un no-modelo paramétrico. A ver por qué hay un sesgo de la varianza de comercio, pensar acerca de un juguete ejemplo donde el modelo de peso como una función de las calorías.

Imagine que su variable independiente, las calorías consumidas, se continua con valores y rangos de 2.000 a 4.000 calorías.

Si tuviéramos que adivinar el peso promedio para un determinado individuo al azar de la muestra completa, nuestra mejor conjetura sería el peso promedio a través de todos los niveles de consumo de calorías en nuestra muestra. Esta conjetura puede no ser la más precisa supongo que puede venir para arriba con, porque no toma en cuenta las características individuales. Aunque supongo que el no puede ser la más precisa (puede ser parcial), también tiene una baja varianza. Puede ser parcial debido a nuestra predicción para el peso es el mismo, independientemente de si se nos dice que un individuo consume 0 o 1.000.000 de calorías en un día. La varianza es baja debido a la adición o eliminación de una observación no cambia nuestro peso promedio de la muestra, por tanto, si nuestro tamaño de muestra es grande.

Si tenemos en cuenta el consumo de calorías, yo creo que se pone un poco mejor. Considere la posibilidad de ejecutar una regresión donde el modelo de peso como una función de un término de intersección y un término que describe la ingesta calórica diaria de un individuo. La intersección nos indica que el promedio de peso dentro de la muestra. El coeficiente de "calorías" nos dice que nuestra mejor estimación para el peso va a cambiar por "Beta" para cada adicional de calorías consumidas en un día.

Pero, no-paramétricos de regresión va un paso más allá. Considerar esta idea: el efecto marginal de un adicional de calorías depende de la cantidad de calorías que el individuo generalmente se consume en un día. Considerar dos casos - un flaco adolescente en comparación con un Atleta Olímpico. Tal vez el adolescente es sólo consume 1.500 calorías en un día. Debido a que esta cantidad es deficiente, el efecto marginal de un adicional de calorías es grande. Consumir más alimentos de un día para el niño significa subir de peso (en un posiblemente de manera saludable). En el caso de la Atleta Olímpica, tal vez quemar todo lo que se consume debido a la rigurosa programas de capacitación. En este caso, podemos considerar que el consumo adicional de calorías tiene poco efecto sobre el peso.

Así, tal vez el aumento de la ingesta calórica tiene una disminución en el efecto marginal sobre el peso de un individuo.

Si vamos a incorporar esto en nuestro modelo, podemos crear "grupos" que la partición de nuestra variable independiente, "la ingesta calórica diaria" de una manera que mejor explica nuestra variable dependiente, "peso". Por lo general, cuando la creación de no-paramétrica de los modelos, podemos asumir que nuestros datos son uniforme y uniformemente distribuidos dentro de cada bin.

Inicio mediante la incorporación de dos papeleras en nuestro modelo: uno para las personas que son "calorías deficientes" (por debajo de los 2.500 calorías / día) y uno para los individuos que son "calorías suficientes" (por encima de los 2,500 calorías / día). La regresión de peso como una función de la ingesta de calorías, así como variables indicadoras de "calorías deficiente" y "calorías suficientes" puede contarnos una historia mejor. Podemos darnos cuenta de que hay una nueva relación entre las calorías y el peso, y que nuestro "Beta" coeficiente "calorías" ahora ha cambiado porque hemos eliminado algunos de los prejuicios. Pero también tenemos nuevos efectos marginales en la parte superior de eso. Los coeficientes de nuestro indicador de variables que describen cómo el efecto marginal de un adicional de calorías cambia dependiendo de la cantidad de calorías que el individuo normalmente consume.

Mediante la creación de contenedores, nos están obligando a nuestro modelo para predecir el peso promedio dentro de cada grupo". Como el ancho de las bandejas disminuye (como nuestros recipientes más pequeños y de incluir una gama más pequeña de la ingesta calórica), el peso promedio en cada bin converge a la observada pesos en cada bin, ya que el promedio se basa en la de menor número de puntos de datos con un rango menor. Sin embargo, el menor número de observaciones significa que este promedio llega con una mayor varianza. El cambio de una observación tiene un gran efecto en nuestro promedio supongo que dentro de cada grupo.

En el extremo, podemos crear bandejas con sólo una observación. El promedio de este contenedor será equivalente a la observada a nivel de la ingesta calórica, lo que implica que nuestro estimador tiene 0 sesgo. Sin embargo, la varianza es muy grande ya que la muestra dentro de cada grupo es muy pequeño (tamaño de 1), y el promedio es muy susceptible a los cambios en nuestra muestra. Si nos vuelven a muestrear aleatoriamente de nuestra población, nuestro estimador para un depósito particular sería distinto. Nuestra calculadora tiene un montón de la varianza, pero no está sesgada.

Como el ancho de contenedores aumenta (como nuestros contenedores más grandes e incluyen un amplio rango de ingesta calórica), el peso promedio en cada bin pueden tener más predisposición. Nos están obligando a que el efecto marginal de una caloría a ser el mismo dentro de un grupo más grande de personas, cuando en realidad esto puede no ser el caso. Sin embargo, la adición o eliminación de una observación dentro de este contenedor tiene muy poco efecto sobre nuestra calculadora (la varianza de nuestro estimador es muy baja).

Así, en general: no paramétrico de regresiones sufren de un sesgo de la varianza de comercio. La partición de los datos en pequeños contenedores significa que nuestros estimadores para cada contenedor tendrá un menor sesgo en el costo de nuestros estimadores de tener una alta varianza, mientras que la partición de los datos en contenedores grandes significa que nuestros estimadores para cada bandeja tiene una varianza menor al costo de más de sesgo. Considerar los atributos de su promedio de "adivinar" dentro de cada grupo y cómo van a cambiar a medida que el tamaño de los cubos de basura de los cambios: 1 punto de datos o de observación en una bandeja implica un "perfecto" promedio que es muy susceptible a los cambios en los datos (varianza grande), frente a un número infinito de puntos en un bin que implica una imperfecta promedio (la media no perfectamente imagino que cada punto en el bin) con muy poca variación (agregar / quitar un observación tiene poco o ningún efecto).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X