16 votos

Cómo calcular la dimensión Vapnik-Chervonenkis

Es mi primer post aquí, así que me disculpo si he roto alguna regla.

Estoy leyendo Introducción al aprendizaje automático y se quedó atascado en la dimensión VC. Aquí hay una cita del libro:

"...vemos que un rectángulo alineado con el eje puede romper cuatro puntos en dos dimensiones. Entonces VC(H), cuando H es la clase de hipótesis de los rectángulos alineados con el eje en dos dimensiones, es cuatro. Para calcular la dimensión VC, basta con que encontremos cuatro puntos que puedan ser destrozados; no es necesario que podamos destrozar cuatro puntos cualesquiera..."

enter image description here

Y no lo entiendo. Si es suficiente para encontrar algunos combinaciones separables, ¿por qué no podemos elegir un "rectángulo con ejemplos positivos" de la imagen anterior, poner otro $n$ positivos en ella, y luego decir $VC(H)$ aumentó en $n$ ? Y si todos los casos deben ser separables, entonces ¿por qué no consideramos 4 puntos colocados en una línea - que en general no es posible romper por un rectángulo?

Lo mismo con el ejemplo del clasificador lineal en el artículo de la wikipedia VC - en su imagen cuatro puntos son imposibles de romper, pero podemos llegar a una disposición en la que es posible. Y a la inversa, podemos poner 3 puntos (como "+", "-", "+") en una línea y no será posible separar los positivos de los negativos mediante un clasificador lineal.

¿Puede alguien explicar dónde está mi error?

16 votos

La dimensión VC funciona así: Tú eliges los puntos, luego el adversario elige el etiquetado. Finalmente, usted debe ser capaz de producir una hipótesis que clasifique correctamente ese etiquetado de esos puntos. Si eres capaz de acertar para todos los etiquetados del adversario, decimos que la dimensión VC es al menos el número de puntos que has podido elegir.

0 votos

@Srivatsan, tu comentario debería ser publicado como respuesta :)

10voto

Brian Duff Puntos 121

Creo que sólo tienes que pensar cuidadosamente en cómo tus ejemplos se relacionan con la definición. La dimensión VC de H es el máximo h tal que existe un conjunto de cardinalidad h destrozado por H. Para demostrar que VC(H)=4 debes demostrar:

  • Hay un conjunto de cardinalidad 4 roto por H, y
  • Cualquier conjunto de cardinalidad superior a 4 no es destrozado por H

En la imagen, están haciendo lo primero: dar un límite inferior a la dimensión VC dando un ejemplo de un conjunto que está destrozado. Para demostrar que VC(H)<5 también deberían demostrar que ningún conjunto de cinco puntos está destrozado.

En general, habrá muchos conjuntos de diversos tamaños que no se destrozan, pero eso no importa, esencialmente porque la dimensión VC es un máximo sobre los conjuntos que se destrozan. Su ejemplo de $n$ puntos en una línea no implica nada sobre la dimensión de la CV. Espero que esto ayude.

1 votos

Así que encontrar un trazado de 3 puntos que no es posible romper con una línea, o encontrar un trazado de 100 puntos que es posible romper con un rectángulo - son casos excepcionales y no importan porque consideramos "todos los conjuntos posibles" para un N dado e identificamos cuántos de esos conjuntos se rompen - ¿es eso correcto? También, ver el comentario de Srivatsan con "Usted elige los puntos, entonces el adversario elige el etiquetado" - lo encuentro muy atractivo, parece resolver mi problema así como su explicación.

1 votos

Sí, eso es correcto en el sentido de que para cada tamaño, o bien no hay conjuntos destrozados o bien hay al menos un conjunto destrozado. Para la dimensión VC se quiere encontrar el mayor tamaño con al menos un conjunto destrozado.

0 votos

Hmmm. Esto de "quieres encontrar el tamaño más alto con al menos un conjunto destrozado" es exactamente lo que me confundió en primer lugar. Una hipótesis de rectángulo puede destrozar 5000 puntos "especialmente colocados" pero de alguna manera ignoramos esto y decimos VC(H)=4. ¿Por qué? La regla de Srivatsan de "Tú eliges los puntos y el adversario selecciona las etiquetas" suena bien, porque entonces no podré destrozar "mucho". Parece que lo explica con más rigor, pero hasta ahora se ha acercado a lo que dicen en el libro, y me parece que no estoy satisfecho con su respuesta...

0voto

Trevor Alexander Puntos 435

La explicación de @Srivatsan tiene sentido para mí. Yo tuve este mismo problema cuando empecé a aprender esto. Tienes que permitir cualquier dicotomía de puntos posible, y luego demostrar que puedes destrozarla. Por lo tanto, si encuentras una combinación de clases para un número de puntos que no puedes destrozar, esa máquina debe tener una dimensión VC menor que ese número de puntos. Por lo tanto, el hecho de que un clasificador lineal no pueda romper XOR significa que no puede manejar nada más grande que 3 puntos, lo que es una ilustración de la regla de Burges n(-dimensión)+1 para la dimensión VC del clasificador lineal.

0voto

vijucat Puntos 109

@andreister, sólo añadiendo algo de color:

La confusión surge porque la definición de la dimensión CV implica TANTO un calificador existencial ("existe"), como un calificador universal ("para todos"):

Obsérvese que, si la dimensión de la CV es h, entonces existe al menos un conjunto de h puntos que pueden ser destrozado pero en general no será ser cierto que cada conjunto de h puntos pueda ser destrozado Burgess (1998)

Por lo tanto, un tal conjunto de puntos tiene que existir, pero su ruptura == para todos los etiquetados == una afirmación universal.

0voto

La dimensión VC de una clase de hipótesis, H es la cardinalidad del mayor conjunto que puede ser destrozado por un H El requisito es que se pueda encontrar al menos un conjunto de puntos para el que se pueda encontrar un H que se rompe (o siempre puede encontrar un miembro de H que puede clasificar todos los posibles etiquetados de un ) conjunto particular.

Ahora, considera el conjunto dado de 3 puntos (vértices de un triángulo). Puedes encontrar un h que clasifica correctamente todos los posibles etiquetados del conjunto. No importa que no puedas hacerlo para otro conjunto de 3 puntos (tres puntos sobre una línea). La condición suficiente es que encuentres al menos un conjunto así.

Mientras que, por supuesto, se podría pensar en un etiquetado de 4 puntos (digamos que los puntos tienen la misma etiqueta) que un clasificador bidimensional podría clasificar correctamente, pero ¿puede clasificar correctamente todos los posibles etiquetados del conjunto de puntos? Piense en ello. Te darás cuenta de que no existe tal par.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X