3 votos

¿Se puede utilizar la regresión logística para las variables que contienen listas?

Soy bastante nuevo en el aprendizaje automático y me preguntaba si ciertos algoritmos/modelos (por ejemplo, la regresión logística) pueden manejar listas como valor para sus variables. Hasta ahora siempre he utilizado conjuntos de datos bastante estándar, donde tienes un par de variables, valores asociados y luego una clasificación para ese conjunto de valores (ver ejemplo 1). Sin embargo, ahora tengo un conjunto de datos similar pero con listas para algunas de las variables (ver ejemplo 2). ¿Es esto algo que los modelos de regresión logística pueden manejar, o tendría que hacer algún tipo de extracción de características para transformar este conjunto de datos en un conjunto de datos normal como el ejemplo 1?

Ejemplo 1 (normal):

+---+------+------+------+-----------------+
|   | var1 | var2 | var3 | classification  |
+---+------+------+------+-----------------+
| 1 |    5 |    2 |  526 |               0 |
| 2 |    6 |    1 |  686 |               0 |
| 3 |    1 |    9 |  121 |               1 |
| 4 |    3 |   11 |   99 |               0 |
+---+------+------+------+-----------------+

Ejemplo 2 (listas):

+-----+-------+--------+---------------------+-----------------+--------+
|     | width | height |       hlines        |      vlines     |  class | 
+-----+-------+--------+---------------------+-----------------+--------+
| 1   | 115   | 280    | [125, 263, 699]     | [125, 263, 699] |  1     |      
| 2   | 563   | 390    | [11, 211]           | [156, 253, 399] |  0     |   
| 3   | 523   | 489    | [125, 255, 698]     | [356]           |  1     |      
| 4   | 289   | 365    | [127, 698, 11, 136] | [458, 698]      |  0     |       
| ... | ...   | ...    | ...                 | ...             | ...    |      
+-----+-------+--------+---------------------+-----------------+--------+

Para proporcionar algo de contexto adicional sobre mi problema específico. Estoy intentando representar dibujos. Los dibujos tienen una anchura y una altura (variables regulares), pero los dibujos también tienen un conjunto de líneas horizontales y verticales, por ejemplo (representadas como una lista de sus coordenadas en sus respectivos ejes). Esto es lo que se ve en el ejemplo 2. El conjunto de datos que estoy utilizando es aún mayor, ya que también contiene variables que contienen listas con los grosores de cada línea, listas con la extensión de cada línea, listas con los colores de los espacios entre las líneas, etc. Al final me gustaría que mi regresión logística recogiera lo que resulta en dibujos bonitos. Por ejemplo, si hay demasiadas líneas demasiado cerca el dibujo no es bonito. El modelo debería recoger por sí mismo estas "características" de lo que hace un dibujo bonito y uno malo.

No los he incluido porque la forma en que están configurados estos datos es un poco confusa de explicar y si puedo resolver mi pregunta para el conjunto de datos anterior, creo que puedo utilizar el principio de esta solución para el conjunto de datos restante también. Sin embargo, si necesita detalles adicionales (completos), no dude en preguntar.

0voto

pauly Puntos 932

Supongamos que la variable hlines consistiera en entradas como "gato", "zorro" o "anaconda". Se podría decir que cada uno de estos valores es una "lista" de caracteres. En la regresión, tal variable funcionaría de la misma manera que sus hlines. Actualmente es una variable nominal, o categórica.

Ahora bien, como indicó @kjetil b halvorsen, si se sospecha que los elementos separados por comas son importantes para la predicción -por ejemplo, si una entrada que contenga "125" necesita ser marcada como tal, o una que caiga dentro de un rango específico- se podría crear un conjunto de variables ficticias (0 para no, 1 para sí) para cualquier elemento de este tipo que sea de interés. A continuación, podría utilizar esas variables como predictores en lugar de la actual variable hlines. Habrá que pensarlo; es probable que no haya una forma automática de conseguir que un algoritmo cree significados válidos a partir de estas listas. La variable hlines contiene información, pero no la expresa eficazmente de una manera que la mayoría de los modelos, logísticos o de otro tipo, puedan utilizar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X