Soy bastante nuevo en el aprendizaje automático y me preguntaba si ciertos algoritmos/modelos (por ejemplo, la regresión logística) pueden manejar listas como valor para sus variables. Hasta ahora siempre he utilizado conjuntos de datos bastante estándar, donde tienes un par de variables, valores asociados y luego una clasificación para ese conjunto de valores (ver ejemplo 1). Sin embargo, ahora tengo un conjunto de datos similar pero con listas para algunas de las variables (ver ejemplo 2). ¿Es esto algo que los modelos de regresión logística pueden manejar, o tendría que hacer algún tipo de extracción de características para transformar este conjunto de datos en un conjunto de datos normal como el ejemplo 1?
Ejemplo 1 (normal):
+---+------+------+------+-----------------+
| | var1 | var2 | var3 | classification |
+---+------+------+------+-----------------+
| 1 | 5 | 2 | 526 | 0 |
| 2 | 6 | 1 | 686 | 0 |
| 3 | 1 | 9 | 121 | 1 |
| 4 | 3 | 11 | 99 | 0 |
+---+------+------+------+-----------------+
Ejemplo 2 (listas):
+-----+-------+--------+---------------------+-----------------+--------+
| | width | height | hlines | vlines | class |
+-----+-------+--------+---------------------+-----------------+--------+
| 1 | 115 | 280 | [125, 263, 699] | [125, 263, 699] | 1 |
| 2 | 563 | 390 | [11, 211] | [156, 253, 399] | 0 |
| 3 | 523 | 489 | [125, 255, 698] | [356] | 1 |
| 4 | 289 | 365 | [127, 698, 11, 136] | [458, 698] | 0 |
| ... | ... | ... | ... | ... | ... |
+-----+-------+--------+---------------------+-----------------+--------+
Para proporcionar algo de contexto adicional sobre mi problema específico. Estoy intentando representar dibujos. Los dibujos tienen una anchura y una altura (variables regulares), pero los dibujos también tienen un conjunto de líneas horizontales y verticales, por ejemplo (representadas como una lista de sus coordenadas en sus respectivos ejes). Esto es lo que se ve en el ejemplo 2. El conjunto de datos que estoy utilizando es aún mayor, ya que también contiene variables que contienen listas con los grosores de cada línea, listas con la extensión de cada línea, listas con los colores de los espacios entre las líneas, etc. Al final me gustaría que mi regresión logística recogiera lo que resulta en dibujos bonitos. Por ejemplo, si hay demasiadas líneas demasiado cerca el dibujo no es bonito. El modelo debería recoger por sí mismo estas "características" de lo que hace un dibujo bonito y uno malo.
No los he incluido porque la forma en que están configurados estos datos es un poco confusa de explicar y si puedo resolver mi pregunta para el conjunto de datos anterior, creo que puedo utilizar el principio de esta solución para el conjunto de datos restante también. Sin embargo, si necesita detalles adicionales (completos), no dude en preguntar.