Estoy participando en un reto de clasificación (las clases son 0 y 1) en el que las entradas están encriptadas (porque son datos financieros caros). Como el cifrado conserva el orden, sólo puedo utilizar el hecho de que, por ejemplo $$ x_1 > x_2 $$ pero no $$ d = x_1-x_2 $$
Además de los árboles, ¿qué algoritmos de aprendizaje automático proporcionan modelos sólidos en estas circunstancias?
EDIT: Supongo que las redes neuronales, la SVM o la regresión logística no son apropiadas en este escenario ya que utilizan transformaciones lineales $b \cdot x$ que no puedo aplicar ya que no tengo la "estructura numérica" para ello.
EDITAR 2: Me dan datos de la siguiente forma: $$ (0.2,0.1,0.5,0); (0.1,0.2,0.3,1); (0.02,0.7,0.33,1) $$ y miles de filas de ellos (y en mi aplicación más columnas). En este ejemplo las 3 primeras entradas son entradas y la 4ª es el objetivo. Todas las columnas constan de 1001 valores únicos en el rango [0,1]. Así que realmente creo que sólo son posibles las comparaciones.
Lo siento si mi pregunta no fue formulada con suficiente precisión ... Espero que ahora el problema esté más claro.
0 votos
¿Qué quiere decir con "dedicado"?
0 votos
Bueno, me refiero a que un modelo o algoritmo clasifica en base a rangos de datos numéricos. ¿Propones otra redacción?
0 votos
Sé que puedo utilizar un CART clásico. Sólo me preguntaba si hay un enfoque especial que no conozco.
0 votos
Con @DJohnson me sigo preguntando qué quiere decir con "dedicado" porque literalmente cualquier que funciona con datos numéricos funcionará, sin cambios, cuando se aplique a los rangos.
2 votos
No conozco ningún algoritmo diseñado específicamente para manejar entradas clasificadas como esta, pero algo como un árbol de decisión probablemente funcionaría bien - para entradas continuas básicamente selecciona un umbral para ramificarse, lo que es esencialmente lo mismo que seleccionar el rango para ramificarse.
2 votos
Parece que tengo que repetir lo dicho en un comentario anterior: por supuesto puede aplicar transformaciones lineales -y cualquier otro procedimiento numérico que desee- a estos datos. ¡Los rangos son números!
0 votos
@roundsquare Estoy de acuerdo en lo de los árboles, me pregunto qué más podría funcionar. ¿Tienes algún material sobre codificadores? ¿Puedo cambiar la representación de datos ordenados a otra cosa?
0 votos
@whuber: He añadido algunas ediciones sobre la estructura de datos de arriba. Los datos provienen de la encriptación, por lo que obtengo elementos en un conjunto finito, 1001 valores únicos en cada columna en el rango [0,1]. No se admite la adición. Si trabajo con rangos se podrían introducir distsancias que no están presentes en los datos "reales". los rangos 1 y 2 no están tan cerca como los rangos 10 y 11. Así que me pregunto si usar rangos directamente es válido.
1 votos
Por favor, explique qué quiere decir con que "la suma no es compatible". Si estás sugiriendo que las operaciones como sumas, medias, etc. en estos números no tienen sentido, entonces eso no es correcto - y podría estar en el corazón de tu pregunta. Puede que te guste leer el libro de FM Lord Sobre el tratamiento estadístico de los números del fútbol .
0 votos
@whuber derecho ... como los números son el resultado de un cifrado me pregunto si es corect para sumarlos. Digamos 0.6 y 0.7 - Si los sumo entonces obtengo 1.1- si 0.6 es de alguna manera la encriptación de 10 y 0.7 es la encriptación de 11 entonces no está claro que 1.1 sea la encriptación de 21. De hecho esto no será cierto ya que entonces podríamos llamar a la encriptación homomórfica - que dicen que no lo es. Este es el núcleo de mi pregunta, tienes razón. Gracias por el enlace, lo leeré y espero entender mejor el problema. El sitio también publicará algo en su blog pronto, según dicen.
0 votos
Como la "encriptación preserva el orden", todo irá bien.
0 votos
@whuber un último comentario: ¿dirías que cualquier algoritmo (al menos los comunes) (SVM, red neuronal, reg. logístico) funciona en los datos - porque la codificación es la preservación del orden? Voy a leer el papel ...tal vez la respuesta está escrita allí ;)
1 votos
Como no tengo los datos, no puedo opinar honestamente sobre si algún procedimiento en particular funcionará, pero puedo decir que la naturaleza de estos datos no parece descartar ningún procedimiento de la consideración. Sí, la respuesta debería estar clara en ese documento (que es muy accesible y no matemático, por cierto).
0 votos
@whuber muchas gracias, me ha gustado mucho la lectura de tu enlace. Soy como el profe que no le gustaba hacer estadística con números ordinales. ¿Tienes alguna referencia que cubra esta "equivalencia" de números cardinales/ordinales en términos matemáticos.. o simplemente está claro?
2 votos
Véase Velleman y Wilkinson (1993), Las tipologías nominal, ordinal, de intervalo y de razón son engañosas .
0 votos
@whuber genial, voy a leer esto a continuación. Si quieres formular una respuesta corta entonces la aceptaría. Estar en paz con la estadística en los números ordinales parece ser la clave.
0 votos
¿Los rangos clasifican los datos sólo dentro de las filas, sólo dentro de las columnas o a través de las filas? y ¿Columnas?
0 votos
@RichardHardy el sitio no da demasiada información sobre su encriptación pero supongo que el ranking se mantiene a través de las filas. Tenemos las características en las columnas y el ranking debería decir que si $e_{i,j} > e{k,j}$ (elementos encriptados de la misma col j) entonces los datos desencriptados también tienen esta relación. ¿Tiene esto sentido para ti?
0 votos
@Richard, sí, supongo...