En la literatura sobre árboles de decisión y especialmente en la familia de enfoques de árboles que evitan el sesgo de selección (árboles de inferencia condicional, p. ej. aquí: ctree: Árboles de inferencia condicional por Hothorn, Hornik y Zeileis ) se utiliza el término "peso del caso" - ¿qué significa exactamente? Ya que hablamos de pesos - ¿podríamos aclarar en qué se diferencia un "peso de nodo" de un árbol? ¿Podría poner un ejemplo pedagógico?
Respuestas
¿Demasiados anuncios?El término "ponderaciones de casos" se utiliza para distinguir las ponderaciones en un modelo de regresión/clasificación de las "ponderaciones de proporcionalidad" que se suelen utilizar en la regresión por mínimos cuadrados. En el primer caso, el número de observaciones es sum(weights)
mientras que en el segundo caso es length(weights)
(o sum(weights > 0)
). Para las estimaciones puntuales esto no suele suponer una diferencia, pero para las pruebas/valores correspondientes sí.
Para más comentarios en el contexto de la regresión (no de los árboles), véase, por ejemplo: Regresión censurada ponderada .
En cuanto al "peso del nodo", no estoy seguro de lo que quiere decir exactamente. Yo esperaría que esto es simplemente la suma de (caso) pesos en un determinado nodo.
El "peso del caso" se define en el artículo de Hothorn et al: Partición recursiva insesgada: Un marco de inferencia condicional. Estoy de acuerdo en que es un poco confuso tal y como está escrito.
En primer lugar, definamos exactamente qué es matemáticamente el peso de un caso según el documento: es un vector de "valor[es] entero[s] no negativo[s]" que indica[n] si un registro está en el nodo. Además, esta frase del documento es útil también, "El algoritmo induce una partición {B1,...,Br} del espacio de covariables X, donde cada celda B ∈{B1,...,Br} se asocia con un vector de pesos de caso."
Así, el peso de caso es simplemente un vector que indica si una observación se encuentra en un nodo o en una celda final concreta (celda final puede leerse como "nodo terminal") del espacio de partición. La suma de los pesos de los casos en un nodo terminal es igual a cuántas observaciones hay en esa celda final. Tenga en cuenta que la longitud del vector de pesos de casos es igual al número de registros.
Creo que el término "peso de nodo" es simplemente un valor entero que equivale a la suma de filas o a la suma de columnas de un vector de pesos de caso.
Las ponderaciones de los casos existen para cada nodo de un árbol e indican simplemente qué observaciones se incluyen.
Una pregunta natural podría ser: "¿Los pesos de los casos son siempre vectores de 0 y 1?". En algunos casos, sí. Sin embargo, a veces es deseable ponderar los registros en términos de modelización (por ejemplo, supongamos que un estudio adolece de datos perdidos y ha decidido utilizar la ponderación de probabilidad inversa. Una observación poco frecuente (es decir, una observación que tenía una alta probabilidad de faltar pero que pudimos registrar) se pondera más en el modelo (quizás recibe una ponderación de 5 para representar 5 observaciones que faltaban, como es el concepto que subyace a la ponderación de probabilidad inversa).
Por lo tanto, las ponderaciones de los casos permiten que los registros se cuenten varias veces en los nodos. Esto podría hacerse por diversas razones, como la que he expuesto anteriormente.
Permítanme añadir además un ejemplo de estos términos utilizados en las documentaciones ctree_control y ctree del paquete R cforest (que se ajustan a este tipo de árboles descritos por Hothorn et al.).
"minsplit" es un argumento para la función ctree_control definido como "la suma mínima de pesos [de caso] en un nodo para que se considere su división". Esto determina cuántos registros (que pueden ser ponderados) deben estar en el nodo para que sea considerado para la división. Dicho de otro modo, la suma de los pesos de los dos nodos hijos debe ser mayor que el argumento minsplit.
"minbucket" es otro argumento definido como "la suma mínima de pesos [de caso] en un nodo terminal". Significa que ningún nodo terminal contendrá menos observaciones que su valor. Dicho de otro modo, el peso de nodo de un nodo terminal no será inferior a su valor.
Estos dos criterios determinan lo pequeños que pueden ser los nodos.