Tengo datos sobre una serie de apuestas ganadoras y perdedoras a lo largo de 5 rondas de apuestas con desgaste después de cada ronda. Estoy utilizando un árbol de decisión como el siguiente para mostrar los datos.
Los nodos situados en la parte superior del árbol son los que tienen apuestas ganadoras, y los situados en la parte inferior del árbol son los que tienen rachas de apuestas perdedoras. Quiero observar (a) el desgaste en cada nodo (b) los cambios en el tamaño medio de las apuestas en cada nodo. Observo la tasa de desgaste en cada nodo desde el nodo anterior y la tasa de supervivencia (utilizando la cantidad esperada de personas en cada nodo si la probabilidad es del 50%). Por ejemplo, si la probabilidad es del 50% en cada nodo, de los 1.000 que empezaron, aproximadamente 500 personas deberían estar en cada uno de los segundos nodos, W y L. La hipótesis es (a) la tasa de desgaste es mayor tras las apuestas perdedoras (b) el tamaño medio de las apuestas se reduce tras las perdedoras y aumenta tras las ganadoras.
Primero quiero hacerlo en un entorno univariante muy sencillo. ¿Cómo puedo realizar una prueba t para demostrar que el cambio en el tamaño medio de la apuesta del nodo WW al nodo WWW es estadísticamente significativo si 50 personas se han dado de baja? No estoy seguro de que éste sea el enfoque correcto: cada apuesta posterior es independiente, pero la gente abandona después de perder, por lo que la muestra no está emparejada. Si se tratara simplemente de que la misma clase realizara una serie de exámenes uno tras otro sin que nadie abandonara, entendería cómo realizar la prueba t adecuada, pero creo que esto es un poco diferente.
¿Cómo puedo hacerlo? Además, si los resultados están sesgados por un pequeño número de clientes, ¿cómo podría eliminar el 5% superior y el 5% inferior? ¿Simplemente eliminando a los clientes con el importe acumulado más alto de las apuestas 1 a 3?
Tengo los datos a partir de los cuales se generó la figura, así que tengo la media, std, std error etc en cada nodo.
1 votos
La línea que debería ser WL está etiquetada como WW. El error se propaga por esa línea. ¿Es que lo único que tiene es esta figura o tiene los datos a partir de los cuales se generó la figura?
0 votos
Estoy intentando averiguar si es posible saber a partir de esto dónde se produce el desgaste. La N son las personas que hicieron una apuesta, pero no las que realmente llegaron. Por ejemplo, 450 van W pero luego lo que sale son 250 y 180. Entonces, 20 se han ido pero, ¿esos ganaron o perdieron?
0 votos
Tengo los datos a partir de los cuales se generó la cifra, sí. He editado el árbol para corregir el error que señalas y he cambiado algunos de los nodos finales para reproducir el tipo de desgaste del conjunto de datos real. Tienes razón en que el desgaste no está claro en este momento. Volveré a editar el árbol en los próximos minutos para mostrar un poco más de datos. Gracias.