1 votos

Regresión logística para el análisis de la curva de aprendizaje: dos tendencias

Tenía 10 animales realizando repetidamente una tarea de elección forzada de dos alternativas (elegir entre dos estímulos coloreados para obtener una recompensa). El resultado era un éxito o un fracaso. Una vez que el porcentaje de aciertos de los animales alcanzaba un determinado criterio, alteraba el brillo de uno de los estímulos para ver si el porcentaje de aciertos volvía a disminuir, y así poder ver de qué dependía su aprendizaje.

Estoy trabajando en R y creo que tengo que hacer una regresión logística en este conjunto de datos, con éxito / fracaso como variable dependiente y el número de ensayos como variable independiente (para mostrar la mejora con el tiempo). Lo estoy intentando con la función glm. He recibido alguna formación básica en estadística, pero tengo algunas preguntas sobre esto que no puedo resolver por mí mismo.

  1. Al principio, sospecho que los animales tienen una proporción de éxito/fracaso del 50/50. ¿Puedo hacer una regresión logística cuando la probabilidad de éxito oscila entre el 50% y el 100%, en lugar de entre el 0% y el 100% (que es lo que veo en todos los ejemplos)?
  2. Si es así, ¿cómo puedo tenerlo en cuenta en mi regresión logística? He leído algo sobre cambiar el valor de corte para que coincida con la abundancia de los dos resultados, ¿debería hacerlo?
  3. Quiero ver si tengo una tendencia general, o dos tendencias separadas en mi conjunto de datos: desde el inicio hasta el cambio de estímulo, y desde el cambio de estímulo hasta el final. Ahora he creado dos subconjuntos del conjunto de datos. ¿Es éste el camino a seguir, o me estoy olvidando de algo?
  4. ¿Cómo puedo tener en cuenta otras variables independientes en la regresión logística en R, como el color, el brillo y el lado del estímulo? ¿Y las diferencias entre los animales?
  5. Por último, ¿cómo puedo visualizar bien la regresión logística en R (u otra forma de visualizar la curva de aprendizaje)?

No he encontrado respuestas a estas preguntas en el foro, pero si las he pasado por alto pido disculpas. Agradecería cualquier tipo de ayuda, ya que no tengo a nadie cerca que pueda ayudarme con esto.

1voto

drek700 Puntos 8

Mi respuesta no será específica para R pero creo que puedes encontrar la forma de hacerlo buscando en otros sitios.

ACTUALIZACIÓN: dices que sólo quieres ver si aprenden algo. Entonces no necesita utilizar $k$ pero compruebe si $r_0 \neq r_\inf$ . En realidad, para esto no hace falta ajustar una logística. Creo que un enfoque más simple debería ser suficiente. Al final, lo mejor sería tener muchos valores diferentes de $r_0$ y $r_\inf$ y, a continuación, utilizar pruebas de hipótesis para afirmar si sus medias difieren o no.

Puntos 1 y 2

Llamemos a su tasa de aprendizaje $r$ y el número de juicio $n$ . Una curva logística general es

$$r(n)=\frac{a}{b+e^{-k(n-n_0)}}$$

donde $n_0$ es el número que se utiliza para la primera prueba. Llamemos a la primera prueba $n_0=0$ ya que eso simplificará las matemáticas. Ahora, calcula tus tasas de éxito empíricas $r$ y ajustarlas frente al número de ensayo (empezando por el ensayo #0), de donde se obtienen los valores de $a$ , $b$ y $k$ . Esta curva no hace ninguna suposición sobre la tasa de aprendizaje inicial, ni siquiera sobre la tasa de aprendizaje final.

Ahora podemos interpretar los parámetros en función de lo que quieras. Se empieza con una tasa de éxito pura de $r_0$ para $n=0$ . Además, cuando $n$ tiende a infinito, la tasa será $r_\inf$ . Sustituyendo esas condiciones en la logística, tenemos

$$r_0 = \frac{a}{b+1}$$ $$r_\inf = \frac{a}{b}$$

Si sustituyes ahí los parámetros que has obtenido del ajuste, verás que si la tasa de aprendizaje inicial es $r_0=0.5$ y que es la tasa máxima alcanzada después de mucho entrenamiento, $r_\inf$ . El ritmo de aprendizaje se caracteriza por el parámetro $k$ que también se obtiene del ajuste.

Punto 3

No lo entiendo del todo. ¿Quieres ver si diferentes animales aprenden más rápido? Lo que puedes hacer es hacer un ajuste para cada animal, de donde obtendrás diferentes valores de $k$ y, a continuación, comparar esos valores. Sin embargo, dependiendo de sus datos, los resultados podrían no ser estadísticamente concluyentes sobre la existencia de diferentes valores de $k$ y puede que todos sean iguales, pero el ruido hace que parezcan diferentes.

Punto 4

Tal vez pueda repetir el análisis para cada configuración de experimento diferente, y luego comparar los valores de $r_0$ , $r_\inf$ y $k$ y ver si existe una relación entre, por ejemplo, el color y el aprendizaje máximo trazando $r_\inf$ frente al color, etc. Puedes comparar todo contra todo y encontrar posibles correlaciones.

Punto 5

No conozco los comandos en R, pero una vez que tengas $a$ , $b$ y $k$ puede trazar $r$ vs $n$ y si trazas los puntos de datos en el gráfico de muestra verás si tus datos están bien descritos por esa logística (¡lo primero que hay que hacer!). Después, puedes hacer lo que decía en el punto anterior y trazar parámetros vs parámetros a modo de resumen.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X