¿No se hace una transformación logit para que la variable vaya de menos infinito a más infinito? No estoy seguro de si los datos que tienen 0 y 1 deben ser un problema. ¿Muestra eso algún mensaje de error? Por cierto, si sólo tienes proporciones tu análisis siempre saldrá mal. Tienes que usar weight=argument
a glm
con el número de casos.
Si nada funciona, puede utilizar una división de la mediana o un cuartil o cualquier punto de corte que considere apropiado para dividir la VD en varias categorías y luego ejecutar una regresión logística ordinal en su lugar. Eso puede funcionar. Pruebe estas cosas.
Personalmente no creo que sumar 0,001 a los ceros y restar 0,001 a los unos sea una idea demasiado mala, pero tiene algunos problemas que se discutirán más adelante. Piensa, ¿por qué no sumas y restas 0,000000001 (o incluso más de los decimales)? ¡¡Eso representará mejor el 0 y el 1!! Puede parecerte que no hay mucha diferencia. Pero en realidad sí la tiene.
Veamos lo siguiente:
> #odds when 0 is replaced by 0.00000001
> 0.00000001/(1-0.00000001)
[1] 1e-08
> log(0.00000001/(1-0.00000001))
[1] -18.42068
> #odds when 1 is replaced by (1-0.00000001):
> (1-0.00000001)/(1-(1-0.00000001))
[1] 1e+08
> log((1-0.00000001)/(1-(1-0.00000001)))
[1] 18.42068
> #odds when 0 is replaced by 0.001
> 0.001/(1-0.001)
[1] 0.001001001
> log(0.001/(1-0.001))
[1] -6.906755
> #odds when 1 is replaced by (1-0.001):
> (1-0.001)/(1-(1-0.001))
[1] 999
> log((1-0.001)/(1-(1-0.001)))
[1] 6.906755
Así que, como ves, tienes que mantener las probabilidades tan cerca como (0/1) y (1/0). Esperas que las probabilidades logarítmicas oscilen entre menos infinito y más infinito. Por lo tanto, para sumar o restar, hay que elegir hasta un decimal realmente largo, para que las probabilidades logarítmicas se acerquen al infinito (¡o sean muy grandes!). La medida que consideres suficientemente grande, depende únicamente de ti.
1 votos
Conociendo la cuenta --no sólo las proporciones-- es crucial hagas lo que hagas. Pero una vez que se tienen los recuentos, el primer modelo que hay que considerar, aunque sólo sea un punto de partida, es la regresión logística.
0 votos
Bien, una beta está entre 0 y 1 ( casi seguramente ). Si los observa, debe utilizar un modelo que le dé la oportunidad de observar su muestra. Un par de respuestas parecen cubrir ese tipo de enfoque; yo empezaría por ellas.