Me parece que para elegir las herramientas estadísticas adecuadas, primero tengo que identificar si mi conjunto de datos es discreto o continuo.
¿Te importaría enseñarme cómo puedo comprobar si los datos son discretos o continuos con R?
Me parece que para elegir las herramientas estadísticas adecuadas, primero tengo que identificar si mi conjunto de datos es discreto o continuo.
¿Te importaría enseñarme cómo puedo comprobar si los datos son discretos o continuos con R?
La única razón que se me ocurre para requerir esta decisión, es para decidir sobre la inclusión de una variable como continua o categórica en una regresión.
En primer lugar, a veces no se puede elegir: las variables de carácter, o los factores (cuando alguien que proporciona el data.frame ha tomado la decisión por usted) son obviamente categóricos.
Eso nos deja con variables numéricas. Puedes tener la tentación de comprobar simplemente si las variables son enteras, pero este no es un buen criterio: mira la primera línea de código de abajo ( x1
): se trata de 1000 observaciones de sólo los dos valores y : aunque no sean números enteros, parece una variable categórica obvia. Lo que se podría hacer para algunos x
es comprobar cuántos valores diferentes hay en tus datos, aunque cualquier umbral que puedas usar para esto será subjetivo, supongo:
x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative
Me inclino a decir que una variable que sólo tiene un 5% de valores únicos podría llamarse con seguridad discreta (pero, como se ha dicho: esto es subjetivo). Sin embargo: esto no la convierte en una buena candidata para incluirla como variable categórica en su modelo: Si tiene 1000000 observaciones, y un 5% de valores únicos, aún quedan 50000 "categorías": si la incluye como categórica, va a gastar un montón de grados de libertad.
Supongo que esta llamada es aún más subjetiva, y depende en gran medida del tamaño de la muestra y del método elegido. Sin más contexto, es difícil dar directrices aquí.
Así que ahora probablemente tienes algunas variables que podría añadir como categórica en su modelo. Pero debe ¿usted? Esta pregunta puede responderse (aunque realmente depende, de nuevo, de su objetivo) con una prueba de razón de verosimilitud: El modelo donde la variable es categórica es un supermodelo del modelo con la variable como covariable continua. Para ver esto, imagine una regresión lineal sobre una variable x
que contienen tres valores 0
, 1
y 2
. Ajuste de un modelo: donde el es un indicador de variable ficticia (es igual a 1 si ) es sólo una forma más flexible de ajustar un modelo porque la última es equivalente a
Con la estructura de super/submodelo, se puede averiguar si hay evidencia en los datos de que la estructura más compleja es necesaria, haciendo un prueba de razón de verosimilitud : -2 veces la diferencia de logaritmo de máxima verosimilitud (típicamente indicada como desviación en R) seguirá una con df= la diferencia en el número de parámetros (en el ejemplo anterior: 4 parámetros - 3 parámetros).
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.