6 votos

Diferencia entre NA y None en el conjunto de datos biológicos

He recogido datos ambientales sobre animales y estoy buscando ayuda sobre cómo tratar ciertas variables en las que un valor no numérico es informativo, pero también problemático. Tengo tres variables que dependen unas de otras: tronco, distancia al tronco y diámetro del tronco más cercano. Estas cualidades se miden dentro de un área de muestreo de 4 m de radio alrededor de un cuadrante de 1 m cuadrado, donde se encuentra el animal.

  • En el caso de registro : NA significaría que no pude tomar muestras del cuadrante o del área de 4 metros circundante (inaccesible), Ninguno significa que no hay troncos presentes en el área de la muestra, lo que significa que podría lógicamente sea igual a 0.
  • Para la distancia al registro, si registro es "ninguno" o "0", entonces NA no es apropiado porque, de nuevo, eso significa que no pude muestrear el espacio, pero un valor de '0' para la distancia al tronco significaría que el tronco estaba dentro del cuadrante de 1 m al cuadrado, lo cual es incorrecto si realmente no hay ningún tronco dentro del área de muestreo de 4 m. [El cuadrante de 1 m al cuadrado actúa como un proxy para todo el animal].
  • Existe el mismo problema con el diámetro del tronco más cercano: NA significaría que no pude muestrear el espacio, pero un valor de 0 significaría que el diámetro del tronco midió '0 cm', y un tronco no puede tener un diámetro de cero de forma realista (en este experimento, los troncos eran trozos de madera de más de 7,5 cm de diámetro).

Por lo tanto, para la distancia y el diámetro del tronco más cercano, 0 no puede ser el resultado lógico si no hay un tronco, pero cero puede ser la distancia al tronco más cercano si hay troncos presentes. ¿Alguna sugerencia sobre cómo resolver este problema de caracteres frente a números para el análisis estadístico? La solución puede ser hacer estas variables categóricas con los valores de 'ninguno', '0-1', '1-2', etc, y tendría que retocar los modelos multivariantes que manejan medidas repetidas utilizando datos categóricos y numéricos.

El objetivo final es hacer un análisis multivariante con muchas variables ambientales para comparar el entorno elegido por el animal frente a los entornos disponibles elegidos al azar dentro del bosque.

Gracias de antemano.

0 votos

3voto

Aaron Puntos 36

Se trata de una situación en la que se tienen variables (distancia al tronco, diámetro del tronco más cercano) que sólo tienen significado en presencia de una condición de variable previa (el tronco está presente). Puede tratar esto codificando sus variables de manera que las variables condicionales se pongan a cero si no hay un tronco presente, de manera que la variable indicadora del tronco capture todo el "efecto" de la ausencia de un tronco. Para los puntos de datos en los que no pudo observar el área, codificaría ambas variables como NA y tratarlos como datos perdidos. He aquí un ejemplo de lo que quiero decir.

$$\begin{array} {|r|r|r|} \hline \text{Outcome} & \text{Log (Indicator)} & \text{Distance (m)} & \text{Diameter (m)} \\ \hline \text{Inaccessible site} & \text{NA} & \text{NA} & \text{NA} \\ \hline \text{No log on site} & 0 & 0 & 0 \\ \hline \text{Log on site} & 1 & 2.34 & 1.21 \\ \hline \end{array}$$

Si se introdujera este tipo de datos en un modelo de regresión, la variable indicadora de la presencia de un tronco permitiría que el modelo diera una predicción diferente para la ausencia de tronco que para un tronco muy pequeño y muy cercano (distancia y diámetro cercanos a cero). Esto le permitiría interpretar los parámetros de su modelo de forma que obtuviera un resultado predictivo cuando no hay tronco, y un resultado cuando hay un tronco, dependiendo este último efecto de la distancia y el diámetro. Si quiere asegurarse de que su modelo no permite un resultado sin logaritmo, pero con efectos positivos para las otras variables condicionales, podría codificar las variables condicionales como efectos de interacción de la siguiente manera:

Response ~ Intercept + Log + Log:Distance + Log:Diameter

Si codifica su modelo de esta manera, entonces un valor de $\text{Log} = 0$ significa que no hay más coeficientes que el intercepto en ese resultado. Se trataría entonces de NA valores como datos perdidos, utilizando técnicas estándar (imputación, etc.) para tratarlos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X