Es posible mostrar casos completos y valores faltantes juntos: simplemente asigna un par de valores artificiales a las observaciones que tienen un valor faltante, de manera que aparezcan, por ejemplo, en la parte inferior izquierda de tu visualización sin superponerse con observaciones completas por pares (también es posible agregar pequeñas perturbaciones a sus coordenadas, como movimientos aleatorios, para evitar superposiciones, y usar un color o forma de símbolo diferente). Una solución alternativa es graficar los valores faltantes en el margen, como se muestra a continuación (Fuente: conferencia InfoVis 03):
En cualquier caso, deberías trabajar con observaciones completas por pares, con fines de visualización, no con casos completos en todo el conjunto de datos.
Klimt también maneja de manera agradable los valores faltantes, ya que se muestran a lo largo del eje horizontal (cuando falta el valor y) y vertical (cuando falta el valor x), como se muestra en la siguiente imagen.
Aquí hay una pequeña función de R que debería manejar esto:
miss.value.plot <- function(x, y, ...) {
plot(x, y, ...)
rug(jitter(x[is.na(y)], amount=.1), side=1, lwd=1.2)
rug(jitter(y[is.na(x)], amount=.1), side=2, lwd=1.2)
}
Se puede usar como panel para pairs
también: Solo reemplaza plot
con points
. Por supuesto, puedes reemplazar rug
con points
si prefieres dibujar puntos u otros símbolos. En este caso, tendrás que proporcionar valores constantes para las coordenadas complementarias x o y.
También es posible confiar en software que permite el cepillado dinámico y gráficos vinculados, como GGobi. Básicamente, la idea es tener tu matriz de datos original, y una copia de la misma, compuesta solo de 0's y 1's y que codifica la ausencia de valores. Enlazar las dos tablas permite estudiar las relaciones entre cualquier par de variables mientras se observa el patrón de falta de valores en las otras variables. Algunas de estas técnicas se discuten en el capítulo sobre Datos Faltantes de Gráficos Interactivos y Dinámicos para el Análisis de Datos: Con Ejemplos Usando R y GGobi, por Cook y Swayne. Existe una Interfaz de R que permite trabajar directamente desde R. Realmente es para situaciones donde los patrones de falta de valores son de interés. Ver también MissingDataGUI: Una Interfaz Gráfica de Usuario para Explorar Valores Faltantes en Datos.
Otro software para visualizaciones interactivas de gráficos de dispersión es Mondrian. (También estaba Manet pero ya no logro hacerlo funcionar en mi Mac Intel).