65 votos

¿Alguna vez tiene sentido tratar los datos categóricos como continuos?

Al responder esta pregunta sobre datos discretos y continuos Afirmé a la ligera que rara vez tiene sentido tratar los datos categóricos como continuos.

A primera vista parece evidente, pero la intuición suele ser una mala guía para la estadística, o al menos la mía lo es. Así que ahora me pregunto: ¿es cierto? ¿O hay análisis establecidos para los que una transformación de datos categóricos a algún continuo sea realmente útil? ¿Habría alguna diferencia si los datos fueran ordinales?

28 votos

Esta pregunta y sus respuestas nos recuerdan lo burda y limitada que es en realidad esta anticuada división de las variables en categóricas-ordinales-intervaladas-racionales. Puede orientar al ingenuo estadístico, pero para el analista reflexivo o experimentado es un estorbo, un obstáculo en el camino de expresar las variables de forma adecuada a los datos y a las decisiones que deben tomarse con ellos. Alguien que trabaje desde este último punto de vista se moverá libremente entre representaciones de datos categóricos y "continuos"; ¡para ellos, esta pregunta ni siquiera puede plantearse! En su lugar, deberíamos preguntarnos: ¿de qué sirve?

1 votos

@whuber (+1) Como mínimo, parece difícil optimizar la fiabilidad de la medición y la precisión del diagnóstico al mismo tiempo.

40voto

DavLink Puntos 101

Asumiré que una variable "categórica" significa en realidad una variable ordinal; de lo contrario no tiene mucho sentido tratarla como continua, a menos que sea una variable binaria (codificada 0/1) como señala @Rob. Entonces, yo diría que el problema no es tanto la forma en que tratamos la variable, aunque hasta ahora se han desarrollado muchos modelos para el análisis de datos categóricos; véase, por ejemplo, El análisis de datos categóricos ordenados: Una visión general y un estudio de los últimos avances de Liu y Agresti--, que la escala de medida subyacente que suponemos. Mi respuesta se centrará en este segundo punto, aunque primero discutiré brevemente la asignación de puntuaciones numéricas a categorías o niveles de variables.

Al utilizar una recodificación numérica simple de una variable ordinal, está asumiendo que la variable tiene propiedades de intervalo (en el sentido de la clasificación dada por Stevens, 1946). Desde el punto de vista de la teoría de la medida (en psicología), esto puede ser a menudo una suposición demasiado fuerte, pero para un estudio básico (es decir, cuando se utiliza un único ítem para expresar la opinión sobre una actividad diaria con una redacción clara) cualquier puntuación monótona debería dar resultados comparables. Cochran (1954) ya señaló que

cualquier conjunto de puntuaciones da un válido prueba, siempre que sean construidos sin consultar los resultados del experimento. Si el conjunto de puntuaciones es deficiente, en el sentido de que distorsiona una escala numérica que realmente subyace a la ordenada, la prueba no será sensible. Por tanto, las puntuaciones deben reflejar la mejor información disponible sobre la forma en que se clasificación y utilizada. (p. 436)

(Muchas gracias a @whuber por recordarme esto a lo largo de uno de sus comentarios, lo que me llevó a releer el libro de Agresti, del que procede esta cita).

En realidad, varias pruebas tratan implícitamente tales variables como escalas de intervalo: por ejemplo, el $M^2$ para probar una tendencia lineal (como alternativa a la independencia simple) se basa en un enfoque correlacional ( $M^2=(n-1)r^2$ (Agresti, 2002, p. 87).

Bueno, también puede decidir recodificar su variable en un rango irregular, o agregar algunos de sus niveles, pero en este caso un fuerte desequilibrio entre las categorías recodificadas puede distorsionar las pruebas estadísticas, por ejemplo, la prueba de tendencia antes mencionada. Una buena alternativa para asignar la distancia entre categorías ya fue propuesta por @Jeromy, a saber, el escalado óptimo.

Hablemos ahora del segundo punto que he mencionado, el del modelo de medición subyacente. Siempre dudo a la hora de añadir la etiqueta "psicometría" cuando veo este tipo de preguntas, porque la construcción y el análisis de las escalas de medida entran dentro de la Teoría Psicométrica (Nunnally y Bernstein, 1994, para una visión general). No me detendré en todos los modelos que en realidad se engloban bajo el epígrafe Teoría de la respuesta al ítem Remito al lector interesado al tutorial de I. Partchev, Guía visual de la teoría de respuesta al ítem para una introducción suave a la TRI, y a las referencias (5-8) enumeradas al final para posibles taxonomías TRI. Muy brevemente, la idea es que en lugar de asignar distancias arbitrarias entre categorías variables, se asume una escala latente y se estima su ubicación en ese continuo, junto con la capacidad o responsabilidad de los individuos. Un ejemplo sencillo vale más que mucha notación matemática, así que consideremos el siguiente ítem (procedente de la EORTC QLQ-C30 cuestionario de calidad de vida relacionada con la salud):

¿Te has preocupado?

que se codifica en una escala de cuatro puntos, desde "Nada" hasta "Mucho". Las puntuaciones brutas se calculan asignando una puntuación de 1 a 4. Las puntuaciones de los ítems pertenecientes a la misma escala pueden sumarse para obtener la denominada puntuación de escala, que denota el grado de satisfacción de una persona. rango sobre el constructo subyacente (en este caso, un componente de salud mental). Estas puntuaciones sumadas son muy prácticas por su facilidad de puntuación (para el profesional o la enfermera), pero no son más que una escala discreta (ordenada).

También podemos considerar que la probabilidad de respaldar una categoría de respuesta determinada obedece a algún tipo de modelo logístico, como se describe en el tutorial de I. Partchev, al que se ha hecho referencia anteriormente. Básicamente, la idea es la de una especie de modelo de umbral (que conduce a una formulación equivalente en términos de los modelos de probabilidades proporcionales o acumulativas) y modelamos las probabilidades de estar en una categoría de respuesta en lugar de la precedente o las probabilidades de puntuar por encima de una determinada categoría, condicional a la ubicación de los sujetos en el rasgo latente. Además, podemos imponer que las categorías de respuesta estén igualmente espaciadas en la escala latente (éste es el modelo de Escala de Valoración) -que es la forma en que lo hacemos asignando puntuaciones numéricas regularmente espaciadas- o no (éste es el modelo de Crédito Parcial).

Evidentemente, no estamos añadiendo gran cosa a la Teoría Clásica de las Pruebas, en la que las variables ordinales se tratan como numéricas. Sin embargo, introducimos un modelo probabilístico, en el que asumimos una escala continua (con propiedades de intervalo) y en el que se pueden tener en cuenta errores específicos de medición, y podemos introducir estas puntuaciones factoriales en cualquier modelo de regresión.

Referencias

  1. S S Stevens. Sobre la teoría de las escalas de medida. Ciencia , 103 : 677-680, 1946.
  2. W G Cochran. Algunos métodos para fortalecer el $\chi^2$ pruebas. Biometría , 10 : 417-451, 1954.
  3. J Nunnally e I Bernstein. Teoría psicométrica . McGraw-Hill, 1994
  4. Alan Agresti. Análisis de datos categóricos . Wiley, 1990.
  5. C R Rao y S Sinharay, editores. Manual de Estadística, Vol. 26: Psicometría . Elsevier Science B.V., Países Bajos, 2007.
  6. A Boomsma, M A J van Duijn y T A B Snijders. Ensayos sobre la teoría de la respuesta al ítem . Springer, 2001.
  7. D Thissen y L Steinberg. A taxonomy of item response models. Psychometrika , 51(4) : 567-577, 1986.
  8. P Mair y R Hatzinger. Modelización Rasch ampliada: El paquete eRm para la aplicación de modelos IRT en R . Revista de Software Estadístico , 20(9) , 2007.

21voto

Senseful Puntos 116

Si sólo hay dos categorías, tiene sentido transformarlas a (0,1). De hecho, esto se suele hacer cuando la variable ficticia resultante se utiliza en modelos de regresión.

Si hay más de dos categorías, creo que sólo tiene sentido si los datos son ordinales, y sólo en circunstancias muy específicas. Por ejemplo, si hago una regresión y ajusto una función no lineal no paramétrica a la variable numérica ordinal, creo que está bien. Pero si utilizo la regresión lineal, entonces estoy haciendo suposiciones muy fuertes sobre la diferencia relativa entre valores consecutivos de la variable ordinal, y normalmente soy reacio a hacer eso.

1 votos

"[E]ntonces estoy haciendo suposiciones muy fuertes sobre la diferencia relativa entre valores consecutivos de la variable ordinal". Creo que este es el punto clave, en realidad. es decir, ¿hasta qué punto se puede argumentar que la diferencia entre los grupos 1 y 2 es comparable a la que existe entre el 2 y el 3?

1 votos

Creo que deberías hacer algunas suposiciones sobre cómo debería distribuirse la variable continua y luego intentar ajustar este "psudohistograma" de cada frecuencia de variable categórica (me refiero a encontrar anchos de intervalo que lo transformen en un histograma ajustado). Aún así, no soy un experto en este campo, es una idea rápida y sucia.

0 votos

Reformular las categorías binarias como {0,1} tiene sentido, pero convertirlas en un intervalo continuo [0,1] parece un poco precipitado. En el frente más amplio, estoy totalmente con su renuencia a peso ordinales por igual a menos que haya poderosos argumentos del modelo.

19voto

Eric Davis Puntos 1542

Es práctica común tratar las variables categóricas ordenadas con muchas categorías como continuas. Ejemplos de ello:

  • Número de ítems correctos en un test de 100 ítems
  • Una escala psicológica sumada (por ejemplo, que sea la media de 10 ítems cada uno en una escala de cinco puntos)

Y por "tratar como continua" me refiero a incluir la variable en un modelo que supone una variable aleatoria continua (por ejemplo, como variable dependiente en una regresión lineal). Supongo que la cuestión es cuántos puntos de escala son necesarios para que sea una hipótesis simplificadora razonable.

Algunas otras reflexiones:

  • Correlaciones policóricas intentan modelizar la relación entre dos variables ordinales en términos de supuestas variables continuas latentes.
  • Escalado óptimo le permite desarrollar modelos en los que la escala de una variable categórica se desarrolla en función de los datos, respetando al mismo tiempo las restricciones de escala que usted imponga (por ejemplo, la ordinalidad). Para una buena introducción, véase De Leeuw y Mair (2009).

Referencias

  • De Leeuw, J., & Mair, P. (2009). Métodos Gifi para el escalado óptimo en R: The package homals. Journal of Statistical Software, de próxima publicación, 1-30. PDF

10voto

Nick Cox Puntos 22819

Un ejemplo muy sencillo que a menudo se pasa por alto y que debería estar en la experiencia de muchos lectores se refiere a las notas o calificaciones que se dan a los trabajos académicos. A menudo, las calificaciones de trabajos individuales son, en esencia, medidas ordinales basadas en juicios, incluso cuando, por convención, se dan como (digamos) notas porcentuales o notas en una escala con un máximo de 5 (posiblemente también con decimales). Es decir, un profesor puede leer un ensayo, una disertación, una tesis o un trabajo y decidir que merece un 42%, un 4 o lo que sea. Incluso cuando las notas se basan en un esquema de evaluación detallado, la escala se aleja bastante de una escala de medición de intervalos o proporciones.

Pero muchas instituciones consideran que, si se dispone de un número suficiente de estas notas o calificaciones, es perfectamente razonable promediarlas (promedio de calificaciones, etc.) e incluso analizarlas con más detalle. Así que en algún momento las medidas ordinales se transforman en una escala resumen que se trata como si fuera continua.

Los conocedores de la ironía observarán que los cursos de estadística de muchos departamentos o escuelas enseñan a menudo que esto es, en el mejor de los casos, dudoso y, en el peor, erróneo, todo ello mientras se aplica como procedimiento en toda la Universidad.

6voto

roryf Puntos 14520

En un análisis de clasificación por frecuencia, como con un diagrama de Pareto y los valores asociados (p. ej., cuántas categorías constituyen el 80% de los fallos del producto).

6 votos

Punto importante, y puede ampliarse: Muchos modelos de datos ordinales se basan en la idea de que no son los datos ordinales, sino sus probabilidades acumuladas, los que pueden modelizarse.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X