9 votos

¿Pueden los datos binarios ser ordinales?

Los datos binarios se menciona a menudo como un nominal de la sub-categoría, especialmente en ejemplos como femenino/masculino, fumador/no fumador, etc. Sin embargo, los datos binarios con valores tales como pasa/no pasa, correcto/incorrecto, ausente/presente, etc, parece dar un poco de peso a sus valores. No es como en el ejemplo de la de género, donde ambos valores son iguales y se diferencian principalmente por el nominal y otros relacionados con el contexto de los rasgos. En su lugar, este tipo de datos binarios, claramente indica que el valor medio de algo y el otro no significa nada.

En caso de tal distinción, puede binario ser considerado ordinal? Si sí, ¿cuáles son las pruebas estadísticas que se utilizan generalmente para estos datos? También, hay interesantes libros o papeles en este caso?

7voto

jasonmray Puntos 1303

Dos es un mísero número, apenas plural, & dos puntos de la escala de la izquierda a sus propios dispositivos sólo necesita distinguir antes de que pueda poner sus pies: es ociosos a reflexionar sobre si la igualdad de intervalos o de igualdad de coeficientes son significativos cuando sólo hay un único intervalo o razón de considerar, o si el ranking es significativo cuando sólo hay una secuencia de una pareja puede tener; todas las operaciones que desee realizar sobre los datos no se ven afectados por su representación, como @Tim ha explicado.

Es sólo para las relaciones exteriores de una variable binaria que estas cosas importan en absoluto. El índice de Jaccard es una medida de similitud entre dos individuos, cada uno de tener varios atributos representados por variables binarias; calcular el cociente entre el número de atributos para que ambos tienen "1" al número de atributos para los que tienen "1". Claramente la codificación como "0" y "1" no es arbitraria aquí (aunque podemos cambiar ronda para todas las variables a la vez y hacer un cambio correspondiente para el cálculo del índice de Jaccard). Esta es la situación en la que @ttnphns habla de la "ordinal de las variables dicotómicas", lo cual parece bastante justo. Un ejemplo se puede encontrar en la Fe et al. (2013), "La estabilidad a largo plazo de la microbiota intestinal humana", la Ciencia, 341, 6141, donde el índice de Jaccard se utiliza para medir la similitud de la composición de la flora intestinal en diferentes puntos de tiempo—la relación del número de cepas bacterianas en común sobre el número total de cepas se encuentran. La elección de la métrica parece sensato—¿por qué tomar en cuenta todas las diferentes cepas ausente en ambos puntos del tiempo? podría hacer una lista exhaustiva ser compilados?

Más hum-drum ejemplo puede ser encontrado en las diversas formas variables se combinan a menudo en los índices, las puntuaciones, o lo que sea, para servir como, por ejemplo, la estadística descriptiva, o predictores en la regresión. Para calcular el índice de comorbilidad de Charlson se suman las variables dicotómicas que indican condiciones tales como infarto de miocardio & insuficiencia cardíaca congestiva. Muchas condiciones se codifica con "0" y "1"; pero como hemilplegia contribuye 2, y tumor maligno de 6, a la puntuación total, estoy tentado a proponer estas como intervalo de escala de las variables dicotómicas.

No hace falta decir, cómo alinear binarios diferentes escalas en este tipo de situaciones depende de la toma de decisiones adecuadas para el trabajo a mano, en lugar de alguna manera intuir la verdadera naturaleza de cada uno a nivel individual, un atributo codificado "1" para el cálculo de un índice de Jaccard podría ser codificado "0" para el cálculo de la otra.

El párrafo anterior se ejemplifica algo que es siempre el caso con este negocio de la escala de tipos. Stevens señala diversas relaciones entre las características de cómo se representan los datos deben ser considerados significativos y el tipo de operaciones que realice durante su análisis:

Las escalas son posibles en el primer lugar, sólo porque no es cierto isomorfismo entre lo que podemos hacer con los aspectos de los objetos y el propiedades de la numeración de la serie. En el trato con los aspectos de la los objetos invocamos empírica de operaciones para la determinación de la igualdad (clasificar), para la clasificación, y para determinar cuando las diferencias y cuando las relaciones entre los aspectos de los objetos son iguales. El convencionales de la serie de los números rendimientos análogos operaciones: podemos identificar a los miembros de un número de la serie y clasificar. Sabemos su orden dado por la convención. Podemos determinar la igualdad de las diferencias, como $8-6=4-2$, y la igualdad de proporciones, como $\frac{8}{4}=\frac{6}{3}$. El isomorfismo entre estas propiedades de el número de serie y de ciertos empírica de las operaciones que llevamos a cabo con objetos permite el uso de la serie como un modelo para representar los aspectos del mundo empírico.

Este es un ejemplo de un importante principio general: no quieren arbitraria o convencional decisiones acerca de cómo escribir las cosas a afectar sus conclusiones.

El tipo de escala que se obtuvieron depende del carácter de la básica empírica de las operaciones realizadas. Estas operaciones se limitan normalmente por la naturaleza de la cosa que se va a escalar y por nuestra elección de los procedimientos, pero, una vez seleccionadas, las operaciones de determinar que no se convertirán en uno u otro de los baremos que figuran en la Tabla 1.1 [nominal, ordinal, de intervalo, & ratio].

Así que usted no puede, por ejemplo, el promedio de las puntuaciones en una escala de cinco puntos y la afirmación de que el intervalo entre los puntos de la escala no importa: algo se tiene que hacer (& nota que bien puede ser la demanda más que el promedio de—ver, por ejemplo, aquí). Es un error confundir esta prohibición con la condición de que primero es necesario determinar la verdadera escala del tipo y , a continuación, pensar acerca de los métodos apropiados de análisis. Ver Debería tipos de datos (nominal/ordinal/intervalo/ratio) realmente ser considerada tipos de variables?.

5voto

Dipstick Puntos 4869

La idea general de los datos ordinales es que hay algún orden o gradación de diferentes categorías y

numérico exacto de la cantidad de un determinado valor no tiene importancia más allá de su capacidad para establecer una clasificación a través de un conjunto de puntos de datos (https://en.wikipedia.org/wiki/Ordinal_data)

Con los datos ordinales sus categorías se ordenan, por ejemplo,$a < b < c$, por lo que usted está interesado en las relaciones entre las categorías, $a < b$ e $b < c$, lo $a < c$. En este caso, el pedido de los asuntos y si vuelve a asignar las etiquetas en orden aleatorio, ya que se perdería la información importante.

Con datos binarios usted tiene sólo dos categorías, para saber que $x > y$ le proporciona la misma información que saber que $\neg(x^* < y^*)$ donde $x^*$ e $y^*$ se $x$ e $y$ con invertida de codificación. En este caso, una categoría es el elogio de la otra de modo que su orden no importa.

Por ejemplo, con el cambio de las etiquetas de regresión logística que acaba de llegar invierte los signos de los coeficientes y esto es lo que esperamos, para más información, véase el reciente pregunta en la regresión logística (marque @Scortchi's comentario para el vinculado pregunta).

Por otro lado, como @ttnphns notado, existen medidas de similitud que hacer suposiciones acerca de la codificación de categorías binarias, como el índice de Jaccard y en estos casos se hace una diferencia en cómo las categorías están codificados. La codificación de las categorías (por ejemplo, como $0$ e $1$ o $-1$ e $+1$), en muchos casos, también podría facilitar la interpretación de los resultados sea más fácil (influencia positiva o negativa). En ambos casos, la diferencia tiene que ver más bien con la codificación de las variables, en lugar de con la información que llevan.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X