3 votos

¿Cómo determinar si una variable es categórica?

Estoy mirando el gráfico de la variable frente a la respuesta, y parece categórica para la mayoría de las observaciones, pero algunas no lo son.

Aquí hay una imagen de la parcela.

enter image description here

¿Existe un umbral en la cantidad de "valores atípicos" para determinar si una variable puede ser categórica?

edit: En la trama, x es el tipo impositivo ( $\times 100$ ) de varias regiones, y y es el valor medio de las viviendas de la región.

16voto

Zizzencs Puntos 1358

Los tipos impositivos no son categóricos, son continuos. Un tipo impositivo puede variar; por ejemplo, el impuesto sobre las ventas en la ciudad de Nueva York es, creo, del 8,825%.

Parece que los datos que tienes sólo tienen ciertos tipos impositivos. Pero eso es una característica de sus datos, no una característica subyacente de la variable. Las variables categóricas NO PUEDEN tomar valores entre otros valores. Por ejemplo, "país de nacimiento" es categórica. Usted ha nacido en algún país. No tiene sentido decir (por ejemplo) que EE.UU. está a medio camino entre Noruega y Checoslovaquia; ni siquiera es incorrecto, es un sinsentido.

Otra cuestión es cómo debe modelo estos datos. Creo que la regresión lineal es un buen primer intento, después deberías mirar los gráficos de los residuos.

4voto

Awais Tariq Puntos 116

Ciertamente, parece que la variable trazada en el eje X sólo puede tomar ciertos valores discretos.

Sin embargo... una variable categórica es aquella que toma valores en un espacio muestral donde ni la magnitud ni el orden tienen significado alguno. Ejemplo: un estudio médico puede registrar el sexo del paciente (hombre/mujer), que es categórico... la edad (que es numérica)... y cuál de los posibles medicamentos de venta libre para el resfriado tomaron, también categórico.

Una variable categórica podría tener un soporte infinito -imagina secuencias de letras del alfabeto latino- de longitud arbitraria. Hay un número infinito de posibilidades, todas ellas categóricas, porque no hay una forma natural de medir la distancia entre ellas o de clasificarlas (aunque se nos ocurran algunas).

Por el contrario, una variable numérica podría admitir un número discreto de resultados posibles, como el espectro de un elemento químico concreto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X