4 votos

¿Cómo funciona el tema codificación de categorías?

Para la variable del predictor es codificada 1,2,3,4 para 4 ciudades diferentes. ¿Es esto malo? He oído que sólo tiene sentido para las cosas que tienen un orden natural. Como el número de estrellas para una película o algo. Pero en R, si `` , divide básicamente en 3 diferentes variables dummy. Así que ¿por qué la distinción importa entonces?

10voto

icelava Puntos 548

Si el factor es, de hecho, codificado como un factor, las cosas van a estar bien estadísticamente.

Los problemas surgen si R interpreta su codificación numérica predictor. Así que usted debe tener mucho cuidado en la lectura numérica codificada de datos categóricos en R. O cualquier otro paquete estadístico, para el caso - cualquier paquete de interpretar los números como números por defecto (¿qué más se debe hacer?), para cualquier paquete se requiere un tratamiento especial y la intervención humana en tales casos. Esto hace que los errores mucho más probable, especialmente si el factor en cuestión no es el foco principal de su análisis, por lo que no puede detectar el error en la búsqueda en los resultados.

Además de, por supuesto, "Nueva York", "Chicago", "San Francisco" y "Los Ángeles" son mucho más legibles que "1", "2", "3" y "4".

3voto

Johnny Puntos 151

Es importante distinguir cómo se ha codificado esta variable para sus propios fines, con lo que realmente entra en los cálculos estadísticos. Usted puede llamar a los niveles de la variable sin embargo que usted desea. Puede utilizar nombres, números, lo que sea. Mientras, al hacer los stats (o cuando usted tiene un paquete de software que haga esto por usted), usted convertir sus datos en el formato correcto. Cuando se utiliza R para convertir su propio esquema de codificación (1,2,3,4) para categóricas de las variables ficticias (con 0s y 1s), que es lo que estás haciendo.

Si la variable fueron contando cosas en lugar de la indicación de una categoría, usted no tendría que hacer esta conversión, porque en ese caso los números son directamente significativa en una estadísticos/matemáticos de sentido, y no sólo es significativo para usted en un arbitrario sistema de etiquetado.

2voto

David Plumpton Puntos 1345

La diferencia radica en la interpretación. Si usted codificar la variable como números, de forma predeterminada, la mayoría de los paquetes de interpretar que como números. En la mayoría de los casos, usted tiene que señalar que no hay ningún orden, ya sea por factorización o algo similar.

Por qué es importante? Sólo por la información adicional que podría inducir a la estructura del problema. Si la codificación es tratado como un número, entonces se dice también que el alumno múltiples implicaciones de eso.

Supongamos que tenemos una variable para el nombre del país, y que el factor de que a medida que un número. Luego de un país codificados con 1 se considera similar a la de un país codificados con 2, y distante de un país codificados con 40. Empiezas con un asignados al azar a la codificación, que se interpreta como la información de un estudiante.

Por otro lado, si la codificación no es al azar, sino con un propósito, entonces usted puede hacer uso de ella. Por ejemplo, usted podría codificar la temperatura de factores "bajo", "medio", "alto" con el aumento de valor entero. Prestar atención, sin embargo, ya que usted puede ser que necesite para establecer si la diferencia entre "bajo" y "medio" es la misma que la diferencia entre "medio" y "alto".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X