11 votos

mejorando mis nombres de variables

Bueno los nombres de las variables son:

a) corto / más fácil escribir,

b) fácil de recordar,

c) comprensible / comunicativa.

Me estoy olvidando de algo? La coherencia es algo que hay que buscar. La manera en que yo pondría es que la constante convenciones de nomenclatura contribuyen a las cualidades anteriores. Consistencia contribuye a (b) facilidad de recordar y (c) el grado de comprensión, a pesar de que otros factores son más importantes. Hay un claro equilibrio entre (a) la longitud del nombre de / en la facilidad de uso (por ejemplo, todo en minúsculas) y (c) el grado de comprensión.

Estoy invirtiendo un poco de pensamiento en estos temas, porque a miles de personas están usando los datos y espero que muchos se va a utilizar mi código para la preparación de los datos y facilitar algunos tipos de análisis. Los datos del Estudio Longitudinal de Salud Adolescente, se divide en múltiples conjuntos de datos. Mi primer paso fue tomar el 227 variables en el más comúnmente utilizado conjunto de datos, recode, darles nombres más significativos. Original de los nombres de las variables son cosas como "ayuda", "s1", "s2", que he cambiado el nombre de "aid2", "edad", y "masculino.es". Hay miles de otras variables en los otros conjuntos de datos que se pueden combinar en función de lo que el investigador son las metas.

Como me voy a cambiar el nombre de las variables, quiero hacerla lo más útil posible. Aquí están algunos de los temas que he considerado. Hasta ahora, sólo he utilizado en minúsculas y evitar el uso de cualquier guiones o guiones bajos, y sólo lo he usado períodos para un propósito muy específico. Esto tiene la virtud de la sencillez y la coherencia, y no causa problemas para la mayoría de las variables. Pero como las cosas se vuelven más complejas estoy tentado a romper mi consistencia. Tomemos, por ejemplo, mi variable "talkprobmsum", sería más fácil para que se lea como "talkProbMSum" o mejor aún "hablar.prob.m.suma", pero si voy a utilizar letras mayúsculas o períodos para separar las palabras entonces no debo hacerlo para todas las variables?

Algunas variables se registran en más de una vez, por ejemplo, la carrera de variables que se anexa .es o .ih para indicar si vienen de la escuela o en el cuestionario de hogar. Pero sin duda hay algunas repeticiones que yo no soy consciente de que sin embargo, sería mejor añadir una referencia para el conjunto de datos para el nombre de cada variable?

Necesito grupo-centro y estandarizar un montón de variables, la forma en que me has hecho que está añadiendo .zms significado de z-score por hombres y por la escuela.

Cualquier general o específico de los pensamientos o de los recursos son muy apreciados. Ver este repositorio para algunos de mi código, y la estadística descriptiva con una lista de nombres de variables. Me describió brevemente la razón por compartir este código aquí, y que fue anunciada con un poco aquí, pero estos dos últimos enlaces no son realmente relevantes para el tema de las convenciones de nomenclatura. Agregó: he editado esto a la ligera, en su mayoría sólo mover un párrafo, para tratar de evitar algunos de la confusión evidente en los comentarios. Gracias por pensamientos!

4voto

James Sutherland Puntos 2033

La mejor respuesta a esta pregunta es pato. Fundamentalmente, no importa lo que la corta de los nombres de las variables son como el tiempo que están bien documentados en un libro de códigos en algún lugar. Por desgracia, ya que la R no tiene recursos nativos para esto, las personas tienden a no molestar. (La falta es, para mí, el mayor error en la lengua como una herramienta de estadística).

Hay varios paquetes de R proporcionando de esta maquinaria, por ejemplo Hmisc que usted use, y memisc. Pero realmente la mejor opción es hacer todo esto en un paquete de R. De esa manera el procesado de datos puede ser un objeto con un correspondiente de la página de ayuda que describe lo que todo lo que se llama ahora, y puede asignar crédito donde es debido. El paquete también pueden exponer a los datos en bruto y sus funciones de procesamiento para que la gente vea lo que hizo para hacer el producto final.

También, una sugerencia: no se incluyen los datos derivados como las variables y su z-anotó versiones en la final de los datos objeto en absoluto si usted puede ayudar, proporciona las funciones para hacerlo en su lugar. Derivados de los datos es sólo el problema de la gestión de datos de punto de vista.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X