Bueno los nombres de las variables son:
a) corto / más fácil escribir,
b) fácil de recordar,
c) comprensible / comunicativa.
Me estoy olvidando de algo? La coherencia es algo que hay que buscar. La manera en que yo pondría es que la constante convenciones de nomenclatura contribuyen a las cualidades anteriores. Consistencia contribuye a (b) facilidad de recordar y (c) el grado de comprensión, a pesar de que otros factores son más importantes. Hay un claro equilibrio entre (a) la longitud del nombre de / en la facilidad de uso (por ejemplo, todo en minúsculas) y (c) el grado de comprensión.
Estoy invirtiendo un poco de pensamiento en estos temas, porque a miles de personas están usando los datos y espero que muchos se va a utilizar mi código para la preparación de los datos y facilitar algunos tipos de análisis. Los datos del Estudio Longitudinal de Salud Adolescente, se divide en múltiples conjuntos de datos. Mi primer paso fue tomar el 227 variables en el más comúnmente utilizado conjunto de datos, recode, darles nombres más significativos. Original de los nombres de las variables son cosas como "ayuda", "s1", "s2", que he cambiado el nombre de "aid2", "edad", y "masculino.es". Hay miles de otras variables en los otros conjuntos de datos que se pueden combinar en función de lo que el investigador son las metas.
Como me voy a cambiar el nombre de las variables, quiero hacerla lo más útil posible. Aquí están algunos de los temas que he considerado. Hasta ahora, sólo he utilizado en minúsculas y evitar el uso de cualquier guiones o guiones bajos, y sólo lo he usado períodos para un propósito muy específico. Esto tiene la virtud de la sencillez y la coherencia, y no causa problemas para la mayoría de las variables. Pero como las cosas se vuelven más complejas estoy tentado a romper mi consistencia. Tomemos, por ejemplo, mi variable "talkprobmsum", sería más fácil para que se lea como "talkProbMSum" o mejor aún "hablar.prob.m.suma", pero si voy a utilizar letras mayúsculas o períodos para separar las palabras entonces no debo hacerlo para todas las variables?
Algunas variables se registran en más de una vez, por ejemplo, la carrera de variables que se anexa .es o .ih para indicar si vienen de la escuela o en el cuestionario de hogar. Pero sin duda hay algunas repeticiones que yo no soy consciente de que sin embargo, sería mejor añadir una referencia para el conjunto de datos para el nombre de cada variable?
Necesito grupo-centro y estandarizar un montón de variables, la forma en que me has hecho que está añadiendo .zms significado de z-score por hombres y por la escuela.
Cualquier general o específico de los pensamientos o de los recursos son muy apreciados. Ver este repositorio para algunos de mi código, y la estadística descriptiva con una lista de nombres de variables. Me describió brevemente la razón por compartir este código aquí, y que fue anunciada con un poco aquí, pero estos dos últimos enlaces no son realmente relevantes para el tema de las convenciones de nomenclatura. Agregó: he editado esto a la ligera, en su mayoría sólo mover un párrafo, para tratar de evitar algunos de la confusión evidente en los comentarios. Gracias por pensamientos!