4 votos

Criterios mínimos para los conjuntos de datos utilizados con TraMineR

He publicado esta a la TraMineR de la lista de usuarios y se sugirió que sería conveniente publicar aquí también.

Cualquier sugerencia en cuanto a cómo determinar el mínimo tamaño del conjunto de datos y missingness características a las que TraMineR puede ser aplicado de forma sensata sería de gran ayuda. Busqué información en la documentación, pero no vio nada que pudiera utilizar como un método heurístico.

Estoy usando TraMineR a analizar los 5 años de IMC observaciones, codificado como un cuatro de nivel ordinal de la variable categórica para 5046 niños de la escuela primaria (grados K-5). Sólo 414 de estos tienen 5 observaciones ( ~ 56% de los K, los alumnos de 1 medido en el tiempo 1 que podría tener se había medido en años de 1 a 5). Aquí se tienen dos, si no está bien-dijo, preguntas:

  1. Es legítimo que se centran sólo en casos completos ya que solo tengo 5 puntos de datos y la gran acumulación de deserción natural? Las pruebas de los casos completos en contra de todos los casos revela que no hay diferencias sustantivas en los valores de los predictores. El análisis de casos completos son de carácter informativo, mientras que incluyendo todos los casos, independientemente de la imputación elección, sólo hace que las cosas ruidosas. Traté de admitir sólo las secuencias de 4 o 5, pero los resultados fueron todavía hace ruido.

  2. Es de cinco demasiado corta un objeto de secuencia para el uso con TraMineR, dada la imputación patrones requeridos por el pleno del conjunto de datos, independientemente de si están previstas missingness o MAR?

  3. A continuación es el número de casos con de 1 a 5 observaciones.

          1    2    3   4   5
          1846 1287 869 630 414
    

TraMineR es una gran herramienta. Quiero asegurarme de que estoy usando de manera apropiada.

3voto

Thomas Bartelmess Puntos 151

Hay dos aspectos en los que se pregunta, a saber

  1. ¿Cuál es el mínimo tamaño del conjunto de datos para un razonable análisis de la secuencia?
  2. ¿Cuál es el máximo número (o proporción) de los elementos desconocidos que podemos admitir en cada secuencia?

Y la respuesta depende en gran medida de lo que quieres hacer.

Primero vamos a discutir el tamaño del conjunto de datos.

El tamaño de la categórica secuencia de conjuntos de datos incluye tres dimensiones, a saber:

  • el número de $n$ de las secuencias
  • secuencia de longitudes $\ell$
  • el tamaño de la $a$ del alfabeto

TraMineR es básicamente una herramienta de exploración y, como tal, es útil tan pronto como se puede ayudar a descubrir o destacando no trivial de las características de las secuencias observadas.

Longitudinal características (número de transiciones, la distribución longitudinal longitudinal, la entropía, el índice de complejidad, turbulencia, ...) tienen sentido para $n=1$, pero sólo será útil para las secuencias de cierta longitud, decir $\ell=4$ o 5. Longitudinal de medidas puede tener interés limitado cuando el alfabeto contiene sólo 2 elementos.

Para la sección transversal de características (estado modal, la entropía, ...) el tamaño de las condiciones son similares a los necesarios para dar sentido a la distribución de una variable categórica. De nuevo, el interés aumenta con el tamaño de las letras del alfabeto.

Respecto a la falta de similitud basado en el análisis, el agrupamiento de secuencias no es diferente de la agrupación de cualquier otro tipo de datos. Resulta muy útil cuando se $n$ supera decir 100 o 150. Asimismo, el representante de las secuencias resultar útil cuando se $n$ supera decir 50 o 100, aunque pueden ser calculadas y sentido para los pequeños tamaños de $n$. El análisis de discrepancias es diferente. Es inferencial y se basa en la significación estadística. Puede ser difícil encontrar un grupo significativo distinción al $n$ es pequeña.

Si las secuencias son analizados con una perspectiva inferencial, entonces la pregunta es para que $n$ podemos extender las características de las secuencias observadas para el conjunto de la población. Suponiendo que el (posiblemente ponderado) de las secuencias son representativos de la población, el mínimo requerido $n$ dependerá de la variabilidad de las secuencias. La mayor variabilidad en las secuencias, el mayor de la necesaria $n$. Con TraMineR, se puede calcular (con dissvar) un pseudo varianza o pseudo desviación $s$ da la medida de disimilaridad. Para una determinada precisión $r$ (máxima diferencia podemos tolerar entre dos patrones a considerar como similares), un muy aproximada de la solución podría ser $n> 2(r/s)^2$.

Respecto al número de elementos desconocidos (valores perdidos)

Parcelas (i-parcela d-parcela, ...) puede ser útil sólo para resaltar la presencia y distribución de los elementos desconocidos en las secuencias.

Entonces, si el objetivo es el estudio de las trayectorias, las secuencias con demasiados elementos desconocidos no llevan ninguna información útil. Por otro lado, teniendo en cuenta sólo las secuencias completas podemos perder demasiados casos y vale la pena ni perder representatividad. Una solución que he adoptado a menudo es retener sólo las secuencias con un porcentaje determinado, por ejemplo 30% de los estados ausente.

Una alternativa que podría ser útil para la situación descrita en la pregunta, sería sucesivamente ejecutar un análisis por separado teniendo en cuenta solamente las secuencias de hasta de longitud 3, 4, 5, e interpretar los resultados de forma condicional para las secuencias de al menos la longitud.

2voto

gbjbaanb Puntos 31045

Depende de lo que quieras hacer con las secuencias. Puede generar el índice de parcelas y la secuencia de las estadísticas de uso de ninguna de las muestras y los datos que faltan. La agrupación para definir los grupos de trabajo así.

Quizás una pregunta más importante es ¿qué estás tratando de aprender a partir de secuencias que no se puede hacer uso de los percentiles de IMC como longitudinal de datos numéricos? Usted pierde la información al categorizar los percentiles de IMC. Yo también considera el análisis de la secuencia con mi IMC datos de los niños y se decidió en contra de análisis de datos categóricos por esta razón.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X