Hay dos aspectos en los que se pregunta, a saber
- ¿Cuál es el mínimo tamaño del conjunto de datos para un razonable análisis de la secuencia?
- ¿Cuál es el máximo número (o proporción) de los elementos desconocidos que podemos admitir en cada secuencia?
Y la respuesta depende en gran medida de lo que quieres hacer.
Primero vamos a discutir el tamaño del conjunto de datos.
El tamaño de la categórica secuencia de conjuntos de datos incluye tres dimensiones, a saber:
- el número de $n$ de las secuencias
- secuencia de longitudes $\ell$
- el tamaño de la $a$ del alfabeto
TraMineR es básicamente una herramienta de exploración y, como tal, es útil tan pronto como se puede ayudar a descubrir o destacando no trivial de las características de las secuencias observadas.
Longitudinal características (número de transiciones, la distribución longitudinal longitudinal, la entropía, el índice de complejidad, turbulencia, ...) tienen sentido para $n=1$, pero sólo será útil para las secuencias de cierta longitud, decir $\ell=4$ o 5. Longitudinal de medidas puede tener interés limitado cuando el alfabeto contiene sólo 2 elementos.
Para la sección transversal de características (estado modal, la entropía, ...) el tamaño de las condiciones son similares a los necesarios para dar sentido a la distribución de una variable categórica. De nuevo, el interés aumenta con el tamaño de las letras del alfabeto.
Respecto a la falta de similitud basado en el análisis, el agrupamiento de secuencias no es diferente de la agrupación de cualquier otro tipo de datos. Resulta muy útil cuando se $n$ supera decir 100 o 150.
Asimismo, el representante de las secuencias resultar útil cuando se $n$ supera decir 50 o 100, aunque pueden ser calculadas y sentido para los pequeños tamaños de $n$. El análisis de discrepancias es diferente. Es inferencial y se basa en la significación estadística. Puede ser difícil encontrar un grupo significativo distinción al $n$ es pequeña.
Si las secuencias son analizados con una perspectiva inferencial, entonces la pregunta es para que $n$ podemos extender las características de las secuencias observadas para el conjunto de la población. Suponiendo que el (posiblemente ponderado) de las secuencias son representativos de la población, el mínimo requerido $n$ dependerá de la variabilidad de las secuencias. La mayor variabilidad en las secuencias, el mayor de la necesaria $n$. Con TraMineR
, se puede calcular (con dissvar
) un pseudo varianza o pseudo desviación $s$ da la medida de disimilaridad. Para una determinada precisión $r$ (máxima diferencia podemos tolerar entre dos patrones a considerar como similares), un muy aproximada de la solución podría ser $n> 2(r/s)^2$.
Respecto al número de elementos desconocidos (valores perdidos)
Parcelas (i-parcela d-parcela, ...) puede ser útil sólo para resaltar la presencia y distribución de los elementos desconocidos en las secuencias.
Entonces, si el objetivo es el estudio de las trayectorias, las secuencias con demasiados elementos desconocidos no llevan ninguna información útil. Por otro lado, teniendo en cuenta sólo las secuencias completas podemos perder demasiados casos y vale la pena ni perder representatividad. Una solución que he adoptado a menudo es retener sólo las secuencias con un porcentaje determinado, por ejemplo 30% de los estados ausente.
Una alternativa que podría ser útil para la situación descrita en la pregunta, sería sucesivamente ejecutar un análisis por separado teniendo en cuenta solamente las secuencias de hasta de longitud 3, 4, 5, e interpretar los resultados de forma condicional para las secuencias de al menos la longitud.