He realizado una encuesta en la que una de las preguntas que utiliza una rejilla para dejar que la gente expresar preferencias por diferentes características de algo, utilizando una Likert como escala para cada característica. Lo programé los valores 1-5. De las personas encuestadas otoño en dos distintos subgrupos; subgrupo había más personas en ella. Aquí una ilustración de los resultados (encuesta real había más gente y más las preguntas). Las columnas son individuales, las respuestas de la gente:
group1 = {
"feature1" : [5, 1, 4, 5, 2, 5, 5, 4, 4, 2],
"feature3" : [3, 5, 2, 3, 4, 2, 0, 2, 1, 2],
"feature2" : [3, 3, 2, 1, 2, 3, 3, 1, 2, 4],
}
group2 = {
"feature1" : [5, 4, 5, 0, 4, 3],
"feature2" : [1, 4, 1, 0, 4, 4],
"feature3" : [2, 5, 3, 4, 3, 2],
}
En algunos casos, a veces una persona no dio una calificación para una característica determinada. Esto se representa como 0 en la lista de arriba. Por ejemplo, la 4ª persona en el grupo 2 no dan respuestas de las características 1 y 2, y sólo respondió a cuentan con 3 (aquí, con una calificación de "4"). No tengo manera de saber por qué la gente ocasionalmente se hizo. (No siempre la misma persona, no siempre es el mismo pregunta.)
Pregunta: Si quiero hacer Welch la desigualdad de varianzas prueba t para la
las respuestas de los dos grupos para cada característica, ¿cómo debo tratar el elemento
nonresponses? En términos concretos, si puedo usar Python SciPy s stats.ttest_ind
y que la pasen de dos listas de valores (uno para cada una de las respuestas del grupo a un determinado
característica de la pregunta, o en otras palabras, para que una fila en los dos diccionarios de
las respuestas que se muestra arriba), a continuación, cuál de las siguientes es la corrección de enfoque?
- dejar el 0 en las listas de valores que se pasan a
stats.ttest_ind
- quitar el 0 de las listas de valores que se pasan a
stats.ttest_ind
Por un lado, puedo argumentar que la eliminación de los 0 es correcta porque no son respuestas reales-son sólo el lugar de los titulares que hemos utilizado para el código de la resultados. Por otro lado, si el 0 es eliminado, entonces parece que no cambiaría la media de la muestra para el uno o el otro grupo en la prueba de t de cálculo, debido a que hay menos respuestas que las que hay en el subgrupo.
No sé lo suficiente de estadísticas para saber si lo correcto. Alguien puede por favor explique lo que el lo que hay que hacer en esta situación?