A continuación se presenta un conjunto de datos parcial que muestra las valoraciones medias de los usuarios para una serie de productos, cada uno de los cuales está disponible en una serie de versiones estándar, por ejemplo, una característica común añadida a cada producto, como añadir ventanas eléctricas a un coche.
Cada valoración media se compone de unas 17 valoraciones de usuarios, aunque algunas son más. Las valoraciones de los usuarios se han realizado en una escala de -100 a +100. N/A indica que el producto no está disponible en esa versión concreta. Tengo entendido que esta pregunta que hice anteriormente que no debería reemplazar los valores N/A por un 0 o una media.
Los datos son de tipo intervalo continuo.
Control V1 V2 V3 V4 V5 V6
Product 1 1.63 -5.19 -0.48 5.79 8.89 4.19 15.73
Product 2 0.60 0.84 4.47 N/A 0.52 21.17 N/A
Product 3 4.53 -15.20 -19.66 N/A 2.84 N/A 13.07
Product 4 7.30 17.53 20.25 17.04 N/A 4.60 9.28
Product 5 -4.05 -21.33 -14.00 -13.00 N/A -23.71 -8.71
Product 6 26.27 14.53 N/A 21.24 N/A 27.25 35.18
Product 7 -3.12 N/A N/A N/A N/A 7.88 17.38
Mean Ratings 4.74 -1.47 -1.88 7.77 4.08 6.90 13.66
Quiero comparar el efecto de las diferentes versiones estándar en comparación con el control.
Por lo tanto, creo que debería utilizar pruebas Z de dos colas para poder ver cuánto está por encima o por debajo de la media de control la media de la versión o cada uno de sus productos individuales. Este es mi razonamiento:
- La gran mayoría de las valoraciones de los usuarios que componen mis medias se distribuyen normalmente. Lo he comprobado utilizando las puntuaciones de Kolmogorov-Smirnov y Shapiro-Wilk.
- He comprobado todo lo que ha fallado en cualquiera de las pruebas con gráficos Q-Q y están aproximadamente distribuidos normalmente.
- Mi población es > 30
- Mientras que cada media individual es de alrededor de 15 valoraciones de usuarios, el total del control es de alrededor de 105 y V1 es de 105, creo que esto es correcto.
- Puedo derivar la desviación estándar para
- Las puntuaciones medias individuales
- Las puntuaciones medias combinadas de Control y V1 se muestran a continuación
Mi hipótesis
-
H0 - La versión 1 no tendrá ningún efecto sobre la valoración media de los usuarios
- La media no será significativamente diferente a la del control
-
Ha - La versión 1 tendrá un efecto en la valoración media de los usuarios
- La media será significativamente diferente a la del control
Necesito probar esta afirmación usando alfa 0.05 o +1.96 a -1.96
Prueba Z
Primero tomé las calificaciones medias de cada una de las versiones (de arriba)
Mean Ratings 4.74 -1.47 -1.88 7.77 4.08 6.90 13.66
Y utilizó el SPSS para calcular las puntuaciones Z de cada
Control = -.13054
Version 1 = -1.42611
Version 2 = -.72721
Version 3 = .50160
Version 4 = -.26823
Version 5 = .32009
Version 6 = 1.73041
Esto me indica que ninguna de las versiones comunes tuvo un efecto significativo en las valoraciones medias de los usuarios de los productos.
Mis preguntas son:
¿Son las pruebas Z adecuadas para este tipo de análisis de datos? (Desde la respuesta Sí)
Y si es así, ¿es correcto mi razonamiento y mis intentos?
Si alguien pudiera señalar algún error o problema evidente en mi método, se lo agradecería mucho
Como siempre, cualquier ayuda es muy apreciada.
EDITAR:
Sospecho que uno de los problemas es que estoy incluyendo mi media de control en el cálculo de la prueba Z, lo que está sesgando los resultados. Pero no estoy seguro de cómo realizar dicha prueba cuando la comparo con una media conocida...
Editar 2:
En respuesta a la respuesta de David Cs soy capaz de calcular la varianza para cada calificación media, por ejemplo, el Control = 105,999
Descriptive Statistics
N Minimum Maximum Mean Std. Deviation Variance
Control 7 -4.05 26.27 4.7371 10.29558 105.999
Valid N (listwise) 7