1 votos

¿Cómo encontrar la correlación entre el número de productos y el número de unidades en un pedido?

Estadísticas del programador novato aquí. Tengo que predecir el tiempo que tardará en procesarse un pedido en función del tamaño del pedido. Los datos de ejemplo son los siguientes

introducir descripción de la imagen aquí

por ejemplo, en la última línea hubo un total de 7 productos con un total de 22 unidades y se tardaron un promedio de 100.9 minutos en procesar el pedido.

Ahora, necesito encontrar la correlación entre estos valores y descubrir una forma de predecir el tiempo necesario.

También hay un problema con los datos donde algunos valores son inesperados, ya que el personal que procesa el pedido puede pausar la operación por un tiempo, lo que hace que el tiempo necesario para procesar ese pedido sea inesperadamente largo y afecte el tiempo promedio. Creo que de alguna manera, también necesito normalizar estos datos (Supongo que "normalización" es la palabra correcta).

Tengo acceso a los datos sin procesar con el tiempo que se tarda en procesar cada pedido en caso de que algo más útil pueda ser obtenido a partir de los datos originales.

Por favor, señálame en la dirección correcta.

2voto

manku Puntos 111

Datos: He introducido tus datos ($\pm$ errores de escritura) en R.

x = c(1,2,3,3, 4,5,6,3, 10,11,12,19, 20,21,22)
y = c(20.5,25.3,29.3,26.0, 32.8,35.2,41.2,26.0, 
      46.7,68.2,62.8,81.6, 80.4,63.5,100.9)

Resúmenes de datos:

summary(x); sd(x)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  1.000   3.000   6.000   9.467  15.500  22.000 
[1] 7.633261  # SD x

summary(y); sd(y)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  20.50   27.65   41.20   49.36   65.85  100.90 
[1] 25.14068  # SD y

Preguntaste sobre encontrar la correlación $r$ entre x y y. Aquí está:

cor(x,y)
[1] 0.9464411

plot(x,y, pch=20)

aquí se describe la imagen

Procedimientos básicos de regresión: La correlación es alta y el gráfico de dispersión muestra una asociación lineal entre x y y. Por lo tanto, parece valioso hacer una regresión lineal de y sobre x. Mostraré algunos pasos iniciales para que puedas comenzar.

reg.out = lm(x ~ y)
summary(reg.out)

Call:
lm(formula = x ~ y)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.8805 -0.9149 -0.3976  0.2575  7.4701 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -4.71743    1.49574  -3.154  0.00761 ** 
y            0.28736    0.02719  10.569 9.43e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.558 on 13 degrees of freedom
Multiple R-squared:  0.8958,    Adjusted R-squared:  0.8877 
F-statistic: 111.7 on 1 and 13 DF,  p-value: 9.434e-08

Tanto la intersección como la pendiente de un modelo de regresión son significativas. Aquí hay un gráfico de la línea de regresión a través del gráfico de dispersión de datos. Así que encontrar el valor de $Y$ en la línea que corresponde a un valor de $x$ debería ayudarte a empezar con la predicción.

abline(lm(y~x), col="blue")

aquí se describe la imagen

Te recomendaría consultar un libro de estadística, apuntes de clase o una de las muchas páginas en línea que se pueden encontrar buscando en Google regresión r para interpretación y procedimientos adicionales. Quizás puedas empezar con esta página si necesitas ayuda en línea. Algunos de los enlaces 'Relacionados' en este sitio mencionados en el margen derecho junto a tu pregunta también pueden ser útiles.

En particular, deberías observar los residuos de la línea de regresión porque los puntos hacia el lado derecho del gráfico parecen variar más de la línea que los del lado izquierdo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X