65 votos

¿Cuál es la diferencia entre predicción e inferencia?

Estoy leyendo " Introducción al aprendizaje estadístico " . En el capítulo 2, discuten la razón para estimar una función $f$ .

2.1.1 Por qué estimar $f$ ?

Hay dos razones principales por las que podemos querer estimar f : predicción y inferencia . Hablamos de cada uno de ellos por separado.

Lo he leído varias veces, pero sigo sin tener clara la diferencia entre predicción e inferencia. ¿Podría alguien dar un ejemplo (práctico) de las diferencias?

4voto

Mohammed Nafie Puntos 23

Dado un conjunto de datos de $n=100$ observaciones, $k=50$ variables independientes $x_i$ y una variable dependiente $y$ La inferencia responde a preguntas como:

  1. ¿Qué subconjunto o combinación de los $k$ las variables independientes afectan $y$ ?
  2. Si pudiera aumentar el valor de $x_1$ en un 10%, ¿cuánto costaría $y$ ¿aumentar? (por ejemplo $\frac{\partial y}{\partial x_1}$ )

Ambas preguntas se refieren a los parámetros del "modelo verdadero" que generó los datos.


La predicción responde a una pregunta mucho más sencilla:

  1. Si fijamos las variables independientes $x_i$ a algunos valores específicos, ¿cuál es mi mejor estimación para $y$ ?

Esta pregunta no pregunta nada sobre los parámetros del modelo verdadero. Tampoco requiere la existencia de un "modelo verdadero". La predicción implica simplemente un "plug-and-chug" para generar un valor $\hat{y}$ que está idealmente cerca de $y$ .

3voto

Nixit Patel Puntos 34

Imagina que eres un médico en una unidad de cuidados intensivos. Tienes un paciente con una fuerte fiebre y un número determinado de células sanguíneas y un peso corporal determinado y cien datos diferentes y quieres predecir si va a sobrevivir. Si es así, va a ocultar esa historia sobre su otro hijo a su esposa, si no, es importante que lo revele, mientras pueda.

El médico puede hacer esta predicción basándose en los datos de los antiguos pacientes que tuvo en su unidad. Basándose en sus conocimientos de software, puede predecir utilizando una regresión lineal generalizada (glm) o mediante una red neuronal (nn).

1. Modelo lineal generalizado

Hay demasiados parámetros correlacionados para el glm, por lo que para llegar a un resultado, el médico tendrá que hacer suposiciones (linealidad, etc.) y tomar decisiones sobre qué parámetros pueden influir. El glm le recompensará con una prueba t de significación para cada uno de sus parámetros, por lo que podría reunir pruebas sólidas de que el sexo y la fiebre tienen una influencia significativa, pero el peso corporal no necesariamente.

2. Red neuronal

La red neuronal se tragará y digerirá toda la información que haya en la muestra de antiguos pacientes. No le importará si los predictores están correlacionados y no revelará mucha información sobre si la influencia del peso corporal parece ser importante sólo en la muestra en cuestión o en general (al menos no al nivel de experiencia que el médico tiene que ofrecer). Sólo calculará un resultado.

¿Qué es mejor?

El método que se elija depende del ángulo desde el que se mire el problema: como paciente, preferiría la red neuronal, que utiliza todos los datos disponibles para hacer la mejor conjetura sobre lo que me va a pasar, sin suposiciones fuertes y obviamente erróneas como la linealidad. Como médico, que quiere presentar unos datos en una revista, necesita valores p. La medicina es muy conservadora: van a pedir valores p. Así que el médico quiere informar de que, en tal situación, el género tiene una influencia significativa. Para el paciente, eso no importa, sólo utiliza la influencia que la muestra sugiere como más probable.

En este ejemplo, el paciente quiere predicción, el lado científico del médico quiere inferencia. En general, cuando se quiere entender un sistema, la inferencia es buena. Si tienes que tomar una decisión en la que no puedes entender el sistema, la predicción tendrá que ser suficiente.

2voto

Casimir Rönnlöf Puntos 121

Sé que ya se han publicado muchas respuestas, pero para los que no hayan leído el libro (Introducción al aprendizaje estadístico), aquí hay tres ejercicios que se encuentran en el segundo capítulo. A ver si sois capaces de resolverlos, a mí me ayudaron bastante a entender la diferencia entre inferencia y predicción.

Explique si cada escenario es un problema de clasificación o de regresión, e indique si nos interesa más la inferencia o la predicción.

  1. Recogemos un conjunto de datos sobre las 500 empresas más importantes de Estados Unidos. Para cada de cada empresa registramos los beneficios, el número de empleados, el sector y el salario del director general. salario del director general. Nos interesa saber qué factores afectan al salario del director general. salario de los directores generales.

  2. Estamos pensando en lanzar un nuevo producto y deseamos saber si será un éxito o un fracaso. Recogemos datos sobre 20 productos similares que fueron lanzados anteriormente. Para cada producto hemos registramos si fue un éxito ou fallo El precio que se cobra por el producto, el presupuesto de marketing, el precio de la competencia, y diez otras variables.

  3. Nos interesa predecir el % de cambio en el dólar estadounidense en relación con las variaciones semanales de las bolsas mundiales mundiales. De ahí que recojamos datos semanales para todo el año 2012. Para cada semana registramos el % de cambio del dólar, el % de cambio del mercado estadounidense el % de cambio en el mercado británico y el % de cambio en el mercado mercado alemán.

Si quieres las respuestas, las puedes encontrar aquí . Tenga en cuenta que el ejercicio anterior es el número 2.

1voto

pauly Puntos 932

Hay buenas investigaciones que demuestran que un fuerte predictor de si los prestatarios devolverán sus préstamos es si utilizan fieltro para proteger sus suelos de los arañazos de las patas de los muebles. Esta variable del "fieltro" será una ayuda clara para un modelo de predicción en el que el resultado sea el reembolso o el impago. Sin embargo, si los prestamistas quieren obtener una mayor influencia sobre este resultado, serán negligentes si piensan que pueden hacerlo distribuyendo el fieltro tan ampliamente como puedan.

"¿Qué probabilidad tiene este prestatario de pagar?" es un problema de predicción; "¿Cómo puedo influir en el resultado?" es un problema de inferencia causal.

0voto

Y = f(x) entonces

predicción(cuál es el valor de Y con un valor dado de x: si un valor específico de x cuál podría ser el valor de Y

inferencia (cómo cambia y con el cambio de x): cuál podría ser el efecto en Y si cambia x

Ejemplo de predicción: supongamos que y representa el salario de una persona, entonces si proporcionamos datos como los años de experiencia o el título como variables de entrada, nuestra función predice el salario del empleado.

Ejemplo de inferencia: supongamos que el coste de la vida cambia, entonces ¿cuál es el cambio en el salario?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X