65 votos

¿Cuál es la diferencia entre predicción e inferencia?

Estoy leyendo " Introducción al aprendizaje estadístico " . En el capítulo 2, discuten la razón para estimar una función $f$ .

2.1.1 Por qué estimar $f$ ?

Hay dos razones principales por las que podemos querer estimar f : predicción y inferencia . Hablamos de cada uno de ellos por separado.

Lo he leído varias veces, pero sigo sin tener clara la diferencia entre predicción e inferencia. ¿Podría alguien dar un ejemplo (práctico) de las diferencias?

50voto

FBeyer Puntos 31

Inferencia: Dado un conjunto de datos se quiere inferir cómo se genera la salida en función de los datos.

Predicción: Dada una nueva medida, se quiere utilizar un conjunto de datos existente para construir un modelo que elija de forma fiable el identificador correcto entre un conjunto de resultados.


Inferencia: Quiere averiguar el efecto de la edad, la clase de pasajero y el sexo en la supervivencia al desastre del Titanic. Puedes poner una regresión logística e inferir el efecto cada característica de los pasajeros tiene en las tasas de supervivencia.

Predicción: Dada una información sobre un pasajero del Titanic, quieres elegir entre el conjunto $\{\text{lives}, \text{dies}\}$ y ser correctos en la medida de lo posible. (Véase el compromiso de sesgo-varianza para la predicción en caso de que te preguntes cómo acertar lo más a menudo posible).


La predicción no gira en torno al establecimiento de la relación más precisa entre la entrada y la salida, la predicción precisa se preocupa de colocar las nuevas observaciones en la clase correcta con la mayor frecuencia posible.

Así pues, el "ejemplo práctico" se reduce groseramente a la siguiente diferencia: Dado un conjunto de datos de pasajeros para un solo pasajero, el enfoque de inferencia te da una probabilidad de sobrevivir, el clasificador te da una opción entre vive o muere.

El ajuste de los clasificadores es un tema muy interesante y crucial, del mismo modo que lo es interpretar correctamente los valores p y los intervalos de confianza.

31voto

tassoevan Puntos 138

En la página 20 del libro, los autores ofrecen un bello ejemplo que me hizo comprender la diferencia.

Este es el párrafo del libro : Introducción al aprendizaje estadístico

" Para ejemplo en un entorno inmobiliario, se puede tratar de relacionar los valores de viviendas con datos como el índice de criminalidad, la zonificación, la distancia a un río, la calidad del aire, las escuelas, el nivel de ingresos de la comunidad, el tamaño de las casas, etc. En este caso, uno podría estar interesado en cómo las variables de entrada individuales afectan a los precios, es decir, ¿cuánto más vale una casa con vistas al río? Este es un problema de inferencia . Otra posibilidad es que uno esté interesado en predecir el valor de una vivienda dadas sus características: ¿esta casa está infravalorada o sobrevalorada? Este es un problema de predicción . "

15voto

JoanComasFdz Puntos 131

Por lo general, al realizar un análisis de datos imaginamos que existe algún tipo de "proceso generador de datos" que da lugar a los mismos, y la inferencia se refiere a aprender sobre la estructura de este proceso, mientras que la predicción significa ser capaz de pronosticar realmente los datos que provienen de él. A menudo los dos van juntos, pero no siempre.

Un ejemplo en el que ambos van de la mano sería el modelo de regresión lineal simple

$$ Y_i = \beta_0 + \beta_1 x_i + \epsilon_i . $$

La inferencia en este caso significaría estimar los parámetros del modelo $\beta_0$ y $\beta_1$ y nuestras predicciones se calcularían simplemente a partir de nuestras estimaciones de estos parámetros. Pero hay otros tipos de modelos en los que se pueden hacer predicciones sensatas, pero el modelo no conduce necesariamente a una comprensión significativa de lo que ocurre entre bastidores. Algunos ejemplos de este tipo de modelos serían los complicados métodos de conjunto que pueden dar lugar a buenas predicciones, pero que a veces son difíciles o imposibles de entender.

7voto

Aksakal Puntos 11351

Predicción utiliza una estimación f para prever el futuro. Supongamos que se observa una variable $y_t$ , tal vez sea por los ingresos de la tienda. Quieres hacer planes financieros para tu negocio, y necesitas prever los ingresos del próximo trimestre. Sospechas que los ingresos dependen de los ingresos de la población en este trimestre $x_{1,t}$ y la época del año $x_{2,t}$ . Por lo tanto, usted plantea que es una función: $$y_t=f(x_{1,t-1},x_{2,t-1})+\varepsilon_t$$

Ahora bien, si se obtienen los datos sobre la renta, por ejemplo las series de renta personal disponible del BEA, y se construye la variable de época del año, se puede estimar la función f y, a continuación, introduzca en esta función los últimos valores de la renta de la población y la época del año. De este modo se obtendrá la predicción para el siguiente trimestre de los ingresos de la tienda.

Inferencia utiliza la función estimada f estudiar el impacto de los factores en el resultado, y hacer otras cosas de esta naturaleza. En mi ejemplo anterior, podrías estar interesado en saber en qué medida la estación del año determina los ingresos de la tienda. Entonces, podrías mirar la derivada parcial $\partial f/\partial x_{2t}$ - sensibilidad a la temporada. Si f era de hecho un modelo lineal entonces sería un coeficiente de regresión de la segunda variable $\beta_2x_{2,t-1}$ .

La predicción y la inferencia pueden utilizar el mismo procedimiento de estimación para determinar f pero tienen diferentes requisitos para este procedimiento y para los datos entrantes. Un caso muy conocido es el llamado colinealidad mientras que sus variables de entrada están muy correlacionadas entre sí. Por ejemplo, usted mide el peso, la altura y el perímetro abdominal de las personas obesas. Es probable que estas variables estén fuertemente correlacionadas, aunque no necesariamente de forma lineal. Sucede que colinealidad puede ser un problema grave para inferencia sino simplemente una molestia para predicción . La razón es que cuando los predictores $x$ están correlacionados es más difícil separar el impacto del predictor del impacto de otros predictores. Para la predicción esto no importa, lo único que importa es la calidad del pronóstico.

5voto

No estás solo aquí. Después de leer las respuestas, ya no estoy confundido, no porque entienda la diferencia, sino porque entiendo que está en el ojo del que mira y es inducido por la palabra. Ahora estoy seguro de que esos dos términos son definiciones políticas más que científicas. Tomemos por ejemplo la explicación del libro, la que las universidades intentaron utilizar como buena: "¿cuánto más valdrá una casa si tiene vistas al río? Esto es un problema de inferencia". Desde mi punto de vista, esto es absolutamente un problema de predicción. Usted es propietario de una empresa de construcción civil y quiere elegir el mejor terreno para construir el próximo conjunto de casas. Tienes que elegir entre dos ubicaciones en la misma ciudad, una cerca del río y la siguiente cerca de la estación de tren. Usted quiere predecir los precios de ambos lugares. O si desea inferir . Vas a aplicar los métodos exactos de la estadística, pero nombras el proceso. :)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X