36 votos

Extrapolación vs. Interpolación

¿Cuál es la diferencia entre extrapolación e interpolación, y cuál es la forma más precisa de utilizar estos términos?

Por ejemplo, he visto una declaración en un documento que utiliza la interpolación como:

"El procedimiento interpola la forma de la función estimada entre los puntos del bin"

Una frase que utiliza tanto la extrapolación como la interpolación es, por ejemplo

El paso anterior en el que extrapolamos la función interpolada mediante el método Kernel a las colas de temperatura izquierda y derecha.

¿Puede alguien proporcionar una forma clara y fácil de distinguirlos y guiar cómo utilizar estos términos correctamente con un ejemplo?

53voto

mkt Puntos 688

Para añadir una explicación visual a esto: consideremos algunos puntos que usted planea modelar.

enter image description here

Parece que podrían describirse bien con una línea recta, así que se les ajusta una regresión lineal:

enter image description here

Esta línea de regresión le permite tanto interpolar (generar valores esperados entre sus puntos de datos) como extrapolar (generar valores esperados fuera del rango de sus puntos de datos). He resaltado la extrapolación en rojo y la mayor región de interpolación en azul. Para que quede claro, incluso las pequeñas regiones entre los puntos se interpolan, pero aquí sólo resalto la más grande.

enter image description here

¿Por qué la extrapolación suele ser más preocupante? Porque normalmente se está mucho menos seguro de la forma de la relación fuera del rango de los datos. Piense en lo que podría ocurrir cuando recoja algunos puntos de datos más (círculos huecos):

enter image description here

Resulta que, después de todo, la relación no se captó bien con su relación hipotética. Las predicciones en la región extrapolada están muy lejos. Incluso si hubiera adivinado la función precisa que describe esta relación no lineal correctamente, sus datos no se extendieron sobre un rango suficiente para capturar la no linealidad bien, por lo que todavía puede haber sido bastante lejos. Tenga en cuenta que esto es un problema no sólo para la regresión lineal, sino para cualquier relación; por eso la extrapolación se considera peligrosa.

Las predicciones en la región interpolada también son incorrectas debido a la falta de no linealidad en el ajuste, pero su error de predicción es mucho menor. No hay garantía de que no se produzca una relación inesperada entre los puntos (es decir, la región de interpolación), pero en general es menos probable.


Añadiré que la extrapolación no siempre es una idea terrible: si extrapolas un poco fuera del rango de tus datos, probablemente no te equivocarás mucho (¡aunque es posible!). Los antiguos, que no tenían un buen modelo científico del mundo, no se habrían equivocado mucho si pronosticaban que el sol volvería a salir al día siguiente y al siguiente (aunque un día muy lejano, incluso esto fallará).

Y a veces, la extrapolación puede ser incluso informativa: por ejemplo, las simples extrapolaciones a corto plazo del aumento exponencial del CO $_2$ han sido razonablemente precisos en las últimas décadas. Si se tratara de un estudiante que no tuviera conocimientos científicos pero quisiera una previsión aproximada a corto plazo, esto le habría dado resultados bastante razonables. Pero cuanto más te alejes de los datos que extrapolas, más probable es que tu predicción falle, y que falle de forma desastrosa, como se describe muy bien en este gran hilo: ¿Qué tiene de malo la extrapolación? (gracias a @J.M.isnotastatistician por recordármelo).

Edición basada en los comentarios: tanto si se interpola como si se extrapola, siempre es mejor tener algo de teoría para fundamentar las expectativas. Si la modelización sin teoría debe el riesgo de la interpolación es normalmente menos que la de la extrapolación. Dicho esto, a medida que la brecha entre los puntos de datos aumenta en magnitud, la interpolación también se vuelve más y más cargada de riesgo.

25voto

Nick Cox Puntos 22819

En esencia interpolación es una operación dentro del soporte de datos o entre puntos de datos conocidos existentes; extrapolación es más allá del soporte de datos . En otras palabras, el criterio es: ¿dónde están los valores que faltan?

Una de las razones de la distinción es que la extrapolación suele ser más difícil de hacer bien, e incluso peligrosa, estadísticamente si no en la práctica. Esto no siempre es cierto: por ejemplo, las crecidas de los ríos pueden desbordar los medios de medición de la descarga o incluso de la etapa (nivel vertical), abriendo un agujero en el registro medido. En esas circunstancias, la interpolación de la descarga o la etapa también es difícil y estar dentro del soporte de datos no ayuda mucho.

A largo plazo, el cambio cualitativo suele superar al cuantitativo. Alrededor de 1900 existía una gran preocupación por el hecho de que el crecimiento del tráfico de caballos inundara las ciudades con excrementos, en su mayoría no deseados. El exponencial de los excrementos fue superado por el motor de combustión interna y sus diferentes exponenciales.

Una tendencia es una tendencia,
Pero la pregunta es: ¿se doblará?
¿Alterará su curso
A través de alguna fuerza imprevista
¿Y llegar a un final prematuro?

-- Alexander Cairncross

Cairncross, A. 1969. Previsión económica. El Diario Económico , 79: 797-812. doi:10.2307/2229792 (cita en la página 797)

14voto

coledot Puntos 138

Versión TL;DR:

  • Inter La polación tiene lugar entre los puntos de datos existentes.
  • Extra La polación tiene lugar más allá de ellas.

Mnemónico: en terpolación => en lado.

FWIW: El prefijo inter- significa entre et extra- significa más allá de . Piensa también en inter carreteras estatales que van entre estados, o extra terrestres de más allá de nuestro planeta.

2voto

Chris Komuves Puntos 11

Ejemplo:

Estudio: Se desea ajustar una regresión lineal simple de la altura sobre la edad para niñas de 6 a 15 años. El tamaño de la muestra es de 100, la edad se calcula mediante (fecha de medición - fecha de nacimiento)/365,25.

Tras la recogida de datos, se ajusta el modelo y se obtiene la estimación del intercepto b0 y la pendiente b1. Esto significa que tenemos E(altura|edad) = b0 + b1*edad.

Cuando quiere la altura media para la edad de 13 años, encuentra que no hay ninguna niña de 13 años en su muestra de 100 niñas, una de ellas tiene 12,83 años y otra 13,24.

Ahora se introduce edad = 13 en la fórmula E(altura|edad) = b0 + b1*edad. Se llama interpolación porque la edad de 13 años está cubierta por el rango de sus datos utilizados para ajustar el modelo.

Si quieres obtener la altura media para la edad de 30 años y utilizar esa fórmula, eso se llama extrapolación, porque la edad de 30 años está fuera del rango de edad cubierto por tus datos.

Si el modelo tiene varias covariables, hay que tener cuidado porque es difícil trazar la frontera que cubren los datos.

En estadística, no abogamos por la extrapolación.

0voto

nunya Puntos 21

La extrapolación frente a la interpolación también se aplica en las redes neuronales, como se menciona en Repensar el conexionismo eliminativo y Aprendizaje profundo: Una valoración crítica :

La generalización puede considerarse de dos tipos, la interpolación entre ejemplos conocidos, y la extrapolación, que requiere ir más allá de un espacio de ejemplos de entrenamiento conocidos

El autor escribió que la extrapolación es un muro que nos impide alcanzar la inteligencia general artificial.

Supongamos que entrenamos un modelo de traducción para que traduzca muy bien del inglés al alemán con toneladas de datos, podemos estar seguros de que puede fallar una prueba con palabras inglesas permutadas al azar porque nunca ha visto esos datos en el proceso de entrenamiento y es seguro que fallará una frase nueva acuñada después de ser entrenada. Es decir, se comporta mal para las inferencias abiertas porque sólo puede ser preciso para datos similares a los del entrenamiento, pero el mundo real es abierto.

Referencias:

  1. Extrapolación en PNL
  2. Inteligencia artificial real: Comprender la extrapolación frente a la generalización

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X