7 votos

¿Cuál es el papel de la ingeniería de rasgos en la inferencia estadística?

Esta puede ser una pregunta tonta. Soy un recién graduado de la universidad que está trabajando en el área de modelado predictivo y encuentro que hay un fuerte énfasis en la realización de ingeniería de características. Sin embargo, en la mayor parte de mi formación académica en estadística, casi no se menciona la ingeniería de características y similares (además de los argumentos en contra de la discretización/reparto de predictores) con el fin de construir modelos inferenciales. Me preguntaba por qué la ingeniería de rasgos desempeña un papel más importante cuando se hacen modelos predictivos en lugar de desarrollar modelos para la inferencia estadística. Entonces... ¿cuál es el papel de la ingeniería de características en la inferencia estadística? (a diferencia del papel de la ingeniería de características en el modelado predictivo)

Basado en el reciente comentario:

  • Por inferencia estadística me refiero a cualquier análisis cuyo objetivo principal sea evaluar la relación entre un predictor y una variable de respuesta.

  • Por modelización predictiva, me refiero a cualquier análisis cuyo objetivo principal sea estimar Y o predecir valores futuros. (incluye todas las técnicas de ML)

0 votos

Quizás podrías editar un poco la pregunta para explicar la distinción que haces entre predicción e inferencia.

0 votos

@aguy Gracias por la precisión. Sin embargo, yo habría dicho que la predicción siempre se refiere a eventos que aún no han ocurrido. Por el trabajo que he realizado en el campo del ML, no creo que podamos decir que el modelado predictivo incluye todas las técnicas de aprendizaje automático. La inferencia estadística es un término amplio que engloba un gran conjunto de enfoques y problemas, desde la clasificación y la agrupación hasta la prueba de hipótesis y la estimación de parámetros.

2voto

DR4GON Puntos 1

Trataré de ilustrar la razón de ser de la ingeniería de características en general, digamos que me gustaría analizar imágenes.

Cuando diseñamos características, tenemos que tener en cuenta que son una representación de los datos/imágenes originales. Ahora bien, si sé qué tipo de información es importante para la tarea que tengo que hacer, necesito que las características lo reflejen.

Por ejemplo, si quiero saber el contenido de una imagen y elijo como característica el número de píxeles de la imagen, no funcionará, obviamente. Ahora bien, si elijo utilizar la intensidad media de los píxeles en los parches, podré diferenciar entre una imagen azul y una imagen blanca. Pero tal vez quiera saber si hay un objeto presente en la imagen y esta característica será inútil. Entonces, puedo considerar los gradientes de intensidad entre los píxeles y observar sus variaciones (pero entonces, no podré decir si mi imagen es más bien azul o blanca).

No hay una característica ideal, sólo características que están diseñadas para una tarea específica y esta tarea sólo la conoce la persona que diseña todo el marco: ¡tú! Por eso es importante la ingeniería de características. Sin embargo, la investigación sobre el tema del diseño de características es enorme y para la mayoría de las tareas con las que estás trabajando, alguien ya ha diseñado características que han demostrado funcionar muy bien y puedes usarlas tal cual (o retorcerlas un poco si es necesario).

La mayoría de las funciones eficientes se basan en teorías de diversos campos matemáticos y su rango de aplicación es en cierto modo estrecho. Por el contrario, los clasificadores suelen tener una amplia gama de aplicaciones y por eso creo que a menudo se hace hincapié en ellos cuando se estudia en el ámbito académico.

0 votos

Quizás quieras releer mi pregunta. Estaba preguntando sobre el papel de la ingeniería de características en la INFERENCIA estadística en contraposición a la PREDICCIÓN, y por qué uno pone más énfasis en ella que el otro

0 votos

@aguy En primer lugar, los modelos de clasificación pueden basarse en la inferencia estadística. En segundo lugar, no creo que "la ingeniería de rasgos juegue un papel más importante a la hora de hacer modelos de predicción frente al desarrollo de modelos de inferencia estadística". Las características son una representación de unos datos, puedes verlo como una proyección de los datos en un espacio que es más conveniente para lo que necesitas hacer, sea lo que sea (predicción, clasificación, clustering,..). Entonces, el uso de algunos modelos puede tener algunas restricciones que hay que tener en cuenta al diseñar las características.

0 votos

Mi último párrafo en realidad estaba corroborando tu constatación: En clase, rara vez oímos hablar del diseño de características, pero cuando empezamos a trabajar realmente con cualquier modelo (predictivo, o de otro tipo), descubrimos que son cruciales.

1voto

Nulled Puntos 101

Como aclara este artículo de la Wiki ( https://en.wikipedia.org/wiki/Feature_engineering ), la ingeniería de características es un paso clave en el aprendizaje automático, que implica la generación y el cultivo de un conjunto de características o atributos que pueden resultar empíricamente (no necesariamente teóricamente) útiles en la predicción o clasificación de un objetivo. Andrew Ng (y otros) hacen mucho hincapié en el conocimiento experto y de dominio en el desarrollo de un conjunto de características, pero dada la multitud de transformaciones que pueden aplicarse a los datos para mejorar el ajuste del modelo, el enorme número de características que se analizan habitualmente y la naturaleza de "caja negra" de muchos de los algoritmos empleados, el conocimiento de dominio apenas parece una prioridad.

Para mí, siempre es útil señalar que la inferencia frente a la predicción y la clasificación pueden verse como dominios separados, el primero perteneciente a la estadística y el segundo al enfoque del aprendizaje automático. Obviamente, esta terminología y estos campos se solapan mucho, es decir, no son en absoluto mutuamente excluyentes. En términos generales, la inferencia estadística implica la participación de expertos, el conocimiento del dominio, la especificación cuidadosa de una hipótesis, un conjunto finito (pequeño) de atributos o características, junto con un diseño experimental para poner a prueba la hipótesis - la investigación científica clásica con el objetivo de impulsar la comprensión y el entendimiento en relación con la verdad de base. Por otro lado, la predicción y la clasificación de LD pueden o no estar orientadas a la hipótesis, pueden o no tener como objetivo la comprensión descriptiva y pueden o no tener la verdad de base como punto de referencia.

0voto

Nicole Douglas Puntos 101

Los predictores, las variables ficticias o las características son importantes en el modelado predictivo, ya que ayudan a capturar patrones genuinos en un conjunto de datos y, por lo tanto, a hacer una mejor predicción, ya que un modelo que tiene un determinado comportamiento probablemente seguirá teniendo un determinado comportamiento. Y la ingeniería de características ayuda a capturar este comportamiento.

Ahora, para la inferencia estadística basada en su definición, ya puede evaluar hasta cierto punto la relación entre el predictor y la variable de respuesta utilizando un análisis exploratorio como gráficos de dispersión, gráficos de correlación, correlogramas, gráficos estacionales, gráficos de retraso. Y además, refuerce su evaluación eliminando/añadiendo el predictor de las características y evaluando la predicción.

Por lo tanto, la ingeniería de rasgos diría que es un paso crucial en el modelado predictivo, y secundario en la extracción de inferencia estadística (ya que hay otros métodos para evaluar la relación entre las variables disponibles, buscando en los datos históricos)

-1voto

HEITZ Puntos 164

La ingeniería de características, en términos generales, hace al menos dos cosas.

En primer lugar, puede limpiar, reestructurar o transformar sus características de forma que se potencie la información útil y se minimice la información redundante o el ruido. Tal vez sepa que una categoría de personas/productos/widgets es totalmente irrelevante y la elimine.

En segundo lugar, puede crear nuevas características basadas en el conocimiento del dominio en su campo particular. En este caso, realmente se añade nueva información que no estaba allí anteriormente. En mi propio trabajo, han sido estas características de ingeniería las que proporcionan la mayor utilidad.

Esto es probablemente difícil de enseñar, pero es lamentable que su programa haya pasado por alto este paso tan importante.

0 votos

Tal vez quiera releer mi pregunta. Estaba preguntando sobre el papel de la ingeniería de características en la INFERENCIA estadística en contraposición a la PREDICCIÓN, y por qué uno pone más énfasis en ella que el otro

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X