18 votos

¿La regresión logística es una prueba no paramétrica?

Recientemente recibí la siguiente pregunta por correo electrónico. Publicaré una respuesta más abajo, pero me interesaba saber lo que pensaban los demás.

¿Llamarías a la regresión logística una prueba no paramétrica? Mi entendimiento es que simplemente etiquetando una prueba no paramétrica porque sus datos no son normalmente distribuido, es insuficiente. Tiene más que ver con la falta de Supuestos. La regresión logística tiene supuestos.

7 votos

(+1) Para que conste, y como contrapunto a las afirmaciones de la pregunta, no conozco ninguna referencia fiable que defina (o incluso caracterice) los métodos no paramétricos como "carentes de supuestos". Todo los procedimientos estadísticos hacen suposiciones. La mayoría de los procedimientos no paramétricos hacen realmente suposiciones cuantitativas restrictivas sobre las distribuciones de probabilidad subyacentes, pero esas suposiciones no reducen los posibles estados de cosas a un conjunto que tiene la estructura de una variedad real de dimensión finita.

0 votos

Si estamos hablando de una regresión logística lineal (lo que parece estar implícito, basándonos en la respuesta que has escrito) entonces, por supuesto, se trata de un modelo paramétrico, pero cabe destacar que si ajustas el efecto de la covariable utilizando una función suave no paramétrica, por ejemplo $$ \log \left( \frac{ P(Y_i = 1 | X_i = x) }{P(Y_i = 0 | X_i = x) } \right) = f(x) $$ entonces no hay restricciones paramétricas en la probabilidad estimada como función de $x$ . Esto no sólo es cierto para el enlace logístico; la misma lógica se aplica a cualquier función de enlace invertible.

1 votos

Hago una pregunta relacionada aquí . Estoy empezando a tener la sensación de que algunos Los casos del MLG (por ejemplo, un modelo logístico) proporcionan una prueba no paramétrica. Voy a consultar el libro de Wasserman, aunque (a menos que recuerde mal) hay cierto desacuerdo sobre algunos de los principios y conclusiones de su trabajo.

22voto

Eric Davis Puntos 1542

Larry Wasserman define un modelo paramétrico como un conjunto de distribuciones "que pueden ser parametrizadas por un número finito de parámetros". (p.87) En cambio, un modelo no paramétrico es un conjunto de distribuciones que no pueden parametrizarse mediante un número finito de parámetros.

Por lo tanto, según esta definición La regresión logística estándar es un modelo paramétrico. El modelo de regresión logística es paramétrico porque tiene un conjunto finito de parámetros. En concreto, los parámetros son los coeficientes de regresión. Estos suelen corresponder a uno para cada predictor más una constante. La regresión logística es una forma particular del modelo lineal generalizado. En concreto, consiste en utilizar una función de enlace logit para modelar datos con distribución binomial.

Curiosamente, es posible realizar una regresión logística no paramétrica (por ejemplo, Hastie, 1983). Esto podría implicar el uso de splines o alguna forma de suavización no paramétrica para modelar el efecto de los predictores.

Referencias

  • Wasserman, L. (2004). Todo de la estadística: un curso conciso de inferencia estadística. Springer Verlag.
  • Hastie, T. (1983). Non-parametric logistic regression. SLAC PUB-3160, junio. PDF

0 votos

¿Un modelo es un conjunto de distribuciones? Ahí falta algo esencial.

0 votos

¿Es habitual hacer una pregunta y responderla tú mismo?

2 votos

17voto

AdamSane Puntos 1825

Yo diría que la regresión logística no es una prueba en absoluto; sin embargo, una regresión logística puede dar lugar a ninguna prueba o a varias pruebas.

Tienes razón en que etiquetar algo como no paramétrico porque no es normal es insuficiente. Yo llamaría a la familia exponencial explícitamente paramétrica, por lo que normalmente consideraría la regresión logística (y la regresión de Poisson y la regresión Gamma y ...) como paramétrica, aunque puede haber circunstancias en las que podría aceptar un argumento de que determinadas regresiones logísticas podrían ser consideradas como no paramétricas (o al menos en un sentido vagamente ondulado, sólo cuasi "paramétricas").

Tenga cuidado con la confusión sobre los dos sentidos en los que una regresión puede llamarse no paramétrica.

Si me pongo un Theil lineal es no paramétrica en el sentido de que he dejado la distribución del error sin definir (corresponde a ajustar la pendiente de la regresión hasta que la correlación de Kendall entre los residuos y $x$ es 0) ... pero es paramétrico en el sentido de que tengo una relación totalmente especificada entre $y$ y $x$ parametrizado por los coeficientes de pendiente e intercepción.

Si por el contrario ajusto una regresión polinómica kernel (digamos una regresión lineal local), pero con errores normales, que también se denomina no paramétrico pero en este caso se trata de la parametrización de la relación entre $y$ y $x$ que es no paramétrica (al menos potencialmente infinita), no la distribución del error.

Se utilizan ambos sentidos, pero cuando se trata de una regresión, el segundo tipo se utiliza más a menudo.

Es también es posible ser no paramétrico en ambos sentidos, pero es más difícil (con datos suficientes, podría, por ejemplo, ajustar una regresión lineal ponderada localmente de Theil).

En el caso de los GLM, la segunda forma de regresión múltiple no paramétrica incluye los GAM; esa segunda forma es el sentido en el que Hastie suele operar (y bajo el que está operando en esa cita).

3voto

terryk2 Puntos 81

Una distinción útil que podría añadir un poco a las respuestas anteriores: Andrew Ng da una heurística de lo que significa ser un modelo no paramétrico en Clase 1 de la materiales del curso para el curso CS-229 de Stanford sobre aprendizaje automático.

Allí dice Ng (pp. 14-15):

La regresión lineal localmente ponderada es el primer ejemplo que vemos de un algoritmo no paramétrico algoritmo no paramétrico. El algoritmo de regresión lineal (no ponderado) que vimos antes se conoce como un algoritmo de aprendizaje paramétrico, porque tiene un número fijo y finito de parámetros (el $\theta_{i}$ '), que se ajustan a los datos. Una vez que hemos ajustado los $\theta_{i}$ y los guardamos, ya no necesitamos mantener los datos de entrenamiento para hacer futuras predicciones. En cambio, para hacer predicciones utilizando la regresión lineal ponderada localmente, necesitamos mantener todo el conjunto de entrenamiento. El término "no paramétrico" (a grandes rasgos) se refiere al hecho de que la cantidad de cosas que necesitamos conservar para representar la hipótesis $h$ crece linealmente con el tamaño del conjunto de entrenamiento.

Creo que esta es una forma útil de contrastar porque infiere la noción de complejidad directamente. Los modelos no paramétricos no son intrínsecamente menos complejos, porque pueden requerir mantener muchos más datos de entrenamiento. Sólo significa que no se está reduciendo el uso de los datos de entrenamiento al comprimirlos en un cálculo finamente parametrizado. Para la eficiencia o la imparcialidad o una serie de otras propiedades, es posible que desee parametrizar. Pero puede haber ganancias de rendimiento si puede permitirse renunciar a la parametrización y mantener muchos de los datos alrededor.

0voto

proudgeekdad Puntos 1278

Creo que la regresión logística es una técnica paramétrica.

Esto podría ser útil, de Wolfowitz (1942) [Additive Partition Functions and a Class of Statistical Hypotheses The Annals of Mathematical Statistics, 1942, 13, 247-279]:

"las funciones de distribución [nota: ¡¡¡plural!!!] de las distintas variables estocásticas que entran en sus problemas se suponen de forma funcional conocida, y las teorías de estimación y de comprobación de hipótesis son teorías de estimación y de comprobación de hipótesis sobre uno o más parámetros, de número finito, cuyo conocimiento determinaría completamente las distintas funciones de distribución implicadas. En aras de la brevedad, nos referiremos a esta situación como el caso paramétrico, y denotaremos la situación opuesta, en la que las formas funcionales de las distribuciones son desconocidas, como el caso no paramétrico.

Además, después de haber oído hablar mucho de esto, encontré esto divertido de Noether (1984) [Nonparametrics: The Early Years-Impressions and Recollections The American Statistician, 1984, 38, 173-178]:

"El término no paramétrico puede tener algún significado y sentido histórico para los estadísticos teóricos, pero sólo sirve para confundir a los estadísticos aplicados".

0voto

Ionuț G. Stan Puntos 62482

Hastie y Tibshirani definen que la regresión lineal es un enfoque paramétrico ya que asume una forma funcional lineal de f(X). Los métodos no paramétricos no asumen explícitamente la forma de f(X). Esto significa que un método no paramétrico ajustará el modelo basándose en una estimación de f, calculada a partir del modelo. La regresión logística establece que p(x) = Pr(Y=1|X=x), donde la probabilidad se calcula mediante la función logística, pero no se asume la frontera logística que separa dichas clases, lo que confirma que la RL también es no paramétrica

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X