24 votos

¿Qué se consigue exactamente con una prueba no paramétrica y qué se hace con los resultados?

Tengo la sensación de que esto puede haber sido preguntado en otro lugar, pero no realmente con el tipo de descripción básica que necesito. Sé que no paramétrica se basa en la mediana en lugar de la media para comparar ... algo. También creo que se basa en "grados de libertad" (¿?) En lugar de la desviación estándar. Corrígeme si me equivoco, sin embargo.

He investigado bastante bien, o eso creía, para intentar comprender el concepto, su funcionamiento, lo que significan realmente los resultados de las pruebas y/o qué hacer con ellos; sin embargo, nadie parece aventurarse nunca en ese terreno.

En aras de la simplicidad, vamos a ceñirnos a la prueba U de Mann-Whitney, que me he dado cuenta de que es bastante popular (y también parece que se utiliza mal y en exceso con el fin de forzar el "modelo cuadrado en un agujero circular"). Si quieres describir también las demás pruebas, no dudes en hacerlo, aunque creo que una vez que entiendo una, puedo entender las demás de forma análoga a las diversas pruebas t, etc.

Supongamos que realizo una prueba no paramétrica con mis datos y obtengo este resultado:

2 Sample Mann-Whitney - Customer Type       

Test Information        
H0: Median Difference = 0       
Ha: Median Difference != 0       

Size of Customer    Large   Small
Count                    45    55
Median                    2     2

Mann-Whitney Statistic: 2162.00 
p-value (2-sided, adjusted for ties):   0.4156  

Conozco otros métodos, pero ¿qué hay de diferente aquí? ¿Deberíamos querer que el valor p fuera inferior a 0,05? ¿Qué significa el "estadístico de Mann-Whitney"? ¿Tiene alguna utilidad? ¿Esta información aquí sólo verifica o no verifica que una fuente particular de datos que tengo debe o no debe ser utilizada?

Tengo una experiencia razonable con la regresión y los conceptos básicos, pero siento mucha curiosidad por este material "especial" no paramétrico, que sé que tendrá sus propias deficiencias.

Imagina que soy un niño de quinto curso y a ver si me lo puedes explicar.

50voto

AdamSane Puntos 1825

Sé que la no paramétrica se basa en la mediana en lugar de la media

Casi ninguna prueba no paramétrica "se basa" realmente en las medianas en este sentido. Sólo se me ocurren un par de ellas... y la única de la que supongo que habrá oído hablar es la prueba de signos.

para comparar... algo.

Si se basaran en medianas, presumiblemente sería para comparar medianas. Pero, a pesar de lo que intentan decirnos algunas fuentes, pruebas como la prueba de rangos con signo, la de Wilcoxon-Mann-Whitney o la de Kruskal-Wallis no son en realidad pruebas de medianas; si hacemos algunas suposiciones adicionales, podemos considerar que la de Wilcoxon-Mann-Whitney y la de Kruskal-Wallis son pruebas de medianas, pero con las mismas suposiciones (siempre que existan las medias distribucionales) también podríamos considerarlas pruebas de medias.

La estimación real de la ubicación pertinente para la prueba de rango con signo es la mediana de las medias por pares dentro de la muestra (sobre $\frac12 n(n+1)$ pares, incluidos los autopares), la de Wilcoxon-Mann-Whitney es la mediana de las diferencias por pares entre las muestras.

También creo que se basa en los "grados de libertad" en lugar de la desviación típica. Corrígeme si me equivoco.

La mayoría de las pruebas no paramétricas no tienen "grados de libertad" en el sentido específico que tienen la prueba ji-cuadrado o la prueba t de la prueba F (cada una de las cuales tiene que ver con el número de grados de libertad en una estimación de la varianza), aunque la distribución de muchos cambia con el tamaño de la muestra y se podría considerar algo parecido a los grados de libertad en el sentido de que las tablas cambian con el tamaño de la muestra. Por supuesto, las muestras conservan sus propiedades y tienen n grados de libertad en ese sentido, pero los grados de libertad en la distribución de un estadístico de prueba no suelen preocuparnos. Puede ocurrir que tenga algo más parecido a grados de libertad; por ejemplo, se podría argumentar que Kruskal-Wallis tiene grados de libertad básicamente en el mismo sentido que un chi-cuadrado, pero normalmente no se considera así (por ejemplo, si s

Encontrará un buen análisis de los grados de libertad en aquí /

He investigado bastante bien, o eso he creído, tratando de entender el concepto, el funcionamiento que hay detrás, lo que significan realmente los resultados de las pruebas y/o incluso qué hacer con los resultados de las pruebas; sin embargo, nadie parece aventurarse nunca en ese terreno.

No estoy seguro de lo que quiere decir con esto.

Podría sugerir algunos libros, como el de Conover Estadística no paramétrica práctica y si puede conseguirlo, el libro de Neave y Worthington ( Pruebas sin distribución ), pero hay muchos otros - Marascuilo & McSweeney, Hollander & Wolfe, o el libro de Daniel, por ejemplo. Te sugiero que leas al menos 3 o 4 de los que te hablen mejor, preferiblemente de los que explican las cosas de la forma más diferente posible (esto significaría al menos leer un poco de quizás 6 o 7 libros para encontrar digamos 3 que te convengan).

En aras de la simplicidad vamos a seguir con la prueba U de Mann Whitney, que me he dado cuenta de que es bastante popular

Lo es, y eso es lo que me extraña de su afirmación "nadie parece aventurarse nunca en ese terreno": muchas personas que utilizan estas pruebas sí se "aventuran en el terreno" del que usted hablaba.

- y también aparentemente mal utilizado y sobreutilizado

Yo diría que las pruebas no paramétricas son generalmente infrautilizado en todo caso (incluidas las pruebas de Wilcoxon-Mann-Whitney), especialmente las pruebas de permutación/aleatorización, aunque no discuto necesariamente que se utilicen mal con frecuencia (pero también las pruebas paramétricas, incluso más).

Supongamos que realizo una prueba no paramétrica con mis datos y obtengo este resultado:

[snip...]

Conozco otros métodos, pero ¿qué hay de diferente aquí?

¿A qué otros métodos se refiere? ¿Con qué quiere que lo compare?

Edición: Más adelante mencionas la regresión; asumo entonces que estás familiarizado con una prueba t de dos muestras (ya que en realidad es un caso especial de regresión).

Según los supuestos de la prueba t ordinaria de dos muestras, la hipótesis nula es que las dos poblaciones son idénticas, frente a la alternativa de que una de las distribuciones se ha desplazado. Si nos fijamos en el primero de los dos conjuntos de hipótesis para el Wilcoxon-Mann-Whitney a continuación, la cosa básica que se está probando allí es casi idéntica; es sólo que la prueba t se basa en el supuesto de que las muestras provienen de distribuciones normales idénticas (aparte de un posible cambio de ubicación). Si la hipótesis nula es cierta, y los supuestos que la acompañan son ciertos, la estadística de la prueba tiene una distribución t. Si la hipótesis alternativa es cierta, la estadística de la prueba tiene una distribución t. Si la hipótesis alternativa es cierta, la estadística de la prueba tiene una distribución t. Si la hipótesis alternativa es cierta, es más probable que el estadístico de la prueba tome valores que no parezcan coherentes con la hipótesis nula pero sí con la alternativa: nos centramos en los resultados más inusuales o extremos (los más coherentes con la alternativa), si es que se producen, concluimos que las muestras que obtuvimos no se habrían producido por azar cuando la nula era cierta (podrían hacerlo, pero la probabilidad de un resultado al menos tan consistente con la alternativa es tan baja que consideramos que la hipótesis alternativa es una mejor explicación para lo que observamos que "la hipótesis nula junto con la operación del azar").

La situación es muy similar con el Wilcoxon-Mann-Whitney, pero mide la desviación de la nula de forma algo diferente. De hecho, cuando se cumplen los supuestos de la prueba t*, es casi tan buena como la mejor prueba posible (que es la prueba t).

*(que en la práctica es nunca, aunque eso no es realmente un problema tan grave como parece)

wmw under null and alternative

De hecho, es posible considerar la prueba de Wilcoxon-Mann-Whitney como una "prueba t" realizada sobre los rangos de los datos, aunque entonces no tiene una distribución t; el estadístico es una función monotónica de un estadístico t de dos muestras calculado sobre los rangos de los datos, por lo que induce la misma ordenación** en el espacio muestral (es decir, una "prueba t" sobre los rangos -realizada adecuadamente- generaría los mismos valores p que un Wilcoxon-Mann-Whitney), por lo que rechaza exactamente los mismos casos.

**(estrictamente, ordenación parcial, pero dejémoslo a un lado)

[Se podría pensar que utilizar sólo los rangos es tirar por la borda mucha información, pero cuando los datos se extraen de poblaciones normales con la misma varianza, casi toda la información sobre el desplazamiento de localización está en los patrones de los rangos. Los valores reales de los datos (condicionados por sus rangos) añaden muy poca información adicional. Si las colas son más gruesas de lo normal, no pasa mucho tiempo antes de que la prueba de Wilcoxon-Mann-Whitney tenga mejor potencia, además de conservar su nivel de significación nominal, de modo que la información "extra" por encima de los rangos acaba siendo no sólo poco informativa sino, en cierto sentido, engañosa. Sin embargo, las colas pesadas casi simétricas son una situación poco frecuente; lo que se ve a menudo en la práctica es la asimetría].

Las ideas básicas son bastante similares, los valores p tienen la misma interpretación (la probabilidad de un resultado como, o más extremo, si la hipótesis nula fuera cierta) - hasta la interpretación de un cambio de ubicación, si se hacen las suposiciones necesarias (véase la discusión de las hipótesis al final de este post).

Si hiciera la misma simulación que en los gráficos anteriores para la prueba t, los gráficos serían muy parecidos: la escala de los ejes x e y sería diferente, pero el aspecto básico sería similar.

¿Deberíamos querer que el valor p fuera inferior a 0,05?

No deberías "querer" nada allí. La idea es averiguar si las muestras son más diferentes (en el sentido de la ubicación) de lo que puede explicar el azar, no "desear" un resultado concreto.

Si digo "¿Puedes ir a ver de qué color es el coche de Raj, por favor?", si quiero una valoración imparcial de él no quiero que digas "Tío, ¡de verdad, de verdad espero que sea azul! Es que tiene ser azul".

Si el nivel de significación elegido es 0,05, entonces rechazará la hipótesis nula cuando el valor p sea ≤ 0,05. Pero el hecho de no rechazar la hipótesis cuando se dispone de una muestra lo suficientemente grande como para detectar casi siempre tamaños de efecto relevantes es, como mínimo, igual de interesante, porque indica que las diferencias que existen son pequeñas.

¿Qué significa el número "mann whitley"?

La prueba Mann-Whitney estadística .

En realidad, sólo tiene sentido en comparación con la distribución de valores que puede tomar cuando la hipótesis nula es cierta (véase el diagrama anterior), y eso depende de cuál de varias definiciones particulares pueda utilizar cualquier programa concreto.

¿Tiene alguna utilidad?

Por lo general, no importa el valor exacto como tal, sino dónde se encuentra en la distribución nula (si es más o menos típico de los valores que se deberían ver cuando la hipótesis nula es cierta, o si es más extremo).

(Editar: Se pueden obtener o calcular algunas cantidades directamente informativas al realizar una prueba de este tipo - como el desplazamiento de ubicación o $P(X<Y)$ y, de hecho, se puede calcular la segunda directamente a partir de la estadística, pero ésta por sí sola no es una cifra muy informativa).

¿Estos datos de aquí sólo verifican o no verifican que una determinada fuente de datos que tengo debe o no debe utilizarse?

Esta prueba no dice nada sobre "una determinada fuente de datos de la que dispongo debe o no utilizarse".

Véase más adelante mi análisis de las dos formas de ver las hipótesis de la MMM.

Tengo bastante experiencia con la regresión y los conceptos básicos, pero siento mucha curiosidad por este material "especial" no paramétrico.

Las pruebas no paramétricas no tienen nada de especial (yo diría que las "estándar" son en muchos aspectos incluso más básicas que las pruebas paramétricas típicas), siempre y cuando se entiendan las pruebas de hipótesis.

Sin embargo, ese es probablemente un tema para otra pregunta.


Hay dos formas principales de analizar la prueba de hipótesis de Wilcoxon-Mann-Whitney.

i) Una es decir "Estoy interesado en el desplazamiento de localización - es decir, que bajo la hipótesis nula, las dos poblaciones tienen la misma distribución (continua) frente a la alternativa de que una esté "desplazada" hacia arriba o hacia abajo con respecto a la otra".

La prueba de Wilcoxon-Mann-Whitney funciona muy bien si se parte de esta hipótesis (que la alternativa es sólo un cambio de ubicación)

En este caso, la prueba de Wilcoxon-Mann-Whitney es en realidad una prueba de medianas... pero también es una prueba de medias, o de cualquier otra estadística de localización equivariante (percentiles 90, por ejemplo, o medias recortadas, o cualquier otra cosa), ya que todas se ven afectadas de la misma manera por el cambio de localización.

Lo bueno de esto es que es muy fácil de interpretar - y es fácil generar un intervalo de confianza para este cambio de ubicación.

location shift

Sin embargo, la prueba de Wilcoxon-Mann-Whitney es sensible a otros tipos de diferencias distintas de un cambio de ubicación.

ii) La otra es adoptar el enfoque totalmente general. Se puede caracterizar como una prueba de la probabilidad de que un valor aleatorio de la población 1 sea menor que un valor aleatorio de la población 2 (y, de hecho, se puede convertir el estadístico de Wilcoxon-Mann-Whitney en una estimación directa de esa probabilidad, si se quiere; la formulación de Mann&Whitney en términos de estadísticos U cuenta el número de veces que uno supera al otro en las muestras, sólo hay que escalarlo para obtener una estimación de la probabilidad); el valor nulo es que la probabilidad de la población es $\frac{1}{2}$ frente a la alternativa de que difiera de $\frac{1}{2}$ .

shift in P(X<Y) from 1/2

Sin embargo aunque puede funcionar bien en esta situación, la prueba se formula sobre el supuesto de intercambiabilidad bajo el nulo. Entre otras cosas, eso requeriría que en el caso nulo las dos distribuciones fueran iguales. Si no tenemos eso, y en su lugar estamos en una situación ligeramente diferente como la que se muestra arriba, no tendremos típicamente una prueba con nivel de significación $\alpha$ . En el caso de la foto, probablemente sería un poco más bajo.

Por lo tanto, aunque "funciona" en el sentido de que tiende a no rechazar cuando H0 es verdadera y tiende a rechazar más cuando H) es falsa, es necesario que las distribuciones sean casi idénticas bajo la nulidad o la prueba no se comportará de la forma esperada.

19voto

Rob Allen Puntos 486

Supongamos que usted y yo entrenamos equipos de atletismo. Nuestros atletas proceden del mismo colegio, tienen edades similares y son del mismo sexo (es decir, proceden de la misma población), pero yo afirmo haber descubierto un nuevo y revolucionario sistema de entrenamiento que hará que los miembros de mi equipo corran mucho más rápido que los tuyos. ¿Cómo puedo convencerte de que realmente funciona?

Tenemos una carrera.

Después, me siento y calculo el tiempo medio de los miembros de mi equipo y el tiempo medio de los miembros del suyo. Me proclamaré vencedor si el tiempo medio de mis atletas no sólo es más rápido que el de los tuyos, sino que además la diferencia es grande en comparación con la "dispersión", o desviación típica, de nuestros resultados.


Se trata esencialmente de un [ $t$ -prueba][1]. Suponemos que los datos proceden de distribuciones con parámetros específicos, en este caso una media y una desviación típica. La prueba estima esos parámetros y compara uno de ellos (la media). En consecuencia, se denomina paramétrico ya que estamos comparando estos parámetros.


"Pero Matt", te quejas, "esto no es justo. Nuestros equipos son bastante parecidos, pero a ti, por pura casualidad, te ha tocado el corredor más rápido del distrito. No está en la misma liga que los demás; es prácticamente un fenómeno de la naturaleza. Terminó 3 minutos antes que el siguiente corredor más rápido, lo que reduce mucho tu tiempo medio, pero el resto de los competidores están bastante igualados. Veamos, en cambio, el orden de llegada. Si tu método funciona, la mayoría de los primeros clasificados deberían ser de tu equipo, pero si no funciona, el orden de llegada debería ser bastante aleatorio. Esto no da un peso indebido a tu superestrella".


Este método es esencialmente la [Prueba U de Mann-Whitney][2] (también llamada Prueba de Suma de Rangos de Wilcoxon, Prueba de Manning-Whitney-Wilcoxon y muchas otras permutaciones). Tenga en cuenta que, a diferencia de la prueba $t$ -test, no estamos asumiendo que los datos proceden de distribuciones específicas, ni estamos calculando ningún parámetro para ellos. En su lugar, comparamos directamente los rangos relativos de los puntos de datos.

Ésa es la principal diferencia: las pruebas paramétricas modelan las cosas con distribuciones y comparan los parámetros de esas distribuciones; las pruebas no paramétricas no lo hacen y operan más directamente sobre los datos. Al igual que las pruebas paramétricas, los estadísticos de las pruebas no paramétricas también se construyen de forma que los $p$ se distribuyen uniformemente en [0,1] bajo la hipótesis nula y se agrupan hacia 0 en presencia de un efecto. Los resultados se presentarían e interpretarían como los de una prueba paramétrica.

No estoy seguro de la popularidad relativa de los métodos paramétricos y no paramétricos. Algunos métodos no paramétricos (por ejemplo, los histogramas) son de uso casi universal, mientras que otros se utilizan demasiado o muy poco. Sospecho que la prueba U de Mann-Whitney debería utilizarse más, en lugar de con menos frecuencia. Es tan eficaz como un $t$ -con datos distribuidos normalmente y, de hecho, obtiene mejores resultados que el $t$ -prueba en datos suficientemente no normales. También es bastante resistente a los valores atípicos. Además, también se puede utilizar con datos ordinales (por ejemplo, el orden de llegada en lugar de sólo el tiempo de llegada), lo que hace que sea más aplicable que una prueba $t$ -prueba.

7voto

Nick Cox Puntos 22819

Ha pedido que se le corrija si se equivoca. He aquí algunos comentarios bajo ese epígrafe para complementar las sugerencias positivas de @Peter Flom.

  • "no paramétrico se basa en la mediana en lugar de en la media": a menudo en la práctica, pero eso no es una definición. Varias pruebas no paramétricas (por ejemplo, chi-cuadrado) no tienen nada que ver con las medianas.

  • se basa en los grados de libertad en lugar de la desviación típica; eso es muy confuso. La idea de los grados de libertad no es en ningún sentido una alternativa a la desviación típica; los grados de libertad como idea se aplican a toda la estadística.

  • "debería o no debería utilizarse una fuente concreta de datos de la que dispongo": esta pregunta no tiene nada que ver con la prueba de significación que ha aplicado, que sólo trata de la diferencia entre subconjuntos de datos y está formulada en términos de diferencia entre medianas.

4voto

Zizzencs Puntos 1358

Aquí "quieres" lo mismo de un valor p que en cualquier otra prueba.

El estadístico U es el resultado de un cálculo, igual que el estadístico t, el cociente de probabilidades, el estadístico F o cualquier otro. La fórmula se puede encontrar en muchos sitios. No es muy intuitivo, pero tampoco lo son otros estadísticos de prueba hasta que uno se acostumbra a ellos (reconocemos que una t de 2 está en el rango significativo porque los vemos todo el tiempo).

El resto de la salida en su bloque de texto debe ser clara.

Para una introducción más general a las pruebas no paramétricas, me hago eco de @NickCox .... consiga un buen libro. No paramétrico significa simplemente "sin parámetros"; hay muchas pruebas no paramétricas y estadísticas para una amplia variedad de propósitos.

1voto

Avraham Puntos 1845

En respuesta a un pregunta cerrada recientemente esto también aborda lo anterior. A continuación, una cita del clásico de Bradley Pruebas estadísticas sin distribución (1968, p. 15-16) que, aunque un poco larga, es una explicación bastante clara, creo yo.

Los términos "no paramétrico" y "sin distribución" no son sinónimos. ninguno de los dos proporciona una descripción totalmente satisfactoria de la clase de estadísticas a las que pretenden referirse . A grandes rasgos, una estadística prueba no paramétrica es aquella que no formula hipótesis sobre el valor de la un parámetro de una función de densidad estadística, mientras que una una prueba sin distribución es la que no hace hipótesis sobre la forma precisa de la población muestreada. forma exacta de la población muestreada. Las definiciones no son mutuamente excluyentes, y una prueba puede ser tanto libre de distribución como paramétrica. paramétrica .Para que quede totalmente claro lo que se entiende por libre de distribución, es necesario distinguir entre tres distribuciones: (a) la de la población muestreada; (b) la de la (b) la de la característica de observación realmente utilizada por la prueba; y (c) la de la estadística de la prueba. estadística de la prueba. La distribución de la que están "libres" las pruebas es la de (a), la población muestreada. Y la libertad de la que disfrutan es suele ser relativa .. Sin embargo, los supuestos nunca son tan elaborados como para como para implicar una población cuya distribución esté completamente especificada .. razón es muy sencilla: las magnitudes no se utilizan como tales en la prueba [no paramétrica]. prueba [no paramétrica], como tampoco se utiliza ningún otro fuertemente ligado a la población. En su lugar muestra -características vinculadas de la observaciones obtenidas proporcionar la información utilizada en la prueba estadístico .Por lo tanto, aunque tanto las pruebas paramétricas como las no paramétricas requieren que la forma f a asociada a las observaciones, sea observaciones, ese conocimiento, en el caso paramétrico, no suele ser la distribución requerida de magnitudes debe por lo tanto, debe "suponerse" o inferirse sobre la base de datos aproximados o información aproximada o incompleta. En el caso no paramétrico, por el contrario, la distribución de la observación característica suele conocerse como precisamente a partir de consideraciones a priori y, por tanto, no es necesario "supuesto". Así pues, la diferencia no estriba en la exigencia, sino más bien de lo que se requiere y de la certeza de que se cumplirá el requisito.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X