Sé que la no paramétrica se basa en la mediana en lugar de la media
Casi ninguna prueba no paramétrica "se basa" realmente en las medianas en este sentido. Sólo se me ocurren un par de ellas... y la única de la que supongo que habrá oído hablar es la prueba de signos.
para comparar... algo.
Si se basaran en medianas, presumiblemente sería para comparar medianas. Pero, a pesar de lo que intentan decirnos algunas fuentes, pruebas como la prueba de rangos con signo, la de Wilcoxon-Mann-Whitney o la de Kruskal-Wallis no son en realidad pruebas de medianas; si hacemos algunas suposiciones adicionales, podemos considerar que la de Wilcoxon-Mann-Whitney y la de Kruskal-Wallis son pruebas de medianas, pero con las mismas suposiciones (siempre que existan las medias distribucionales) también podríamos considerarlas pruebas de medias.
La estimación real de la ubicación pertinente para la prueba de rango con signo es la mediana de las medias por pares dentro de la muestra (sobre $\frac12 n(n+1)$ pares, incluidos los autopares), la de Wilcoxon-Mann-Whitney es la mediana de las diferencias por pares entre las muestras.
También creo que se basa en los "grados de libertad" en lugar de la desviación típica. Corrígeme si me equivoco.
La mayoría de las pruebas no paramétricas no tienen "grados de libertad" en el sentido específico que tienen la prueba ji-cuadrado o la prueba t de la prueba F (cada una de las cuales tiene que ver con el número de grados de libertad en una estimación de la varianza), aunque la distribución de muchos cambia con el tamaño de la muestra y se podría considerar algo parecido a los grados de libertad en el sentido de que las tablas cambian con el tamaño de la muestra. Por supuesto, las muestras conservan sus propiedades y tienen n grados de libertad en ese sentido, pero los grados de libertad en la distribución de un estadístico de prueba no suelen preocuparnos. Puede ocurrir que tenga algo más parecido a grados de libertad; por ejemplo, se podría argumentar que Kruskal-Wallis tiene grados de libertad básicamente en el mismo sentido que un chi-cuadrado, pero normalmente no se considera así (por ejemplo, si s
Encontrará un buen análisis de los grados de libertad en aquí /
He investigado bastante bien, o eso he creído, tratando de entender el concepto, el funcionamiento que hay detrás, lo que significan realmente los resultados de las pruebas y/o incluso qué hacer con los resultados de las pruebas; sin embargo, nadie parece aventurarse nunca en ese terreno.
No estoy seguro de lo que quiere decir con esto.
Podría sugerir algunos libros, como el de Conover Estadística no paramétrica práctica y si puede conseguirlo, el libro de Neave y Worthington ( Pruebas sin distribución ), pero hay muchos otros - Marascuilo & McSweeney, Hollander & Wolfe, o el libro de Daniel, por ejemplo. Te sugiero que leas al menos 3 o 4 de los que te hablen mejor, preferiblemente de los que explican las cosas de la forma más diferente posible (esto significaría al menos leer un poco de quizás 6 o 7 libros para encontrar digamos 3 que te convengan).
En aras de la simplicidad vamos a seguir con la prueba U de Mann Whitney, que me he dado cuenta de que es bastante popular
Lo es, y eso es lo que me extraña de su afirmación "nadie parece aventurarse nunca en ese terreno": muchas personas que utilizan estas pruebas sí se "aventuran en el terreno" del que usted hablaba.
- y también aparentemente mal utilizado y sobreutilizado
Yo diría que las pruebas no paramétricas son generalmente infrautilizado en todo caso (incluidas las pruebas de Wilcoxon-Mann-Whitney), especialmente las pruebas de permutación/aleatorización, aunque no discuto necesariamente que se utilicen mal con frecuencia (pero también las pruebas paramétricas, incluso más).
Supongamos que realizo una prueba no paramétrica con mis datos y obtengo este resultado:
[snip...]
Conozco otros métodos, pero ¿qué hay de diferente aquí?
¿A qué otros métodos se refiere? ¿Con qué quiere que lo compare?
Edición: Más adelante mencionas la regresión; asumo entonces que estás familiarizado con una prueba t de dos muestras (ya que en realidad es un caso especial de regresión).
Según los supuestos de la prueba t ordinaria de dos muestras, la hipótesis nula es que las dos poblaciones son idénticas, frente a la alternativa de que una de las distribuciones se ha desplazado. Si nos fijamos en el primero de los dos conjuntos de hipótesis para el Wilcoxon-Mann-Whitney a continuación, la cosa básica que se está probando allí es casi idéntica; es sólo que la prueba t se basa en el supuesto de que las muestras provienen de distribuciones normales idénticas (aparte de un posible cambio de ubicación). Si la hipótesis nula es cierta, y los supuestos que la acompañan son ciertos, la estadística de la prueba tiene una distribución t. Si la hipótesis alternativa es cierta, la estadística de la prueba tiene una distribución t. Si la hipótesis alternativa es cierta, la estadística de la prueba tiene una distribución t. Si la hipótesis alternativa es cierta, es más probable que el estadístico de la prueba tome valores que no parezcan coherentes con la hipótesis nula pero sí con la alternativa: nos centramos en los resultados más inusuales o extremos (los más coherentes con la alternativa), si es que se producen, concluimos que las muestras que obtuvimos no se habrían producido por azar cuando la nula era cierta (podrían hacerlo, pero la probabilidad de un resultado al menos tan consistente con la alternativa es tan baja que consideramos que la hipótesis alternativa es una mejor explicación para lo que observamos que "la hipótesis nula junto con la operación del azar").
La situación es muy similar con el Wilcoxon-Mann-Whitney, pero mide la desviación de la nula de forma algo diferente. De hecho, cuando se cumplen los supuestos de la prueba t*, es casi tan buena como la mejor prueba posible (que es la prueba t).
*(que en la práctica es nunca, aunque eso no es realmente un problema tan grave como parece)
De hecho, es posible considerar la prueba de Wilcoxon-Mann-Whitney como una "prueba t" realizada sobre los rangos de los datos, aunque entonces no tiene una distribución t; el estadístico es una función monotónica de un estadístico t de dos muestras calculado sobre los rangos de los datos, por lo que induce la misma ordenación** en el espacio muestral (es decir, una "prueba t" sobre los rangos -realizada adecuadamente- generaría los mismos valores p que un Wilcoxon-Mann-Whitney), por lo que rechaza exactamente los mismos casos.
**(estrictamente, ordenación parcial, pero dejémoslo a un lado)
[Se podría pensar que utilizar sólo los rangos es tirar por la borda mucha información, pero cuando los datos se extraen de poblaciones normales con la misma varianza, casi toda la información sobre el desplazamiento de localización está en los patrones de los rangos. Los valores reales de los datos (condicionados por sus rangos) añaden muy poca información adicional. Si las colas son más gruesas de lo normal, no pasa mucho tiempo antes de que la prueba de Wilcoxon-Mann-Whitney tenga mejor potencia, además de conservar su nivel de significación nominal, de modo que la información "extra" por encima de los rangos acaba siendo no sólo poco informativa sino, en cierto sentido, engañosa. Sin embargo, las colas pesadas casi simétricas son una situación poco frecuente; lo que se ve a menudo en la práctica es la asimetría].
Las ideas básicas son bastante similares, los valores p tienen la misma interpretación (la probabilidad de un resultado como, o más extremo, si la hipótesis nula fuera cierta) - hasta la interpretación de un cambio de ubicación, si se hacen las suposiciones necesarias (véase la discusión de las hipótesis al final de este post).
Si hiciera la misma simulación que en los gráficos anteriores para la prueba t, los gráficos serían muy parecidos: la escala de los ejes x e y sería diferente, pero el aspecto básico sería similar.
¿Deberíamos querer que el valor p fuera inferior a 0,05?
No deberías "querer" nada allí. La idea es averiguar si las muestras son más diferentes (en el sentido de la ubicación) de lo que puede explicar el azar, no "desear" un resultado concreto.
Si digo "¿Puedes ir a ver de qué color es el coche de Raj, por favor?", si quiero una valoración imparcial de él no quiero que digas "Tío, ¡de verdad, de verdad espero que sea azul! Es que tiene ser azul".
Si el nivel de significación elegido es 0,05, entonces rechazará la hipótesis nula cuando el valor p sea ≤ 0,05. Pero el hecho de no rechazar la hipótesis cuando se dispone de una muestra lo suficientemente grande como para detectar casi siempre tamaños de efecto relevantes es, como mínimo, igual de interesante, porque indica que las diferencias que existen son pequeñas.
¿Qué significa el número "mann whitley"?
La prueba Mann-Whitney estadística .
En realidad, sólo tiene sentido en comparación con la distribución de valores que puede tomar cuando la hipótesis nula es cierta (véase el diagrama anterior), y eso depende de cuál de varias definiciones particulares pueda utilizar cualquier programa concreto.
¿Tiene alguna utilidad?
Por lo general, no importa el valor exacto como tal, sino dónde se encuentra en la distribución nula (si es más o menos típico de los valores que se deberían ver cuando la hipótesis nula es cierta, o si es más extremo).
(Editar: Se pueden obtener o calcular algunas cantidades directamente informativas al realizar una prueba de este tipo - como el desplazamiento de ubicación o $P(X<Y)$ y, de hecho, se puede calcular la segunda directamente a partir de la estadística, pero ésta por sí sola no es una cifra muy informativa).
¿Estos datos de aquí sólo verifican o no verifican que una determinada fuente de datos que tengo debe o no debe utilizarse?
Esta prueba no dice nada sobre "una determinada fuente de datos de la que dispongo debe o no utilizarse".
Véase más adelante mi análisis de las dos formas de ver las hipótesis de la MMM.
Tengo bastante experiencia con la regresión y los conceptos básicos, pero siento mucha curiosidad por este material "especial" no paramétrico.
Las pruebas no paramétricas no tienen nada de especial (yo diría que las "estándar" son en muchos aspectos incluso más básicas que las pruebas paramétricas típicas), siempre y cuando se entiendan las pruebas de hipótesis.
Sin embargo, ese es probablemente un tema para otra pregunta.
Hay dos formas principales de analizar la prueba de hipótesis de Wilcoxon-Mann-Whitney.
i) Una es decir "Estoy interesado en el desplazamiento de localización - es decir, que bajo la hipótesis nula, las dos poblaciones tienen la misma distribución (continua) frente a la alternativa de que una esté "desplazada" hacia arriba o hacia abajo con respecto a la otra".
La prueba de Wilcoxon-Mann-Whitney funciona muy bien si se parte de esta hipótesis (que la alternativa es sólo un cambio de ubicación)
En este caso, la prueba de Wilcoxon-Mann-Whitney es en realidad una prueba de medianas... pero también es una prueba de medias, o de cualquier otra estadística de localización equivariante (percentiles 90, por ejemplo, o medias recortadas, o cualquier otra cosa), ya que todas se ven afectadas de la misma manera por el cambio de localización.
Lo bueno de esto es que es muy fácil de interpretar - y es fácil generar un intervalo de confianza para este cambio de ubicación.
Sin embargo, la prueba de Wilcoxon-Mann-Whitney es sensible a otros tipos de diferencias distintas de un cambio de ubicación.
ii) La otra es adoptar el enfoque totalmente general. Se puede caracterizar como una prueba de la probabilidad de que un valor aleatorio de la población 1 sea menor que un valor aleatorio de la población 2 (y, de hecho, se puede convertir el estadístico de Wilcoxon-Mann-Whitney en una estimación directa de esa probabilidad, si se quiere; la formulación de Mann&Whitney en términos de estadísticos U cuenta el número de veces que uno supera al otro en las muestras, sólo hay que escalarlo para obtener una estimación de la probabilidad); el valor nulo es que la probabilidad de la población es $\frac{1}{2}$ frente a la alternativa de que difiera de $\frac{1}{2}$ .
Sin embargo aunque puede funcionar bien en esta situación, la prueba se formula sobre el supuesto de intercambiabilidad bajo el nulo. Entre otras cosas, eso requeriría que en el caso nulo las dos distribuciones fueran iguales. Si no tenemos eso, y en su lugar estamos en una situación ligeramente diferente como la que se muestra arriba, no tendremos típicamente una prueba con nivel de significación $\alpha$ . En el caso de la foto, probablemente sería un poco más bajo.
Por lo tanto, aunque "funciona" en el sentido de que tiende a no rechazar cuando H0 es verdadera y tiende a rechazar más cuando H) es falsa, es necesario que las distribuciones sean casi idénticas bajo la nulidad o la prueba no se comportará de la forma esperada.