11 votos

¿Está utilizando deciles encontrar correlación forma estadísticamente válida?

Tengo una muestra de 1,449 puntos de datos que son no correlacionados (r-squared 0.006).

Al analizar los datos, descubrí que al dividir los valores de la variable independiente en positivo y negativo de los grupos, parece ser que hay una diferencia significativa en el promedio de la variable dependiente para cada grupo.

La división de los puntos en 10 bandejas (deciles), utilizando los valores de la variable independiente, parece ser que hay una fuerte correlación entre el decil número y el promedio de los valores de variable dependiente (r-squared 0.27).

No sé mucho acerca de las estadísticas, así que aquí están algunas preguntas:

  1. Es esto válido enfoque estadístico?
  2. Hay un método para encontrar el mejor número de compartimientos?
  3. ¿Cuál es el término correcto para este enfoque, así que puedo Google?
  4. ¿Cuáles son algunos de introducción de recursos para aprender acerca de este enfoque?
  5. ¿Cuáles son algunos otros métodos que puede utilizar para encontrar relaciones en los datos?

Aquí es el decil de datos para la referencia: https://gist.github.com/georgeu2000/81a907dc5e3b7952bc90

EDIT: Aquí está una imagen de los datos: Industry Momentum is the independent variable, Entry Point Quality is dependent

Impulso del sector es la variable independiente, el Punto de Entrada de la Calidad es dependiente de la

12voto

jldugger Puntos 7490

Tal vez usted se beneficiará de una herramienta de exploración. La división de los datos en los deciles de la coordenada x parece haber sido realizado en ese espíritu. Con las modificaciones descritas a continuación, es perfectamente correcto enfoque.

Muchos bivariante métodos de exploración se han inventado. Una simple propuesta por John Tukey (EDA, Addison-Wesley 1977) es su "errante esquemático de la parcela." Rebanada de la coordenada x en cajas, de erigir una vertical boxplot de los correspondientes datos y la mediana de cada bin, y conectar las piezas clave de la boxplots (medianas, bisagras, etc.) en curvas (opcionalmente suavizado de ellos). Estas "huellas errantes" proporcionar una imagen de la distribución bivariante de los datos y permitir de inmediato la evaluación visual de la correlación, la linealidad de la relación, los valores atípicos, y distribuciones marginales, así como la estimación robusta y de bondad de ajuste de la evaluación de cualquier función de regresión no lineal.

A esta idea de Tukey añadido el pensamiento, en consonancia con el boxplot idea, que una buena manera para investigar la distribución de los datos es iniciar en el medio y de trabajo hacia el exterior, reducir a la mitad la cantidad de datos que se van. Es decir, las bandejas para uso no es necesario reducir en igual espacio de cuantiles, sino que debe reflejar los cuantiles en los puntos de $2^{-k}$$1-2^{-k}$$k=1, 2, 3, \ldots$.

Para mostrar la variación de la papelera de poblaciones, se puede hacer que cada boxplot del ancho proporcional a la cantidad de datos que representa.

El resultado errante esquemático de la trama sería algo como esto. De datos, desarrollado a partir de los datos de resumen, se muestran como puntos grises en el fondo. A través de este vagar esquemático de la parcela ha sido dibujado, con los cinco huellas en el color y la boxplots (incluyendo los valores atípicos se muestra) en negro y blanco.

Figure

La naturaleza de la cerca de la correlación cero se convierte en claro de inmediato: los datos de la torsión. Cerca de su centro, que van desde la $x=-4$$x=4$, tienen una fuerte correlación positiva. En los valores extremos, estos datos muestran curvilíneo relaciones que se tienden en general a ser negativo. La neta coeficiente de correlación (que pasa a ser $-0.074$ de estos datos) es cercano a cero. Sin embargo, insistir en la interpretación de que, como "casi no hay correlación" o "significativa pero baja correlación" sería el mismo error falso en la vieja broma sobre el estadístico que estaba feliz con su cabeza en el horno y los pies en la nevera, ya que, en promedio, la temperatura era cómodo. A veces un solo número no es suficiente para describir la situación.

Alternativa exploratorio de herramientas con similares propósitos incluyen robusto suaviza de la ventana de cuantiles de los datos y ajustes de los cuantiles regresiones utilizando una gama de cuantiles. Con la disponibilidad de software para realizar estos cálculos, tal vez han vuelto más fáciles de ejecutar que un errante esquemático de seguimiento, pero no gozan de la misma simplicidad de la construcción, facilidad de interpretación, y una amplia aplicabilidad.


El siguiente R código produce la figura y pueden ser aplicadas a los datos originales con poco o ningún cambio. (Ignore las advertencias producido por bplt (llamados por bxp): se queja cuando no tiene valores atípicos para dibujar.)

#
# Data
#
set.seed(17)
n <- 1449
x <- sort(rnorm(n, 0, 4))
s <- spline(quantile(x, seq(0,1,1/10)), c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6),
            xout=x, method="natural")
#plot(s, type="l")
e <- rnorm(length(x), sd=1)
y <- s$y + e # ($ interferes with MathJax processing on SE)
#
# Calculations
#
q <- 2^(-(2:floor(log(n/10, 2))))
q <- c(rev(q), 1/2, 1-q)
n.bins <- length(q)+1
bins <- cut(x, quantile(x, probs = c(0,q,1)))
x.binmed <- by(x, bins, median)
x.bincount <- by(x, bins, length)
x.bincount.max <- max(x.bincount)
x.delta <- diff(range(x))
cor(x,y)
#
# Plot
#
par(mfrow=c(1,1))
b <- boxplot(y ~ bins, varwidth=TRUE, plot=FALSE)
plot(x,y, pch=19, col="#00000010", 
     main="Wandering schematic plot", xlab="X", ylab="Y")
for (i in 1:n.bins) {
  invisible(bxp(list(stats=b$stats[,i, drop=FALSE],
                         n=b$n[i],
                     conf=b$conf[,i, drop=FALSE],
                         out=b$out[b$group==i],
                         group=1,
                         names=b$names[i]), add=TRUE, 
                boxwex=2*x.delta*x.bincount[i]/x.bincount.max/n.bins, 
                at=x.binmed[i]))
}

colors <- hsv(seq(2/6, 1, 1/6), 3/4, 5/6)
temp <- sapply(1:5, function(i) lines(spline(x.binmed, b$stats[i,], 
                                             method="natural"), col=colors[i], lwd=2))

9voto

AdamSane Puntos 1825

0. La correlación (0.0775) es pequeño pero (estadísticamente) significativamente diferente de 0. Es decir, parece que realmente hay correlación es muy pequeña/débil (equivalentemente, hay un montón de ruido en torno a la relación).

1. ¿Qué promedio dentro de los contenedores que hace es reducir la variación en los datos de ($\sigma/\sqrt{n}$ efecto para el error estándar de la media), lo que significa que usted inflar artificialmente la débil correlación. Ver también de este (un poco) relacionados con el tema.

2. Seguro, menos las papeleras de los medios más datos se promediaron, reducción de ruido, pero el mayor de ellos, el "más débil" de la media se convierte en cada contenedor, ya que la media no es constante, hay un trade-off. Mientras que uno podría derivar una fórmula para optimizar la correlación bajo la suposición de linealidad y la distribución de la $x$'s, que no se tomen plenamente en cuenta el poco explotable efecto de ruido en los datos. La forma más fácil es simplemente tratar una variedad de diferentes bin límites hasta que usted consigue lo que usted desea. No olvides probar la variación de la papelera de anchos y bin-orígenes. Esa estrategia, en ocasiones, pueden resultar sorprendentemente útil con las densidades, y que tipo de ventaja ocasional puede ser transportado a través de las relaciones funcionales - tal vez permite obtener exactamente el resultado que usted espera.

3. Sí. Posiblemente iniciar con esta búsqueda, a continuación, tal vez trate de sinónimos.

4. Este es un buen lugar para comenzar; es un libro muy popular con miras a la no-estadísticos.

5. (más en serio:) te sugiero suavizado (tales como a través de locales de regresión polinomial/kernel smoothing, por ejemplo) como una manera de investigar las relaciones. Depende de lo que usted desea, exactamente, pero esto puede ser un enfoque válido cuando usted no sabe la forma de una relación, siempre y cuando se evite los datos de dragado del problema.


Hay un popular cita, cuyo autor parece ser Ronald Coase:

"Si la tortura de los datos suficientes, la naturaleza siempre va a confesar."

6voto

dan90266 Puntos 609

No creo que el agrupamiento es un enfoque científico para el problema. Ésta es la información que perder y arbitraria. Rango (ordinal; semiparamétrico), los métodos son mucho mejor y no perder información. Incluso si uno fuera a resolver en el decil binning, el método es arbitraria y no reproducibles por otros, simplemente debido a la gran cantidad de definiciones que se utilizan para los cuantiles en el caso de empates en los datos. Y como indicamos en el niza de datos de la tortura comentario anterior, Howard Wainer tiene un papel bonito que muestra cómo encontrar contenedores que pueden producir una asociación positiva, y encontrar contenedores que pueden producir una asociación negativa, del mismo conjunto de datos:

 @Article{wai06fin,
   author =          {Wainer, Howard},
   title =       {Finding what is not there through the unfortunate
    binning of results: {The} {Mendel} effect},
   journal =     {Chance},
   year =        2006,
   volume =      19,
   number =      1,
   pages =       {49-56},
   annote =      {can find bins that yield either positive or negative
    association;especially pertinent when effects are small;``With four
    parameters, I can fit an elephant; with five, I can make it wiggle its
    trunk.'' - John von Neumann}
 }

3voto

Andrew Puntos 629

La división de los datos en los deciles basa en observar la X (el"Punto de Entrada de la Calidad") parece ser una generalización de un viejo método propuesto por primera vez por Wald y más tarde por otras para situaciones en donde tanto X como y están sujetos a error. (Wald dividir los datos en dos grupos. Nair & Shrivastava y Bartlett, que se dividió en tres.) Se describe en la sección 5C de Comprensión robusta y Análisis Exploratorio de Datos, editada por Hoaglin, Mosteller y Tukey (Wiley, 1983). Sin embargo, una gran cantidad de trabajo en dicho "Error de Medición" o "Error en las Variables de los Modelos" que se ha hecho desde entonces. Los libros de texto que he mirado son los Errores de Medición: Modelos, Métodos y Aplicaciones por Juan Buonaccorsi (CRC Press, 2010) y el Error de Medida de los Modelos por Wayne Fuller (Wiley, 1987).

Su situación puede ser un poco diferente, porque su diagrama de dispersión me lleva a sospechar que ambas observaciones son variables aleatorias y no sé si cada uno de ellos contiene un error de medición. ¿Qué hacen las variables representan?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X