6 votos

Heterocedasticidad en residuos vs parcela equipada

Estoy probando si el precio por onza de cerveza (variable continua, rango de valores que en su mayoría entre 0,1 y 0,5 dólares) y la presencia de la promoción, la publicidad y la pantalla (todos los binarios) tienen un efecto en el importe total de onzas de compra (variable continua). Aquí está mi residual vs equipada parcela antes de la transformación logarítmica de y:

before log transformation of y

Esta es la gráfica de residuos vs equipada parcela después de la transformación logarítmica de y:

after log transformation of y

Heterocedasticidad es muy alta (Blanco general de la t de estadísticas es alrededor de 800).

Este es el histograma de la transformada y:

enter image description here

Cualquier idea o sugerencia sobre cómo mejorar mi modelo o donde buscar errores con el fin de mejorar el problema de la heterocedasticidad son muy apreciados.

4voto

Sean Hanley Puntos 2428

Su variable de respuesta no es realmente continuo. Es de suponer que discreto (no se puede comprar .5 oz, y por otra parte, cervezas sólo algunas de onza de tamaños). Además, nadie puede comprar menos de 0 onzas (se puede ver claramente el efecto de piso en su parte superior, sin transformar--residual de la parcela). Como resultado, el uso de una regresión por MCO (que se supone normal de los residuos) es probable que sea inapropiado. Probablemente, usted debe tratar de utilizar la regresión de Poisson. De hecho, un cero-inflado de Poisson, binomial negativo, o cero-inflado binomial negativa es más probable de lo que usted va a terminar necesitando.

4voto

AdamSane Puntos 1825

No sólo es la variable aparentemente discreta muestra claramente la falta de ajuste en los extremos izquierdo y derecho

enter image description here

Discreto (flechas rojas) y la falta de ajuste (verde elipses) aparente residual de la parcela.

Usted no puede evaluar adecuadamente heterocedasticidad con un estadístico de prueba que se supone que el modelo para la media es correcto ... cuando claramente no lo es. Además, el hecho de que el t-valor es grande no es sorprendente, ya que el tamaño de la muestra es enorme. [Un gran t-estadístico no está diciendo que "la heterocedasticidad es dramática", es decir "el tamaño de la muestra es grande, por lo que el error estándar es pequeña". El impacto en su inferencia se mide más por algo como el numerador de la $t$.

No puede ser hetero en la trama, pero no es terriblemente grave; hay temas más importantes a tratar en primer lugar.

Te sugiero que considerar una gamma glm lugar de montaje de los registros con un modelo lineal (suponiendo que no hay ninguna exacto de ceros). Tomar registros tiende a hacer que el discreto en el extremo inferior tal vez "telar más grande" de lo que se haría con un modelo en la escala original.

A continuación, usted debe trabajar en la falta de ajuste de problema, y luego evaluar el grado de la hetero problema, pero no dependen de una prueba estadística para evaluar el tamaño/la importancia de la misma.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X