5 votos

Formular una hipótesis y probarla con los datos dados

En el país A, durante el periodo de diez años $2002 - 2012$ Los jueces condenaron a los reos a la pena de muerte en 45 ocasiones. Por el contrario, el número de este tipo de penas en 2013 fue de $19$ y en $2014$ era $4$ . Un analista afirmó que el cambio evidente en la tasa de condenas no es estadísticamente significativo debido a la muestra.

Intento formular una posible hipótesis que el analista haya tenido en mente, dados SOLO estos datos, y realizar una prueba para comprobar si el resultado es estadísticamente significativo o no. Mi idea para la hipótesis era la siguiente:

\begin{align*} H_0&: \mu_{x \le 2012} = \mu_{x > 2012} \\ H_1&: \mu_{x \le 2012} < \mu_{x > 2012} \end{align*} donde $\mu_{x \le 2012}$ denota el número medio anual de condenas hasta $2012$ y $\mu_{x > 2012}$ denota el número medio anual de procesamientos de $2012$ en adelante.

Suponiendo que se trata de una hipótesis razonable, estoy pensando en calcular el estadístico de la razón de verosimilitudes y proceder a partir de ahí. Sin embargo, ese estadístico requiere que calcule la función de verosimilitud bajo la hipótesis nula y la divida por el máximo de la función de verosimilitud bajo el modelo completo. ¿Cómo voy a hacer esto, ya que no se me da nada sobre la distribución de las observaciones? Cualquier sugerencia será muy apreciada, especialmente las relativas a la corrección de la hipótesis planteada.

2voto

Chris Montanaro Puntos 169

El enfoque más sencillo que se me ocurre y que es teóricamente válido sería suponer que estas condenas son generadas por un proceso de Poisson -lo que significa que cada condena a muerte es un evento raro, independiente de otras condenas a muerte y que la distribución de probabilidad para el tiempo entre dos de estas condenas viene dada por la distribución exponencial.

Con eso, simplemente se puede estimar el $\lambda$ para los tres periodos de tiempo diferentes y calcular los intervalos de confianza para las medias de las muestras.

2002-2012 (suponiendo que se trate de un periodo de 10 años como has dicho, y no de 11):

$\widehat{\lambda} = \frac{45} {10} = 4.5$ con un intervalo de confianza del 95% de $\widehat{\lambda} ~ \pm ~ \sqrt{\widehat{\lambda}} \approx 4.5 \pm 0.67 $

2013:

$\widehat{\lambda} = \frac{19} {1} = 19$ con un intervalo de confianza del 95% de $\widehat{\lambda} ~ \pm ~ \sqrt{\widehat{\lambda}} \approx 19 \pm 4.36 $

2014:

$\widehat{\lambda} = \frac{4} {1} = 4$ con un intervalo de confianza del 95% de $\widehat{\lambda} ~ \pm ~ \sqrt{\widehat{\lambda}} = 4 \pm 2 $

(Nota: los intervalos de confianza suponen que el número de eventos es "grande" y que la distribución de probabilidad para $\widehat{\lambda}$ puede, por tanto, aproximarse con la distribución normal. Esta suposición no se mantiene muy bien para el periodo de 2014)

A continuación, puede realizar comparaciones por pares. Si desea comprobar si, por ejemplo, 2013 destaca en particular, trate 2002-2012 y 2014 como un único periodo de 11 años con 49 frases. Está claro que el número de sentencias de 2013 es excepcional.

1voto

Chris Cudmore Puntos 634

Permítanme sugerir un enfoque diferente que es más simple y se basa en menos supuestos que el enfoque de Chi Cuadrado de Heitz.

Volviendo a su conjunto de datos, usted tiene esencialmente una serie temporal de penas de muerte anuales que van de 2002 a 2014. Y, excepto en 2013, en los demás años la media es de unas 4 por año. Ahora, 2013 es muy diferente con 19 en ese año. Su hipótesis realmente debería ser si la ocurrencia de 19 en 2013 es estadísticamente significativa o no. La forma más fácil de hacerlo es utilizando la regresión lineal. Para que sea interactivo, propongo hacerlo con LINEST en Excel. Para investigar si la cifra de 2013 es estadísticamente significativa, podemos estructurar nuestra regresión lineal de dos maneras diferentes.

Ambas regresiones tendrán la misma estructura de variable dependiente. Conocemos las cifras exactas de 2012 a 2014. Y, para los años anteriores sabemos que suman 45. Por lo tanto, puedes introducir un montón de cifras anuales con un poco de variación (digamos entre 2 y 6) siempre que sumen 45.

En la primera regresión, utilizará tres regresores: 1) Intercepto; 2) una variable de Tendencia (1, 2, 3,...); y 3) una variable ficticia para 2013 (1 en 2013 y 0 en el resto de años). Dentro de esta primera regresión, verás que la variable ficticia de 2013 aparece con un valor muy alto en torno a 15. Esto tiene mucho sentido porque, con 19, es 15 unidades más alta que la media de los otros años, que está en torno a 4. Además, la misma variable ficticia de 2013 presenta una estadística t muy alta, cercana a 12, lo que significa que es muy significativa desde el punto de vista estadístico (cualquier estadística t > 3 ya es muy significativa desde el punto de vista estadístico).

En la segunda regresión, se replica la primera regresión excepto que no se utiliza una variable ficticia de 2013. En este caso, calculará los residuos de esta regresión y posteriormente los residuos estandarizados de esta regresión. A continuación, observará en qué medida un valor atípico es 2013 mirando su residuo estandarizado o valor Z. En mi caso, el residuo era - 11,8 y el residuo estandarizado era -38,3. Cualquier residuo estandarizado cuyo valor absoluto sea superior a 3 denota un valor atípico muy significativo desde el punto de vista estadístico.

Ambos métodos de regresión confirman plenamente que el año 2013 es extraordinario y está muy por encima de la norma o de la tasa de tendencia que muestran todos los demás años.

Al realizar la regresión con LINEST verá que los valores que asigne a los años 2002 a 2012 no afectan al resultado de la significación estadística de 2013. Obtendrá resultados ligeramente diferentes a los míos. Sin embargo, direccionalmente sus resultados coincidirán con los míos. De nuevo, 2013 es un año extraordinario muy significativo desde el punto de vista estadístico en comparación con los demás años de los datos.

Dado el número de puntos de datos que tiene, creo que el enfoque anterior será mucho más concluyente y sólido que el uso de un enfoque estándar de prueba de hipótesis de grupos múltiples como ANOVA o sus equivalentes no paramétricos. Esto se debe a que esos enfoques no funcionarán bien con una categoría que sólo tiene 2 puntos de datos o incluso sólo uno, dependiendo de cómo se segmenten los datos (en 2 o 3 grupos diferentes). El enfoque de la regresión lineal evita por completo este problema.

1voto

Neal Puntos 316

He ajustado un modelo de Poisson robusto a los 3 puntos de datos que tienes, ajustando por el número de años en cada uno:

. clear

. input t years y

             t      years          y
  1. 1 10 45 
  2. 2 1 19
  3. 3 1  4
  4. end

. label define period 1 "2002-2012" 2 "2013" 3 "2014"

. lab val t period

. poisson y ib1.t, exp(years) robust nolog

Poisson regression                              Number of obs     =          3
                                                Wald chi2(0)      =          .
                                                Prob > chi2       =          .
Log pseudolikelihood = -6.8525416               Pseudo R2         =     0.6208

------------------------------------------------------------------------------
             |               Robust
           y |      Coef.   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
           t |
       2013  |   1.440362   3.86e-11  3.7e+10   0.000     1.440362    1.440362
       2014  |   -.117783   2.27e-10 -5.2e+08   0.000     -.117783    -.117783
             |
       _cons |   1.504077   1.93e-16  7.8e+15   0.000     1.504077    1.504077
   ln(years) |          1  (exposure)
------------------------------------------------------------------------------

Los coeficientes de 2013 y 2014 son significativos, lo que sugiere que 2013 está por encima de la media de 2002-2012 y 2014 por debajo. Se pueden exponer para obtener el efecto multiplicativo en la línea de base.

0voto

HEITZ Puntos 164

Esta cebolla tiene varias capas.

En primer lugar, permítanme hacer de abogado del diablo y suponer que yo soy el analista y eché un vistazo rápido a estos datos. Tienes tres periodos de tiempo, 2002-2012 (45), 2013 (19) y 2014 (4). Convirtiendo a una tasa anual, el período 2002-2012 tuvo 4,09/año (45/11), así que comparando eso con las 4 penas de muerte registradas en 2014, podría concluir de entrada que, salvo en 2013, la tasa anual no ha cambiado.

Pero sigamos adelante. Hay varias maneras de atacar este problema, pero en cada una de ellas hay algunas incógnitas que hay que resolver. Sugieres ir por la ruta de la razón de verosimilitud, en cuyo caso necesitas especificar la naturaleza de las distribuciones, pero creo que este problema puede ser abordado con chi-cuadrado. De hecho, sus H0 y H1 parecen anticipar esto, ya que está reduciendo todo a una tabla de contingencia (<=2012 vs > 2012). Procederé con la suposición de que el corte de 2012 es adecuado y los llamaré los espacios de tiempo "antiguos" y "nuevos" por conveniencia.

Lo que tendría que hacer a continuación es averiguar con qué está comparando esta pena de muerte, y tendremos que hacer algunas suposiciones. Podrías comparar las tasas de los nuevos y los antiguos frente a la población del país A. Para los fines actuales, supondré en cambio que exactamente 20 personas al año son condenadas por un delito potencialmente castigados con la pena de muerte, pero reciben una pena menor (digamos, cadena perpetua o algo así).

Creemos una tabla de contingencia.

enter image description here

Tenga en cuenta que he convertido los 45 del antiguo periodo a 4,09/año, y luego los he redondeado a 4 por comodidad. Para el nuevo periodo, en realidad tienes (19+4)/2 = 11,5, que también redondeo a 12 por comodidad. A pesar de la simplificación, el punto debería estar claro.

A continuación, asumo que 20 personas/año tienen condenas con derecho a pena de muerte, que añado a la tabla de contingencia. También podrías utilizar algún otro valor, pero tendrías que corregir también las entradas anteriores. Por ejemplo, tasa per cápita, tasa por 1000 personas, etc.

Con este ejemplo de juguete, podemos calcular el chi-cuadrado, que no voy a hacer a mano, pero aquí hay un código R descuidado que lo calcula.

x1 = data.frame(status=rep('Death',4),year='old')
x2 = data.frame(status=rep('Death',12),year='new')
x3 = data.frame(status=rep('No Death',20),year='old')
x4 = data.frame(status=rep('No Death',20),year='new')
x = rbind(x1,x2,x3,x4)
chisq.test(table(x),correct = FALSE)

La prueba no alcanza la significación convencional (p<.05), lo que sugiere que se mantiene la hipótesis nula de que no hay diferencia entre los períodos "antiguo" y "nuevo". Pero, por supuesto, la mitad de la tabla de contingencia está fabricada.

¿Es razonable su hipótesis? Podría serlo, siempre que realmente no tengas acceso a los datos anuales, y te limites sólo a los de 2002-2012, 2013, 2014. Si usted hacer tienen acceso a los datos anuales, simplificar así no tiene sentido.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X