Processing math: 100%

1 votos

Prueba multivariante de dos muestras ANDERSON-DARLING

Supongamos que recibimos una lectura de muestras tomadas de un sistema de sensores con múltiples variables, que pueden asumirse como valores reales continuos.

Al cabo de unos días, recibimos otra lectura de muestras del mismo sistema.

¿Cómo podemos saber si ambos conjuntos de muestras proceden de la misma distribución o ha habido alguna diferencia?

  1. Tengo entendido que la prueba KS podría detectar la diferencia entre las dos muestras.
  2. También tengo entendido que la prueba ANDERSON-DARLING es una alternativa para esto. Según algunas fuentes, que he leído, también es aplicable a las muestras k y no es necesario conocer las distribuciones.

Pregunta: Quiero utilizar el test de ANDERSON-DARLING, por algunas razones que se enumeran aquí: http://www.jaqm.ro/issues/volume-6,issue-3/pdfs/1_engmann_cousineau.pdf

Lo que no entiendo es que tengo múltiples variables. Según tengo entendido, estas pruebas se ejecutarán contra una variable tomada de los datos anteriores, y una variable de los datos actuales y se hará la comparación. ¿Existe un enfoque multivariable para esto? O tendré que comparar ambos conjuntos de datos tomando una variable a la vez. ¿Cómo llegaré a una conclusión en ese caso?

Tx

0 votos

Ninguna de las pruebas que mencionas son adecuadas para datos binarios

0 votos

Lo siento, si ha suscitado una confusión. Los datos se clasifican con una columna separada. Podríamos llamarla columna objetivo, que tiene 0,1. Podríamos eliminar eso, y puede no participar en el proceso.

0voto

Dave Puntos 76

La extrema cantidad de empates me hace ser escéptico de todo esto, incluso si se recorren una a una las distribuciones marginales. Yo usaría algo diseñado para pruebas binarias. Si quieres ir uno por uno a través de los marginales, hay muchas buenas pruebas de proporciones; mi favorita ahora mismo es la prueba G, pero puede que tengas una que prefieras (por ejemplo, la prueba de chi-cuadrado).

Algo bueno de la prueba G es que ofrece generalizaciones algo obvias. Lo que hace la prueba G es comparar modelos de regresión logística anidados, uno de los cuales tiene la variable de grupo y el otro sólo tiene un intercepto, al igual que ANOVA compara modelos lineales anidados en los que un modelo tiene la variable de grupo y el otro sólo tiene un intercepto. La prueba G realiza entonces una prueba de razón de verosimilitud de los modelos anidados.

Se pueden hacer pruebas de razón de verosimilitud de muchos tipos diferentes de modelos anidados.

La prueba de razón de verosimilitud que tengo en mente implica regresiones probit multivariantes anidadas. El modelo simple sólo tiene un término de intercepción, mientras que el modelo más complejo tiene un término de intercepción además de la variable de grupo (igual que la prueba G o ANOVA). A continuación, se realiza una prueba de razón de verosimilitud de los modelos anidados.

0 votos

Lo siento, si ha suscitado una confusión. Los datos se clasifican con una columna separada. Podríamos llamarla columna objetivo, que tiene 0,1. Podríamos eliminar eso, y puede no participar en el proceso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X