5 votos

Los datos de la partición en dos conjuntos tales que la diferencia de su varianza es mínima

Supongamos que hay $n$ datos de los valores de $x_1<x_2<\ldots<x_{n-1}<x_n$,y he encontrado un número de partición $k$, de tal manera que $$ \left|\frac{1}{k}\sum_{i=1}^k(x_i-\hat{\mu_k})^2-\frac{1}{n-k}\sum_{j=k+1}^n(x_j-\hat{\mu}_{n-k})^2\right| $$ es mínima. Aquí $\hat{\mu}_k$ es la media de la primera $k$ valores y $\hat{\mu}_{n-k}$ es la media de los últimos $n-k$ valores.
Pero es esto óptima partición única para cualquier conjunto de condiciones mutuamente diferentes valores de datos? ¿Cómo podría yo demostrar la singularidad (o lo contrario)? Además, ¿en qué condiciones la solución sea única?

-- EDIT --1

@Glen_b ha dado una buena respuesta que me deje el aviso de que el original descripción del problema es incompleta en algún sentido. El método de partición de dos conjuntos de datos al minimizar la varianza de la diferencia es un modo heurístico para hacer de clasificación binaria, y funciona en la práctica. Así que estoy pensando en el subyacente de los aspectos teóricos del problema en particular. En la práctica, los datos son afectadas por el ruido y nunca distribuidos en algunas regular simétrica estilo. Ahora si puedo asumir que los datos son generados por una mezcla de las dos de la distribución Gaussiana con la igualdad de la varianza, es posible demostrar que el método mencionado anteriormente genera un resultado significativo?

2voto

AdamSane Puntos 1825

Bien, siempre he entendido la intención de "mutuamente diferentes" correctamente, contraejemplos son triviales para construir, por lo que las respuestas a las dos primeras preguntas son:

  1. No.

  2. La prueba de la no unicidad puede proceder por dar un contraejemplo a la singularidad.

    Considere la posibilidad de $x$ consta de los números $\{1, 2, 3, 4, 5, 6, 7, 8, 9\}$; el mínimo se produce dos veces.

    De hecho, uno no necesita invocar la simetría como esta; otros contraejemplos puede ser fácilmente construido.

    Uno puede construir casos - mediante la resolución de una ecuación cuadrática - donde agregar una observación en la posición correcta en el extremo derecho de los datos de las hojas de la varianza no cambia; haciendo un ejercicio similar para las dos muestras, a continuación, darle la vuelta a la segunda muestra que el máximo de la primera da un ejemplo donde incluidos o no incluidos en el pivote de la observación, ya sea en la submuestra de las hojas tanto en la submuestra de varianzas inalterada.

    por ejemplo, considere el $\{ 1,2 \}$ vs $\{1,2,x\}$; si queremos que el ($s^2_n$) de las varianzas de los dos conjuntos de datos a ser igual podemos escribir $x$ como la solución de una ecuación cuadrática, y obtener un $x=\frac{3}{2}+\sqrt{\frac{3}{8}}\approx 2.112372$. En ambos casos la variación es $0.25$.

    Podemos agregar un cuarto de observación de manera similar, y mediante el uso de un argumento similar al "pivote" de arriba, la construcción de una muestra de datos, tales como esta:

    1.000000 2.000000 2.112372 2.281474 2.393847 3.393847
    

    lo que puede dividir con $k=2,3$ o $4$, y en cada caso el rendimiento de la varianza de la diferencia de $0$.

    Mientras tanto mi numérico ejemplos implican la varianza de las diferencias de $0$, es posible configurar otras no única de la varianza de las diferencias de $0$.

No tengo una buena respuesta a la tercera pregunta (al menos no por ahora), pero me imagino que al menos el post relativamente parte obvia para que otros lectores a comprender que la última pregunta es la que se concentran, ya que el resto es sencillo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X