La votación puntuación paradoja

Question

La votación puntuación paradoja

Preguntado el 24 de Febrero, 2018: Cuando se hizo la pregunta
131 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estos es un sistema de votación, donde un usuario puede colocar uno de los tres tipos de votos:

$NEG, NEUT, POS$

Vamos a llamar a un voto de configuración (VC ) número total de NEG, el neut y POS votos de la izquierda por parte de los usuarios. (E. g. $N_{neg} = 5, N_{neut} = 10, N_{pos} = 1.$)

Vamos a llamar a una puntuación en el sistema de voto de un número racional definen de la siguiente manera:

$$score = \frac{(-N_{neg} + N_{pos})}{(N_{neg} + N_{neut} + N_{pos})}$$

En el ejemplo anterior, la puntuación será:

$$score = \frac{(-5 + 1)}{(5 + 10 + 1)}=-\frac{1}{4}$$

Vamos a llamar a un azar configuración de los votos el uno, donde el número de votos $N_{neg}, N_{neut}, N_{pos}$ es tomado de la distribución uniforme en $[0, +\infty)$.

El general de decisión para la VC se define como sigue:

$$decision(score) = \begin{cases} NEG, & \mbox{if } score \in [-1, -T] \\ NEUT, & \mbox{if } score \in (-T, T) \\ POS , & \mbox{if } score \in [T, 1] \end{cases}$$

P: ¿Cómo elegir la T de modo que una al azar VC cae en cada uno de los tres tipos, con igual probabilidad?

P. S. Desde el punto de vista práctico, la tarea es elegir un umbral de clases para $NEG, NEUT, POS$ están equilibradas en términos de cómo muchas VCs hacer caer en ellos.

Mi interés en esta tarea surgió porque la primera opción obvia de $T=1/3$ conduce a la sobrecargada $NEUT$ de la clase, cuando se analizan todos los VCs con el número de votos de entre 10 y 25 (ambos inclusive):

$|VC_{neg}| = 746$

$|VC_{neut}| = 1564$

$|VC_{pos}| = 746$

Preguntado el 24 de Febrero, 2018 por Denis Kulagin

Answer 1

1 Respuestas

Answer 2

3voto

David K Puntos 19172

No hay una distribución uniforme por $[0,\infty),$, pero se puede asumir una distribución uniforme a través de cualquier finito número de valores que desee.

Así que vamos a considerar distribuciones uniformes de cada una de las variables $N_\mathrm{neg},$ $N_\mathrm{neut},$ y $N_\mathrm{pos}$ sobre todos los números enteros en el intervalo de un límite inferior $L$ hasta e incluyendo un límite superior $U$, es decir, el conjunto de los números enteros $I = \{L, L+1, L+2, \ldots, U\},$ donde $0 \leq L < U.$ La distribución conjunta de las tres variables es uniforme en $I \times I \times I,$ un "cubo" de los puntos con números enteros coordenadas en el espacio tridimensional. Esta distribución conjunta se define la distribución de una variable $score$ en el intervalo de $[-1,1],$ donde $$ la puntuación = \frac{N_\mathrm{pos} - N_\mathrm{neg}} {N_\mathrm{neg} + N_\mathrm{el neut} + N_\mathrm{pos}}. $$

Para simplificar la notación para los siguientes cálculos, definir las variables $x,$ $y,$ y $z$ tal que \begin{align} N_\mathrm{pos} &= (U - L)x + L,\\ N_\mathrm{neg} &= (U - L)y + L,\\ N_\mathrm{neut} &= (U - L)z + L \end{align} y también establecer $a = \frac{3L}{U - L}.$ $$ la puntuación = \frac{x - y}{x + y + z +}. $$ Tomando $(x,y,z)$ coordenadas de un punto en un espacio tridimensional en lugar de $(N_\mathrm{neg},N_\mathrm{neut},N_\mathrm{pos}),$ podemos transformar el conjunto de la votación de las configuraciones de los puntos sobre o en el interior de la unidad de cubo de $[0,1]\times[0,1]\times[0,1].$

Ahora, considere el valor de $score$ en cada uno de los ocho vértices del cubo: \begin{array}{ccrcl} (x,y,z) & \quad &&&\llap{score} \\ \hline (0,0,0) && \dfrac{0-0}{0+0+0+a} &=& 0, \\ (1,0,0) && \dfrac{1-0}{1+0+0+a} &=& 1-\dfrac{a}{a+1}, \\ (0,1,0) && \dfrac{0-1}{0+1+0+a} &=& -\left(1-\dfrac{a}{a+1}\right), \\ (1,1,0) && \dfrac{1-1}{1+1+0+a} &=& 0, \\ (0,0,1) && \dfrac{0-0}{0+0+1+a} &=& 0, \\ (1,0,1) && \dfrac{1-0}{1+0+1+a} &=& \dfrac12\left(1-\dfrac{a}{a+2}\right),\\ (0,1,1) && \dfrac{0-1}{0+1+1+a} &=& -\dfrac12\left(1-\dfrac{a}{a+2}\right),\\ (1,1,1) && \dfrac{1-1}{1+1+1+a} &=& 0. \end{array}

De estos ocho vértices, ya podemos obtener una intuición de que el los valores de $score$ tienden a agruparse alrededor de los cero; en la mitad de los vértices, $score = 0,$ y en otros dos $-\frac12 \leq score \leq \frac12.$ Sólo hay dos vértices en que $score$ puede incluso llegar a $-1$ o $1,$ y en realidad no puede llegar a esos valores, a menos que $a = 0$ (es decir, a menos $L = 0$). Por ejemplo, con $L=10$ $U=25,$ los valores de $score$ en los ocho los vértices del cubo son $0,$ $\frac13,$ $0,$ $\frac14,$ $-\frac13,$ $0,$ $-\frac14,$ y $0.$ En este ejemplo, todos los valores de $score$ se encuentra en el rango $\left[-\frac13, \frac13\right].$

Ahora supongamos $T$ es un número positivo. Para estimar la proporción de la orden de triples $(N_\mathrm{neg},N_\mathrm{neut},N_\mathrm{pos})$ para que el la puntuación es mayor que $T,$ vamos a considerar primero el caso en el que $T < \frac12\left(1 - \frac{a}{a+2}\right).$

En este caso, si nos permiten la interpolación entre los puntos con coordenadas enteras, podemos encontrar todos los puntos en los que se $score \geq T$ en el plano de la $z = v$ para cualquier valor de $v$ tal que $0 \leq v \leq 1.$ Estos puntos se encuentran en un triángulo delimitado por las rectas cuyas ecuaciones son $(1-T)x - (1+T)y = T(v+a),$ $y = 0,$ y $x = 1.$ Los vértices del triángulo son a $(1,0,v),$ $\left(\frac{T(v+a)}{1-T},0,v\right),$ y $\left(1,\frac{1 - T - T(v+a)}{1+T},v\right).$ Es un triángulo recto con las piernas $1 - \frac{T(v+a)}{1-T}$ y $\frac{1 - T - T(v+a)}{1+T}$; su superficie es de $\frac{(1 - T - T(v+a))^2}{2(1-T^2)}.$ Por lo tanto, la parte de el cubo dentro de la cual se $score \geq T$ tiene un volumen de $$ \int_0^1 \frac{(1 - T - T(v+a))^2}{2(1-T^2)}\,dv = \frac{(3a^2 + 9a + 7)T^2 - (6a + 9)T + 3}{6(1 - T^2)}. $$

Queremos que este sea un tercio del volumen del cubo, es decir, queremos establecer $$ \frac{(3a^2 + 9a + 7)T^2 - (6a + 9)T + 3}{6(1 - T^2)} = \frac13. $$ Simplificando, \begin{align} (3a^2 + 9a + 7)T^2 - (6a + 9)T + 3 &= 2 - 2T^2,\\ (3a^2 + 9a + 9)T^2 - (6a + 9)T + 1 &= 0,\\ \end{align} y resolver esto como una ecuación de segundo grado en $T,$ $$ T = \frac{6a + 9 \pm \sqrt{(6a + 9)^2 - 4(3a^2 + 9a + 9)(1)}} {2(3a^2 + 9a + 9)} = \frac{6 a + 9 \pm \sqrt{24 a^2 + 72 + 45}}{6 a^2 + 18 + 18}. $$

The condition $T < \frac12\left(1 - \frac{a} {+2}\right)$ dicta que la única solución posible es $$T = \frac{6 a + 9 - \sqrt{24 a^2 + 72 a + 45}}{6 a^2 + 18 a + 18}.$$ Por otra parte, esta solución funciona para todos los $a \geq 0,$ y ya no sólo se puede ser un valor de $T$ tal que $\frac13$ del volumen del cubo se compone de puntos para los que $score \geq T,$ podemos descartar alguna solución para el caso $T \geq \frac12\left(1 - \frac{a}{a+2}\right).$

Por supuesto, la relación del número de posibles valores discretos de $(x,y,z)$ dentro de esta parte de el cubo para que el número total de posibles valores discretos de $(x,y,z)$ (correspondiente a la posible votación de la configuración) sólo es aproximadamente igual al volumen de la parte. La aproximación es mejor cuando el número de configuraciones es muy grande.

Por ejemplo, con $L=10,$ $U=25,$ tenemos $a = 2$ y estimamos $T = \frac{21 - \sqrt{137}}{76} \approx 0.052796.$ De acuerdo a la secuencia de comandos de python que escribí para el recuento de la votación configuraciones, esto nos da $1304$ neutral configuraciones (un poco menos de $32\%$ del total), y $1396$ cada uno de positivos y negativos de las configuraciones (un poco más de $34\%$ del total).

También tenga en cuenta que el valor de $T$ depende de los valores particulares de $L$ $U$ que son elegidos. Intervalos en los que $U$ es sólo de unos pocos por ciento mayor que $L$ va a requerir pequeños valores de $T$; intervalos en los que $L$ es una pequeña fracción de $U$ (o en $L=0$), se requieren de mayores valores de $T.$ Pero el valor más grande posible de $T$ está algo cerca $\frac{9 - \sqrt{45}}{18} \approx 0.127322.$

Mejora De La Estimación

Un poco mejor estimación del valor deseado de $T$ puede ser obtenida mediante la asignación de las coordenadas, de modo que los vértices del cubo unitario corresponden a configuraciones de ficción con $L - \frac12$ o $U + \frac12$ de cada tipo de voto. El real configuraciones entonces todo el mapa de los puntos en el interior del cubo, nunca en el cubo de la superficie.

Podemos modificar las fórmulas para $x,$ $y,$ y $z$ como sigue: \begin{align} N_\mathrm{pos} &= (U - L + 1)x + L - \frac12,\\ N_\mathrm{neg} &= (U - L + 1)y + L - \frac12,\\ N_\mathrm{neut} &= (U - L + 1)z + L - \frac12. \end{align} Nos pusimos $a = \frac{6L - 3}{2(U - L + 1)}.$, a Continuación, una vez más $$ la puntuación = \frac{x - y}{x + y + z +}. $$ El cálculo de la porción del cubo (por volumen) en el que $score \geq T$ por lo tanto las ganancias como antes; el volumen es $\frac13$ de la totalidad del cubo cuando $$ T = \frac{6 + 9 - \sqrt{24 a^2 + 72 + 45}}{6 a^2 + 18 + 18}. $$ Utilizamos el valor modificado de $a,$ sin embargo. Por ejemplo, $L=10$ $U=25$ hemos $a = \frac{6(10) - 3}{2(25 - 10 + 1)} = \frac{57}{32} = 1.78125,$ así $$ T = \frac{3360 - 32 \sqrt{7094}}{11793} \approx 0.056370. $$ Usando este valor de $T,$ mi secuencia de comandos de python encuentra $1366$ neutral configuraciones y $1365$ cada uno de positivos y negativos de las configuraciones.

Soporte De Código

He aquí una secuencia de comandos de python que devuelve una lista de los números de conteo (respectivamente) la NEG, el neut, y POS decisiones para todas las configuraciones de los votos en los que los números de cada uno de los tres votos de los tipos de rango de min_votes a max_votes inclusive, y T es el valor de $T.$

def countdecisions(min_votes, max_votes, T):
    count1 = 0
    count2 = 0
    count3 = 0
    voting_range = range(min_votes, max_votes + 1)
    for pos in voting_range:
        for neg in voting_range:
            for neut in voting_range:
                score = getscore(pos, neg, neut)
                if (score <= -T):
                    count1 += 1
                elif (score >= T):
                    count3 += 1
                else:
                    count2 += 1
    return [count1, count2, count3]

Respuesta Anterior

El siguiente fue un intento de responder a la pregunta previamente por escrito.

Matemáticamente, cuando se escribe un límite como esta, $$ \lim_{\substack{N_\mathrm{neg} \+\infty \\[0.2 ex] N_\mathrm{el neut} \+\infty \\[0.2 ex] N_\mathrm{pos} \+\infty}} f(N_\mathrm{neg}, N_\mathrm{el neut}, N_\mathrm{pos}), $$ usted está preguntando acerca de lo que sucede a $f(N_\mathrm{neg}, N_\mathrm{neut}, N_\mathrm{pos})$ cuando todos los tres de sus parámetros de crecer por encima de todos los límites, y usted está solicitando una respuesta que será válido en cualquier situación en la que los tres parámetros de crecer por encima de todos los límites.

Por ejemplo, un límite escrito de esta forma debe tener el mismo valor si los tres parámetros constantemente satisfacer $N_\mathrm{neg} > 3(N_\mathrm{neut}) > 3(N_\mathrm{pos})$ a medida que los números crecen, o si $N_\mathrm{neut} > 3(N_\mathrm{neg}) > 3(N_\mathrm{pos})$ en su lugar, tan largo como ninguno de los parámetros $N_\mathrm{pos},$ $N_\mathrm{neg},$ o $N_\mathrm{neut}$ está limitada por cualquier número constante.

Debe ser evidente con sólo mirar cómo configurar la fórmula a ver que no hay ningún valor de $T$ menos de $1$ para las que el límite está definido aún, y no digamos cuando es igual a $1.$ Por la elección de diferentes velocidades relativas en el que los parámetros crecer, usted puede hacer que las puntuaciones de clúster como cerca de $-1$ como quieras, o tan cerca de $0$ como quieras, así que usted puede hacer cualquiera de las cantidades $\mathrm{COUNT}(score \in [-1, -T])$ o $\mathrm{COUNT}(score \in [-T,T])$ crecen mucho más rápido que el otro.

Ahora, yo creo que sería una característica deseable que en casi todos los los casos en donde los usuarios' los votos son en su mayoría positivas, la calificación final en el intervalo de $[T,1],$, mientras que en casi todos los casos donde el positivo y los votos negativos fueron prácticamente iguales, la calificación final en el intervalo de $[-T,T].$

Si su computacional métodos consisten en generar aleatoriamente con los votos de la igualdad de probabilidad de cada una de las tres opciones posibles para cada voto, la ley de los grandes números dice que la puntuación se tienden a $0$ como el número de votos aumenta; es decir, para cualquier constante positiva $T$ que usted elija, la puntuación será en $[-T,T]$ después $N$ de los votos con una probabilidad de que enfoques $1$ $N$ va al infinito. A mí me parece que esto es como un sistema de votación debe trabajar en tal caso.

Si usted realmente desea que la probabilidad de puntuaciones en $[-1,-T],$ $[-T,T],$ y $[T,1]$ a ser aproximadamente igual después de $N$ de los votos han sido emitidos, sin embargo, puede utilizar una aproximación normal de la distribución de puntuaciones. Deje $X_i$ ser una variable aleatoria definida por $$ X_i = \begin{cases} \phantom{-}1 & \text{if the %#%#%th vote is %#%#%}, \\ \phantom{-}0 & \text{if the %#%#%th vote is %#%#%}, \\ -1 & \text{if the %#%#%th vote is %#%#%}. \\ \end{casos} $$ A continuación, después de $i$ de los votos han sido emitidos, $$ N_\mathrm{pos} - N_\mathrm{neg} = X_1 + X_2 + X_3 + \cdots + X_N = \sum_{i=0}^N X_i. $$

Suponiendo que cada tipo de voto tiene la misma probabilidad de ser echado siguiente, la varianza de $POS$ $i$ y la varianza de la $NEUT$ $i$ La desviación estándar es la raíz cuadrada de la varianza, $NEG$ La media de $N$ es cero.

Para un gran $X_i$ la distribución de los $\frac23,$ se aproxima una distribución normal. Una variable aleatoria con una distribución normal con media cero y la desviación estándar $\sum_{i=0}^N X_i$ es mayor que aproximadamente el $\frac23N.$ con una probabilidad de $\sqrt{\frac23 N}.$ Para un gran $\sum_{i=0}^N X_i$ a continuación, vamos a encontrar que $$ \sum_{i=0}^N X_i > 0.430727\sqrt{\frac23 N} \approx 0.351687\sqrt{N} $$ aproximadamente el $N,$ del tiempo.

La puntuación que se asigna es igual a $\sum_{i=0}^N X_i$ así que si dejas $\sigma$ (una función del número de votos emitidos, no una constante), usted debe encontrar que las probabilidades de que el puntaje de estar en $0.430727\sigma$ $\frac13.$ y $N,$ son aproximadamente iguales.

Respondido el 25 de Febrero, 2018 por David K (19172 Puntos )

La votación puntuación paradoja

Respuesta

Mejora De La Estimación

Soporte De Código

Respuesta Anterior

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

La votación puntuación paradoja

Respuesta

Mejora De La Estimación

Soporte De Código

Respuesta Anterior

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: