Preguntado en una entrevista de Microsoft: Suponga que tiene una distribución uniforme (puede ser discreta o continua) de tamaño X y que selecciona al azar una muestra de tamaño Y. 1) ¿Cuál es la probabilidad en términos de X e Y de una colisión? 2) ¿Cuál es el número esperado de colisiones en términos de X e Y?
Respuestas
¿Demasiados anuncios?Para la posibilidad de colisión, véase esta pregunta . La respuesta de Derek Jennings allí con su anotación dice:
P(collision)=1−(1−1X)(1−2X)⋯(1−Y−1X),
Para responder a la segunda pregunta, debemos decidir qué se considera una colisión. Por ejemplo, si la muestra es 1,2,1,1,3 entonces se podría decir que sólo hay una colisión, ya que sólo se repite un valor. Por otro lado, dos veces en el transcurso del muestreo podríamos decir "Oye, ya he visto ese valor". Según esta segunda interpretación, hubo dos colisiones.
Interpretación 1:
Para encontrar el número esperado de colisiones, es útil introducir las variables aleatorias indicadoras idénticamente distribuidas Z(i) para 1≤i≤X donde Z(i)=1 si el artículo i aparece más de una vez, y Z(i)=0 de lo contrario.
El número N(i) de veces que ese artículo i aparece es un binomio (Y,1/X) variable aleatoria por lo que P(Z(i)=0)=P(N(i)≤1)=(X−1X)Y+Y(X−1X)Y−1(1X), y
E(number of collisions)=X∑i=1E(Z(i))=XP(Z(1)=1)=X−X(X−1X)Y−Y(X−1X)Y−1.
Interpretación 2:
Con argumentos similares, se puede calcular E(number of collisions)=Y+X(X−1X)Y−X.
Para la versión continua, la probabilidad de colisión será 0 . Es decir, si la variable aleatoria W tiene una distribución uniforme en el intervalo [a,b] y tomamos una muestra de tamaño n la probabilidad de colisión es 0 . De hecho, esto es cierto para cualquier distribución continua.
Para la versión discreta, la respuesta es obviamente diferente. Se trata de un problema estándar del primer curso de probabilidad. Puede encontrar la información completa buscando en "Problema de cumpleaños".