10 votos

Probabilidad de que cinco niños de la misma clase tengan el mismo nombre

En los foros sobre nombres de bebés, los futuros padres repiten todo el tiempo alguna versión de su miedo a Jennifer: "No quiero que mi hijo sea uno de los 5 de su clase con su nombre". La cuestión es que ningún nombre se acerca ya a ese tipo de popularidad, e incluso en el apogeo de la moda de Jennifer, no había cinco de ellos en una clase. Me gustaría que estos padres recibieran algún tipo de respuesta sobre lo improbable que sería una coincidencia de repetición de nombre.

Utilizando los amplios datos sobre nombres de bebés de la Administración de la Seguridad Social ( https://www.ssa.gov/oact/babynames/limits.html ), ¿podría alguien decirme cómo calcular las posibilidades de que una clase de escuela primaria en EE.UU. tenga cinco niños con el mismo nombre? (Para simplificar, por "mismo nombre" me refiero a la misma ortografía, y por "clase de escuela" me refiero a que todos los niños hayan nacido en el mismo año). No estoy especificando el tamaño de la clase, pero sin duda debe ser mayor de 4. :-)

1 votos

Las publicaciones sobre nombres de bebés son un tema recurrente en el blog de Andrew Gelman. En ninguna de las entradas que he encontrado en su sitio web habla de tu pregunta concreta. Sí que enlaza con un "blog de nombres de bebés" en el que podrías tener más suerte para obtener una respuesta. andrewgelman.com/2005/09/07/baby_name_blog

0 votos

Creo que se puede encadenar algo utilizando la distribución multinomial con probabilidades de éxito de, por ejemplo, los veinte primeros nombres extraídos de los datos del censo como este .

0 votos

¿Proporciona la SSA datos sobre la número de niños nacidos con un nombre? Sólo encuentro información sobre rangos que obviamente descarta alguna información útil.

9voto

Ben Puntos 444

Todos los datos se pueden encontrar aquí . Cada valor de la tabla representa la probabilidad de que, dada una muestra de 25 personas de esa localidad y año de nacimiento, 5 de ellas compartan nombre.

Método : He utilizado el Binomio PDF en cada nombre para hallar la probabilidad de que en cualquier clase de 25 personas haya 5 personas que compartan un nombre:

n = class size
k = 5,6,...,n 
p_i = (# of name[i]'s) / (total # of kids)

$$P_n(5+\ kids\ share\ name) = \sum_{\forall\ names}\sum_{k=5}^n{n \choose k}p_i^k(1-p_i)^{n-k} $$

Por ejemplo, si hay 4.000.000 de niños en total, y 21.393 Emily's, entonces la probabilidad de que haya 5 Emily's en cualquier clase con 25 alumnos es Binomial(25, 5, 0,0053) = 0,0000002. La suma de todos los nombres no da una respuesta exacta, porque por la Principio de inclusión/exclusión Además, hay que tener en cuenta la posibilidad de que haya varios grupos de 5 personas que compartan nombre. Sin embargo, dado que estas probabilidades son prácticamente nulas a efectos prácticos, he supuesto que son insignificantes, y por tanto $P(\bigcup A_i) \approx \sum P(A_i)$ .

Actualización: Como muchos han señalado, existe una considerable variación a lo largo del tiempo y entre los distintos estados. Así que he ejecutado el mismo programa, ESTADO POR ESTADO, y a lo largo del tiempo. Aquí están los resultados (la probabilidad a nivel nacional es roja, los estados individuales son negros):

enter image description here

Curiosamente, Vermont (mi estado natal) ha sido sistemáticamente uno de los lugares con más probabilidades de que esto ocurra durante las últimas décadas.

3 votos

¿Hay alguna posibilidad de que explique cómo ha obtenido estas cifras? No hace falta que me lo expliques muy a fondo -tengo una licenciatura en matemáticas y sé dónde buscar las cosas-, pero me gustaría saber el tipo de razonamiento que realmente lleva a las probabilidades (en lugar de suspiros desalentadores).

0 votos

He publicado mi método, ¡espero que ayude!

0 votos

Gracias. Creo que ahora sí lo entiendo. (Es es una extensión del problema/paradoja del cumpleaños, sólo que con, um, un poco más de datos involucrados).

0voto

feinmann Puntos 101

Por favor, vea el siguiente Python-script para Python2.

La respuesta está inspirada en la respuesta de David C.

Mi respuesta final sería, la probabilidad de encontrar al menos cinco Jacobs en una clase, siendo Jacob el nombre más probable según los datos de https://www.ssa.gov/oact/babynames/limits.html "Datos nacionales" de 2006.

La probabilidad se calcula según una distribución binomial, siendo la probabilidad de éxito la probabilidad de Jacob.

import pandas as pd
from scipy.stats import binom

data = pd.read_csv(r"yob2006.txt", header=None, names=["Name", "Sex", "Count"])

# count of children in the dataset:
sumCount = data.Count.sum()

# do calculation for every name:
for i, row in data.iterrows():
    # relative counts of each name being interpreted as probabily of occurrence
    data.loc[i, "probability"] = data.loc[i, "Count"]/float(sumCount)

    # Probabilites being five or more children with that name in a class of size n=25,50 or 100
    data.loc[i, "atleast5_class25"] = 1 - binom.cdf(4,25,data.loc[i, "probability"])
    data.loc[i, "atleast5_class50"] = 1 - binom.cdf(4,50,data.loc[i, "probability"])
    data.loc[i, "atleast5_class100"] = 1 - binom.cdf(4,100,data.loc[i, "probability"])

maxP25 = data["atleast5_class25"].max()
maxP50 = data["atleast5_class50"].max()
maxP100 = data["atleast5_class100"].max()

print ("""Max. probability for at least five kids with same name out of 25: {:.2} for name {}"""
   .format(maxP25, data.loc[data.atleast5_class25==maxP25,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 50: {:.2} for name {}, of course."""
   .format(maxP50, data.loc[data.atleast5_class50==maxP50,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 100: {:.2} for name {}, of course."""
   .format(maxP100, data.loc[data.atleast5_class100==maxP100,"Name"].values[0]))

Probabilidad máxima de al menos cinco niños con el mismo nombre entre 25: 4,7e-07 para el nombre Jacob

Probabilidad máxima de al menos cinco niños con el mismo nombre entre 50: 1,6e-05 para el nombre Jacob, por supuesto.

Probabilidad máxima de al menos cinco niños con el mismo nombre sobre 100: 0,00045 para el nombre Jacob, por supuesto.

Por un factor de 10 el mismo resultado que el de David C. Gracias. (Mi respuesta no suma todos los nombres, debe ser discutida)

0 votos

Esta respuesta no parece abordar la cuestión de la posibilidad de que algunos El nombre aparece cinco o más veces en una clase.

0 votos

Uhmm, pensé que encontrar un Jacob en una clase es lo más probable. Así que encontrar al menos cinco Jacobs en una clase también es más probable que cualquier otro nombre, ¿no? Así que mi conclusión sería que nadie debería preocuparse por encontrar el nombre de su hijo cinco veces en una clase, aunque el niño se llame Jacob. En mi opinión, la suma de todos los nombres no es apropiada. Por favor, discútanlo. Gracias

1 votos

@feinmann Creo que tomar la suma sobre todos los nombres es adecuado porque la probabilidad de tener dos o más conjuntos de 5 personas con el mismo nombre en una clase es casi nula, y es despreciable a efectos prácticos. Es decir, según el Principio de inclusión/exclusión Si no tenemos en cuenta esta posibilidad, entonces $P(\bigcup A_i) \approx \sum P(A_i)$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X