Por favor, vea el siguiente Python-script para Python2.
La respuesta está inspirada en la respuesta de David C.
Mi respuesta final sería, la probabilidad de encontrar al menos cinco Jacobs en una clase, siendo Jacob el nombre más probable según los datos de https://www.ssa.gov/oact/babynames/limits.html "Datos nacionales" de 2006.
La probabilidad se calcula según una distribución binomial, siendo la probabilidad de éxito la probabilidad de Jacob.
import pandas as pd
from scipy.stats import binom
data = pd.read_csv(r"yob2006.txt", header=None, names=["Name", "Sex", "Count"])
# count of children in the dataset:
sumCount = data.Count.sum()
# do calculation for every name:
for i, row in data.iterrows():
# relative counts of each name being interpreted as probabily of occurrence
data.loc[i, "probability"] = data.loc[i, "Count"]/float(sumCount)
# Probabilites being five or more children with that name in a class of size n=25,50 or 100
data.loc[i, "atleast5_class25"] = 1 - binom.cdf(4,25,data.loc[i, "probability"])
data.loc[i, "atleast5_class50"] = 1 - binom.cdf(4,50,data.loc[i, "probability"])
data.loc[i, "atleast5_class100"] = 1 - binom.cdf(4,100,data.loc[i, "probability"])
maxP25 = data["atleast5_class25"].max()
maxP50 = data["atleast5_class50"].max()
maxP100 = data["atleast5_class100"].max()
print ("""Max. probability for at least five kids with same name out of 25: {:.2} for name {}"""
.format(maxP25, data.loc[data.atleast5_class25==maxP25,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 50: {:.2} for name {}, of course."""
.format(maxP50, data.loc[data.atleast5_class50==maxP50,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 100: {:.2} for name {}, of course."""
.format(maxP100, data.loc[data.atleast5_class100==maxP100,"Name"].values[0]))
Probabilidad máxima de al menos cinco niños con el mismo nombre entre 25: 4,7e-07 para el nombre Jacob
Probabilidad máxima de al menos cinco niños con el mismo nombre entre 50: 1,6e-05 para el nombre Jacob, por supuesto.
Probabilidad máxima de al menos cinco niños con el mismo nombre sobre 100: 0,00045 para el nombre Jacob, por supuesto.
Por un factor de 10 el mismo resultado que el de David C. Gracias. (Mi respuesta no suma todos los nombres, debe ser discutida)
1 votos
Las publicaciones sobre nombres de bebés son un tema recurrente en el blog de Andrew Gelman. En ninguna de las entradas que he encontrado en su sitio web habla de tu pregunta concreta. Sí que enlaza con un "blog de nombres de bebés" en el que podrías tener más suerte para obtener una respuesta. andrewgelman.com/2005/09/07/baby_name_blog
0 votos
Creo que se puede encadenar algo utilizando la distribución multinomial con probabilidades de éxito de, por ejemplo, los veinte primeros nombres extraídos de los datos del censo como este .
0 votos
¿Proporciona la SSA datos sobre la número de niños nacidos con un nombre? Sólo encuentro información sobre rangos que obviamente descarta alguna información útil.
0 votos
@AntoniParellada Es un buen hallazgo - pero limitarse a los 20 primeros probablemente descartará demasiada información: ¡sólo el 8% de los hombres y el 7,7% de las mujeres están representados!
0 votos
@GeneralAbrial Pensándolo bien, dado que lo que el PO busca es algún tipo de prueba de que no es frecuente tener un montón de niños con el mismo nombre en la misma clase, limitar los nombres a los más populares puede en realidad reforzar el punto - si la probabilidad es baja incluso con valores de alta frecuencia, puede (?) estar hecho...
6 votos
@AntoniParellada Creo que la realidad de la situación es aún más sutil: dado que el sistema escolar estadounidense está muy segregado por ingresos y raza, creo que las estadísticas nacionales tendrán una escasa correspondencia con las aulas reales.
0 votos
Estoy pensando que tal vez para mis propósitos, sería suficiente considerar la probabilidad de tener 5 niños llamados Isabella en un aula de primer grado (año de nacimiento 2010). ¿Cómo puedo calcular eso?
3 votos
Cuando estudiaba en una escuela primaria (pequeña), teníamos tres Juanes en una clase muy pequeña (creo que los niños y las niñas juntos eran sólo unos 14). Un año combinamos con el año anterior para hacer una clase de tamaño completo... y obtuvimos un cuarto John. Ahora John era bastante común entonces, pero no todos que común. (En términos de la cuestión original, tres sería casi tan molesto como cinco). La posibilidad de un particular nombre se duplique muchas veces sería muy baja, pero la posibilidad algunos nombre aparece varias veces será mucho mayor.
0 votos
¿No es la posibilidad de que un determinado nombre se duplique lo que es relevante aquí? Seguramente los padres no temen que su hijo se incorpore a una clase con cinco niños con el mismo nombre, sino que se incorpore a una clase con otros cuatro niños con el mismo nombre.
0 votos
@Scortchi Esa parece la interpretación correcta en base a los preliminares de la pregunta, pero no es la pregunta que (finalmente) se hizo explícitamente. De hecho, si a uno le preocupa que su hijo pueda compartir nombre con otros, hay una solución sencilla y no estadística: ponerle un nombre único.
0 votos
Hola, mi nombre es Muhammad23z