Probabilidad de que cinco niños de la misma clase tengan el mismo nombre

Question

Probabilidad de que cinco niños de la misma clase tengan el mismo nombre

Preguntado el 3 de Agosto, 2016: Cuando se hizo la pregunta
388 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

En los foros sobre nombres de bebés, los futuros padres repiten todo el tiempo alguna versión de su miedo a Jennifer: "No quiero que mi hijo sea uno de los 5 de su clase con su nombre". La cuestión es que ningún nombre se acerca ya a ese tipo de popularidad, e incluso en el apogeo de la moda de Jennifer, no había cinco de ellos en una clase. Me gustaría que estos padres recibieran algún tipo de respuesta sobre lo improbable que sería una coincidencia de repetición de nombre.

Utilizando los amplios datos sobre nombres de bebés de la Administración de la Seguridad Social ( https://www.ssa.gov/oact/babynames/limits.html ), ¿podría alguien decirme cómo calcular las posibilidades de que una clase de escuela primaria en EE.UU. tenga cinco niños con el mismo nombre? (Para simplificar, por "mismo nombre" me refiero a la misma ortografía, y por "clase de escuela" me refiero a que todos los niños hayan nacido en el mismo año). No estoy especificando el tamaño de la clase, pero sin duda debe ser mayor de 4. :-)

Preguntado el 3 de Agosto, 2016 por CuriousFellow

1 votos

Las publicaciones sobre nombres de bebés son un tema recurrente en el blog de Andrew Gelman. En ninguna de las entradas que he encontrado en su sitio web habla de tu pregunta concreta. Sí que enlaza con un "blog de nombres de bebés" en el que podrías tener más suerte para obtener una respuesta. andrewgelman.com/2005/09/07/baby_name_blog

Comentado el 3 de Agosto, 2016 por Nulled

0 votos

Creo que se puede encadenar algo utilizando la distribución multinomial con probabilidades de éxito de, por ejemplo, los veinte primeros nombres extraídos de los datos del censo como este .

Comentado el 3 de Agosto, 2016 por Antoni Parellada

0 votos

¿Proporciona la SSA datos sobre la número de niños nacidos con un nombre? Sólo encuentro información sobre rangos que obviamente descarta alguna información útil.

Comentado el 3 de Agosto, 2016 por user777

Mostrar 8 comentarios más

Answer 1

2 Respuestas

Answer 2

9voto

Ben Puntos 444

Todos los datos se pueden encontrar aquí . Cada valor de la tabla representa la probabilidad de que, dada una muestra de 25 personas de esa localidad y año de nacimiento, 5 de ellas compartan nombre.

Método : He utilizado el Binomio PDF en cada nombre para hallar la probabilidad de que en cualquier clase de 25 personas haya 5 personas que compartan un nombre:

n = class size
k = 5,6,...,n 
p_i = (# of name[i]'s) / (total # of kids)

$$P_n(5+\ kids\ share\ name) = \sum_{\forall\ names}\sum_{k=5}^n{n \choose k}p_i^k(1-p_i)^{n-k} $$

Por ejemplo, si hay 4.000.000 de niños en total, y 21.393 Emily's, entonces la probabilidad de que haya 5 Emily's en cualquier clase con 25 alumnos es Binomial(25, 5, 0,0053) = 0,0000002. La suma de todos los nombres no da una respuesta exacta, porque por la Principio de inclusión/exclusión Además, hay que tener en cuenta la posibilidad de que haya varios grupos de 5 personas que compartan nombre. Sin embargo, dado que estas probabilidades son prácticamente nulas a efectos prácticos, he supuesto que son insignificantes, y por tanto $P(\bigcup A_i) \approx \sum P(A_i)$ .

Actualización: Como muchos han señalado, existe una considerable variación a lo largo del tiempo y entre los distintos estados. Así que he ejecutado el mismo programa, ESTADO POR ESTADO, y a lo largo del tiempo. Aquí están los resultados (la probabilidad a nivel nacional es roja, los estados individuales son negros):

Curiosamente, Vermont (mi estado natal) ha sido sistemáticamente uno de los lugares con más probabilidades de que esto ocurra durante las últimas décadas.

Respondido el 4 de Agosto, 2016 por Ben (444 Puntos )

3 votos

¿Hay alguna posibilidad de que explique cómo ha obtenido estas cifras? No hace falta que me lo expliques muy a fondo -tengo una licenciatura en matemáticas y sé dónde buscar las cosas-, pero me gustaría saber el tipo de razonamiento que realmente lleva a las probabilidades (en lugar de suspiros desalentadores).

Comentado el 4 de Agosto, 2016 por CuriousFellow

0 votos

He publicado mi método, ¡espero que ayude!

Comentado el 4 de Agosto, 2016 por Ben

0 votos

Gracias. Creo que ahora sí lo entiendo. (Es es una extensión del problema/paradoja del cumpleaños, sólo que con, um, un poco más de datos involucrados).

Comentado el 4 de Agosto, 2016 por CuriousFellow

Mostrar 25 comentarios más

Answer 3

0voto

feinmann Puntos 101

Por favor, vea el siguiente Python-script para Python2.

La respuesta está inspirada en la respuesta de David C.

Mi respuesta final sería, la probabilidad de encontrar al menos cinco Jacobs en una clase, siendo Jacob el nombre más probable según los datos de https://www.ssa.gov/oact/babynames/limits.html "Datos nacionales" de 2006.

La probabilidad se calcula según una distribución binomial, siendo la probabilidad de éxito la probabilidad de Jacob.

import pandas as pd
from scipy.stats import binom

data = pd.read_csv(r"yob2006.txt", header=None, names=["Name", "Sex", "Count"])

# count of children in the dataset:
sumCount = data.Count.sum()

# do calculation for every name:
for i, row in data.iterrows():
    # relative counts of each name being interpreted as probabily of occurrence
    data.loc[i, "probability"] = data.loc[i, "Count"]/float(sumCount)

    # Probabilites being five or more children with that name in a class of size n=25,50 or 100
    data.loc[i, "atleast5_class25"] = 1 - binom.cdf(4,25,data.loc[i, "probability"])
    data.loc[i, "atleast5_class50"] = 1 - binom.cdf(4,50,data.loc[i, "probability"])
    data.loc[i, "atleast5_class100"] = 1 - binom.cdf(4,100,data.loc[i, "probability"])

maxP25 = data["atleast5_class25"].max()
maxP50 = data["atleast5_class50"].max()
maxP100 = data["atleast5_class100"].max()

print ("""Max. probability for at least five kids with same name out of 25: {:.2} for name {}"""
   .format(maxP25, data.loc[data.atleast5_class25==maxP25,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 50: {:.2} for name {}, of course."""
   .format(maxP50, data.loc[data.atleast5_class50==maxP50,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 100: {:.2} for name {}, of course."""
   .format(maxP100, data.loc[data.atleast5_class100==maxP100,"Name"].values[0]))

Probabilidad máxima de al menos cinco niños con el mismo nombre entre 25: 4,7e-07 para el nombre Jacob

Probabilidad máxima de al menos cinco niños con el mismo nombre entre 50: 1,6e-05 para el nombre Jacob, por supuesto.

Probabilidad máxima de al menos cinco niños con el mismo nombre sobre 100: 0,00045 para el nombre Jacob, por supuesto.

Por un factor de 10 el mismo resultado que el de David C. Gracias. (Mi respuesta no suma todos los nombres, debe ser discutida)

Respondido el 4 de Agosto, 2016 por feinmann (101 Puntos )

0 votos

Esta respuesta no parece abordar la cuestión de la posibilidad de que algunos El nombre aparece cinco o más veces en una clase.

Comentado el 4 de Agosto, 2016 por jldugger

0 votos

Uhmm, pensé que encontrar un Jacob en una clase es lo más probable. Así que encontrar al menos cinco Jacobs en una clase también es más probable que cualquier otro nombre, ¿no? Así que mi conclusión sería que nadie debería preocuparse por encontrar el nombre de su hijo cinco veces en una clase, aunque el niño se llame Jacob. En mi opinión, la suma de todos los nombres no es apropiada. Por favor, discútanlo. Gracias

Comentado el 4 de Agosto, 2016 por feinmann

1 votos

@feinmann Creo que tomar la suma sobre todos los nombres es adecuado porque la probabilidad de tener dos o más conjuntos de 5 personas con el mismo nombre en una clase es casi nula, y es despreciable a efectos prácticos. Es decir, según el Principio de inclusión/exclusión Si no tenemos en cuenta esta posibilidad, entonces $P(\bigcup A_i) \approx \sum P(A_i)$

Comentado el 4 de Agosto, 2016 por Ben

Mostrar 7 comentarios más

Probabilidad de que cinco niños de la misma clase tengan el mismo nombre

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Probabilidad de que cinco niños de la misma clase tengan el mismo nombre

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: