Escenario: Quiero aconsejar sobre la longitud que debe tener un post para obtener el máximo número de interacciones (llamémosle "Likes"). Tengo la descripción de la longitud y los "Likes" para cada post.
(He excluido los mensajes sin Likes, ¿es esto válido o un error estadístico?)
Gráfico de dispersión de Likes v Description Length:
Podría simplemente mirar la trama y decir que 800-3500 es el mejor rango de longitud, siendo el óptimo alrededor de 2000 caracteres. Pero, ¿cómo puedo averiguarlo estadísticamente?
Así que supongo que debería:
- Excluir los valores atípicos / suavizar los datos de alguna manera (¿usar bins?)
- ¿Encontrar el "mejor" número de Likes? ¿O las mejores longitudes para el mayor número de Likes?
- Encuentre el rango de longitudes que cae dentro de 1 desviación estándar de eso (cómo)?
- ¿O tal vez quiero ajustar una curva y encontrar el punto más alto?
Lo siento, probablemente se trate de un problema bastante básico, pero no sé muy bien qué buscar ("encontrar correlación entre conjuntos de datos dentro de una desviación estándar del mejor valor" no ayudó). Así que los nombres de las técnicas y los enlaces a los artículos podrían ser suficientes. Gracias.
Conjunto de datos: https://cl.ly/lPro