6 votos

¿Qué es lo que falla, si es que falla, en el análisis estadístico de la entrada del blog SE welcome wagon?

Hace tiempo que no hago ninguna estadística importante, de ahí que tenga que basar esta pregunta más en una corazonada que en un análisis exhaustivo.

Se trata de esta entrada del blog stack overflow https://stackoverflow.blog/2018/12/04/welcome-wagon-community-and-comments-on-stack-overflow/

De este estudio se extraen muchas conclusiones. Sin embargo, la selección de grupos parece muy sesgada. La conclusión principal de que las personas más comprometidas con la SE encuentran más fácilmente los comentarios groseros se basa en la diferencia entre los empleados y los demás, pero para mí, especialmente la diferencia en el grupo de los no empleados podría ser fácilmente ruido aleatorio. No veo ninguna prueba de significación en ninguna parte.

Desde una perspectiva puramente académica, ¿se trata de una buena estadística o no?

1 votos

@Jason Punyon: Ping.

1 votos

@Julia Silge: Ping.

6voto

Aaron Puntos 36

Esta es una gran pregunta, y es agradable ver el análisis realizado por StackExchange sometido al rigor de sus propios expertos contribuyentes. No obstante, es un poco difícil evaluar una entrada de blog "desde una perspectiva académica", ya que el nivel de rigor de las entradas de blog difiere sustancialmente del de los trabajos académicos publicados.

Como opinión general, señalaré en primer lugar que el análisis presentado en el entrada del blog es menos riguroso de lo que cabría esperar en un trabajo académico, y hay muchos aspectos del estudio y el análisis que no se especifican. Esto no es necesariamente descabellado, ya que una entrada de blog no suele aspirar al nivel de detalle y rigor de un artículo académico sobre el tema. Las entradas de blog suelen estar dirigidas a un público no especializado que no se puede suponer que tenga conocimientos o formación estadística, por lo que no es necesariamente irrazonable que el tipo de información de un análisis estadístico detallado se elimine en aras de la brevedad. Los datos que han recopilado me parecen un proyecto amplio e impresionante, por lo que mis impresiones generales son favorables.

Otra cosa importante que hay que tener en cuenta es que es importante distinguir análisis exploratorio de datos y análisis de datos de confirmación . Este proyecto parece pertenecer a la primera categoría, ya que no pretende probar una hipótesis preexistente. Por ello, hay que tener cuidado con la presentación de pruebas estadísticas formales para las hipótesis. En particular, si las hipótesis se formulan a partir de los datos exploratorios, las pruebas formales de estas hipótesis utilizando esos mismos datos estará sesgada hacia la aceptación de las hipótesis. En el AED suele ser mejor evitar las pruebas de hipótesis formales, salvo las pruebas generales de diferencias que era razonable pedir antes de ver los datos.

Dicho esto, estaría bien que los autores fueran capaces de respaldar esta entrada del blog con una exposición más detallada de la mecánica de su estudio y su modelización (por ejemplo, en un artículo publicado, o incluso en una entrada más detallada dirigida a los estadísticos). Para llegar a un nivel que resulte convincente para un estadístico, tendrían que dar un poco más de detalle en algunas áreas, especialmente en lo que respecta a sus mecanismos de muestreo y su modelización. Sería incluso mejor si compartieran los datos subyacentes -de manera anónima- para que otros puedan modelar los datos. En cuanto a los inconvenientes del presente post, veo algunas cuestiones principales que habría que ajustar para hacer una presentación más rigurosa.


Mecanismos de muestreo poco claros: El mecanismo por el que se muestrearon los comentarios y se presentaron a los participantes no está claro en el puesto. ¿Se presentaron todos los comentarios en un periodo de tiempo determinado para su revisión, o fue sólo una muestra? En este último caso, ¿se trataba de una al azar muestra, o se eligió a discreción de los investigadores del estudio?

Demarcación poco clara del efecto grupo frente al efecto pregunta: Las métricas mostradas en la entrada del blog son todas medidas por usuario, que no tienen ningún ajuste para tener en cuenta los comentarios valorados por ese usuario. No está claro si hay diferencias sistemáticas en los tipos de comentarios calificados por los distintos usuarios, y si esto puede filtrarse mediante métodos estadísticos. Se nos dice que las diferencias globales de los grupos son "...robustas al comparar grupos a los que se les mostraron los mismos comentarios, que calificaron el mismo número de comentarios, y otros enfoques analíticos". Sin embargo, este último análisis no se muestra ni se describe.

Medidas de incertidumbre: La entrada muestra la mediana de las valoraciones de cada grupo, y los gráficos ofrecen una presentación visual de la dispersión de las valoraciones medias de cada participante. Sin embargo, aparte de los presentados gráficamente, no hay métricas estadísticas (por ejemplo, intervalos de confianza, etc.) que estimen las "verdaderas" medias/medias de los grupos. Tampoco se presenta el tamaño relativo de la varianza de las valoraciones de un participante individual, frente a la dispersión de las valoraciones medias de los distintos participantes.

Prueba de hipótesis: La omisión de pruebas formales en este análisis es probablemente positiva, ya que parece ser un estudio exploratorio más que un análisis confirmatorio de una hipótesis preexistente. A partir de sus datos observados, los autores afirman que "[nuestro] proyecto mostró que cuanto más profundamente está conectado un individuo a Stack Overflow (como empleado, o como moderador), más probable es que vea problemas en comentarios como estos". Por razones elaboradas ampliamente por Tukey en su análisis de EDA y CDA (véase, por ejemplo Behrens 1997 ), creo que esta "conclusión" debería tratarse en realidad como una hipótesis exploratoria formada por la observación de los datos, por lo que debería probarse con nuevos datos en un estudio posterior.


Como comentario final, me gustaría reiterar que las cuestiones anteriores son cosas que son inconvenientes sólo desde el punto de vista de intentar presentar un análisis más riguroso - en términos de una entrada de blog para un público no especializado, su omisión puede ser perfectamente razonable. Los autores de la entrada del blog son científicos de datos con cierta experiencia en el análisis estadístico, por lo que estoy seguro de que son conscientes de estos problemas, y los tratarían en consecuencia si deciden escribir su entrada del blog en un documento más riguroso.

0 votos

"Creo que esta "conclusión" debería ser tratada en realidad como una hipótesis exploratoria formada por la observación de los datos" Creo que esa era más o menos mi preocupación, para mí la entrada del blog se lee como uno de esos juegos en los que dibujas una escuela, un hospital y un reactor nuclear en una cuadrícula de 6x6 y luego distribuyes las muertes por cáncer tirando dos dados y concluyes que las escuelas causan cáncer porque ex ante esa distribución habría sido muy improbable.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X