21 votos

¿Hacer estadísticas correctas en un entorno de trabajo?

No estoy seguro de a qué lugar pertenece esta pregunta: Cross Validated, o El lugar de trabajo. Pero mi pregunta está vagamente relacionada con la estadística.

Esta pregunta (o supongo que preguntas) surgió durante mi trabajo como "becario de ciencias de los datos". Estaba construyendo este modelo de regresión lineal y examinando el gráfico de residuos. Vi una clara señal de heteroscedasticidad. Recuerdo que la heteroscedasticidad distorsiona muchas estadísticas de prueba, como el intervalo de confianza y la prueba t. Así que utilicé los mínimos cuadrados ponderados, siguiendo lo que había aprendido en la universidad. Mi jefe lo vio y me aconsejó que no lo hiciera porque "estaba complicando las cosas", lo cual no era una razón muy convincente para mí.

Otro ejemplo sería "eliminar una variable explicativa porque su valor p es insignificante". Para mí, este consejo no tiene sentido desde un punto de vista lógico. Según lo que he aprendido, un valor p insignificante puede deberse a diferentes razones: el azar, el uso de un modelo equivocado, la violación de los supuestos, etc.

Otro ejemplo es que he utilizado la validación cruzada k-fold para evaluar mi modelo. De acuerdo con el resultado, $CV_{model 1}$ es mucho mejor que $CV_{model 2}$ . Pero tenemos una menor $R^2$ para el modelo 1, y la razón tiene algo que ver con la intercepción . Mi supervisor, sin embargo, parece preferir el modelo 2 porque tiene mayor $R^2$ . Sus razones (como $R^2$ es robusto, o la validación cruzada es un enfoque de aprendizaje automático, no un enfoque estadístico) no parecen ser lo suficientemente convincentes como para hacerme cambiar de opinión.

Como alguien que acaba de graduarse de la universidad, estoy muy confundido. Me apasiona aplicar una estadística correcta para resolver problemas del mundo real, pero no sé cuál de las siguientes afirmaciones es cierta:

  1. Las estadísticas que aprendí por mi cuenta están mal, así que sólo estoy cometiendo errores.
  2. Hay una gran diferencia entre la estadística teórica y la construcción de modelos en las empresas. Y aunque la teoría estadística es correcta, la gente no la sigue.
  3. El gestor no está utilizando las estadísticas correctamente.

Actualización a 17/4/2017: He decidido hacer un doctorado en estadística. Gracias a todos por su respuesta.

1 votos

En relación con tu pregunta están los comentarios (sobre todo los del final) debajo de esta respuesta: stats.stackexchange.com/questions/229193/

0 votos

Este debate también puede ser relevante . En la práctica, a veces se pueden utilizar modelos en los que los datos violan algunos supuestos requeridos (por ejemplo, Naive Bayes en las variables dependientes) y aún así obtener resultados interesantes. Pero entonces hay que tener mucho cuidado con las conclusiones que se sacan, y ahí es donde está el principal problema: a la mayoría de la gente no le importa el significado de los resultados mientras se obtengan resultados. Publicar o perecer...

1 votos

Las respuestas "tú tienes razón y él está equivocado" son probablemente correctas y se aplican a tu caso. De todos modos, ten en cuenta que a veces la respuesta puede ser "él está equivocado, pero su manera equivocada funciona para sus propósitos - tal vez funciona incluso mejor que la manera correcta para sus propósitos no estadísticos de dirigir el negocio". Creo que esto ocurre a menudo con todo tipo de conocimientos científicos, no sólo con la estadística. Tal vez en SE Workplace puedan darte ejemplos no estadísticos.

13voto

avid Puntos 161

En pocas palabras, tú tienes razón y él está equivocado. La tragedia del análisis de datos es que mucha gente lo hace, pero sólo una minoría lo hace bien, en parte debido a una débil educación en el análisis de datos y en parte debido a la apatía. Si se mira con ojos críticos la mayoría de los artículos de investigación publicados que no tienen un estadístico o un experto en aprendizaje automático en la lista de autores, se detectarán rápidamente errores tan elementales como interpretar $p$ -como la probabilidad de que la hipótesis nula sea verdadera.

Creo que lo único que se puede hacer, ante este tipo de situaciones, es explicar cuidadosamente lo que está mal en la práctica equivocada, con un ejemplo o dos.

3 votos

Gracias por la respuesta. Supongo que una "siguiente pregunta" es, ¿hay algún trabajo por ahí que realmente haga estadísticas correctas? Entiendo que la ciencia de datos es muy popular hoy en día, pero de alguna manera tengo la impresión de que muchos "científicos de datos" no se preocupan realmente por hacer estadísticas correctas...

1 votos

@Misakov Creo que realmente depende de la persona u organización. Pero palabras de moda como "data science", "analytics" y "business intelligence" son banderas rojas. Y no olvides que en una entrevista de trabajo, tú también los estás entrevistando a ellos. No sólo te hace quedar bien hacer preguntas detalladas sobre cómo se hacen las cosas, sino que te permite ver lo serios que son con respecto al análisis de datos.

0 votos

@Misakov Probablemente tendrías que entrar en el mundo académico si realmente quieres hacer una estadística correcta. La gran mayoría (ver mi respuesta anterior) del uso industrial será errónea.

12voto

Chiggins Puntos 292

Kodiologist tiene razón - tú tienes razón, él está equivocado. Sin embargo, tristemente, este es un problema aún más común que el que tú estás encontrando. En realidad estás en una industria que está haciendo relativamente Bueno.

Por ejemplo, actualmente trabajo en un campo en el que hay que fijar las especificaciones de los productos. Esto se hace casi siempre controlando los productos/procesos de alguna manera y registrando las medias y las desviaciones estándar, y luego utilizando el viejo $mean + 3*\sigma$ .

Ahora bien, aparte de que este intervalo de confianza no les dice lo que realmente necesitan (para eso necesitan un intervalo de tolerancia), esto se hace a ciegas sobre parámetros que rondan algún valor máximo o mínimo (pero donde el intervalo no superará realmente esos valores). Como Excel calculará lo que necesitan (sí, he dicho Excel), establecen sus especificaciones de acuerdo con eso, a pesar de que el parámetro no va a estar ni de lejos distribuido normalmente. A estas personas se les ha enseñado estadística básica, pero no gráficos q-q o similares. Uno de los mayores problemas es que las estadísticas te dan un número, incluso cuando se usan de forma inapropiada, así que la mayoría de la gente no sabe cuándo lo ha hecho.

En otras palabras, las especificaciones de la gran mayoría de los productos, en la gran mayoría de las industrias, no tienen sentido.

Uno de los peores ejemplos que tengo de gente que sigue ciegamente las estadísticas, sin entenderlas, es el uso del Cpk en la industria del automóvil. Una empresa se pasó cerca de un año discutiendo sobre un producto con su proveedor, porque pensaban que éste podía controlar su producto a un nivel que simplemente no era posible. Sólo establecían una especificación máxima (no mínima) en un parámetro y utilizaban el Cpk para justificar su afirmación, hasta que se señaló que sus cálculos (cuando se utilizaban para establecer un nivel mínimo teórico, que no querían, por lo que no lo habían comprobado) implicaban un valor negativo masivo. Esto, en un parámetro que nunca podría ser inferior a 0. El Cpk se supone normal, el proceso no daba ni de lejos datos normales. Tardé mucho tiempo en entenderlo. Todo ese tiempo y dinero perdidos porque la gente no entendía lo que estaba calculando, y podría haber sido mucho peor si no se hubiera notado. Esto podría ser un factor que contribuya a que se produzcan regularmente retiradas del mercado en la industria del automóvil.

Yo mismo vengo de una formación científica y, francamente, la enseñanza de la estadística en las ciencias y la ingeniería es escandalosamente insuficiente. Nunca había oído hablar de la mayor parte de lo que necesito utilizar ahora; todo lo he aprendido por mi cuenta y, en comparación con un estadístico de verdad, hay enormes lagunas en mis conocimientos. Por esa razón, no envidio a la gente que hace un mal uso de la estadística (probablemente todavía lo hago regularmente), es una mala educación.

Así que, volviendo a tu pregunta original, realmente no es fácil. Estoy de acuerdo con la recomendación de Kodiologist de intentar explicar estas cosas con delicadeza para que se utilicen las estadísticas correctas. Pero En este sentido, me gustaría añadir una advertencia adicional y aconsejarle que elija bien sus batallas, por el bien de su carrera.

Es lamentable, pero es un hecho que no podrás conseguir que todos hagan las mejores estadísticas siempre. Elige corregirlos cuando realmente sea importante para la conclusión general final (lo que a veces significa hacer las cosas de dos maneras diferentes para comprobarlo). Hay veces (por ejemplo, en tu ejemplo del modelo 1,2) en las que usar la forma "incorrecta" puede llevar a las mismas conclusiones. Evite corregir a demasiada gente con demasiada frecuencia.

Sé que es intelectualmente frustrante y que el mundo debería funcionar de otra manera, pero lamentablemente no es así. Hasta cierto punto, tendrás que aprender a juzgar tus batallas en función de la personalidad de tus colegas. Tu objetivo (profesional) es ser el experto al que acuden cuando realmente necesitan ayuda, no la persona quisquillosa que siempre intenta corregirles. Y, de hecho, si te conviertes en esa persona, probablemente es donde tendrás más éxito para conseguir que la gente te escuche y haga las cosas bien. Buena suerte.

0 votos

Excel es posiblemente el software de análisis de datos más utilizado. No es necesario el " Sí, lo he dicho. ". A no ser que alguien no haya salido del mundo académico (y quizás de la gran farmacia) no pestañearía con tu afirmación original. (Buena respuesta, +1)

1 votos

Es el más utilizado, y creo que eso pone de manifiesto mi argumento original. Excel tiene enormes deficiencias para el análisis de datos. Si lo que se hace es en Excel, no se puede llamar análisis de datos, a menos que se introduzcan manualmente todos los cálculos. No hay nada en contra de Excel como hoja de cálculo, pero es una herramienta de análisis de datos rudimentaria, en el mejor de los casos. Pero la gente no sabe nada mejor, porque no se les enseña nada mejor. Yo no vengo de la estadística, pero tuve la suerte de que alguien me mencionara R para hacer mejores gráficos - y eso, casualmente, me llevó a mejorar la estadística.

0 votos

"Estoy de acuerdo con la recomendación de Kodiologist de intentar explicar estas cosas con delicadeza para que se utilicen las estadísticas adecuadas". - Quiero ser un testigo. Un becario explicando a su empleador cómo hacer negocios.

4voto

usεr11852 Puntos 5514

Lo que se describe parece una experiencia algo mala. Sin embargo, no debe ser algo que haga que uno se cuestione inmediatamente su propia formación ni el juicio estadístico de su supervisor/gerente.

Sí, mucho, muy Es probable que tenga razón al sugerir el uso de CV en lugar de $R^2$ para la selección del modelo, por ejemplo. Pero hay que averiguar por qué surgió esta metodología (potencialmente dudosa), ver cómo está perjudicando a la empresa en el futuro y luego ofrecer soluciones para ese dolor. Nadie quiere utilizar conscientemente una metodología errónea, a menos que haya razones para hacerlo. Decir que algo es incorrecto (que bien podría serlo) y no mostrar cómo el error afecta a su actual trabajo, en lugar del comportamiento asintótico en algún momento del futuro, no significa mucho. La gente será reacia a aceptarlo; ¿por qué gastar energía para cambiar cuando todo funciona (en cierto modo)? Su gestor no está necesariamente equivocado desde el punto de vista empresarial. Él es responsable de las decisiones estadísticas y empresariales de su departamento; esas decisiones no tienen por qué coincidir siempre y es muy probable que no coincidan en los resultados a corto plazo (las limitaciones de tiempo son un factor muy importante en el análisis de datos de la industria).

Mi consejo es que te mantengas fiel a tus armas (estadísticas) pero que estés abierto a lo que la gente hace, que seas paciente con las personas que puedan estar alejadas de las nuevas prácticas estadísticas y que ofrezcas consejos/opiniones cuando se le pregunta La gente se siente más segura y aprende de su entorno. Si estás haciendo las cosas bien, esto se verá poco a poco, la gente querrá tu opinión porque reconocerá que puedes ofrecer soluciones donde su flujo de trabajo actual no lo hace. Por último, si después de un tiempo razonable (un par de meses como mínimo) sientes que te desvalorizan y te faltan al respeto, sigue adelante.

Ni que decir tiene que ahora que estás en el sector no puedes quedarte sentado y pensar que no necesitas perfeccionar tu formación en Estadística. Los modelos predictivos, las estrategias de regresión y los algoritmos de agrupación no dejan de evolucionar. Por ejemplo, el uso de la regresión de procesos gaussianos en un entorno industrial era casi ciencia ficción hace 10 años; ahora se puede ver casi como algo que se puede probar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X