21 votos

¿Hasta qué punto es relevante para Google la distinción entre correlación y causalidad?

Contexto

Una pregunta popular en este sitio es " ¿Cuáles son los pecados estadísticos más comunes? ". Uno de los pecados mencionados es asumir que "la correlación implica causalidad..." enlace

Luego, en los comentarios con 5 upvotes se sugiere que: "Google gana 65B dólares al año sin importarle la diferencia".

A riesgo de sobreanalizar una ocurrencia ligera, pensé que esto podría ser un punto de discusión útil para profundizar en la distinción entre correlación y causalidad y la relevancia práctica de la distinción; y quizás podría destacar algo sobre la relación entre el aprendizaje automático y la distinción entre correlación y causalidad.

Supongo que el comentario se refiere a las tecnologías que subyacen a la generación de los resultados de los motores de búsqueda y a las tecnologías relacionadas con la visualización de la publicidad.

Pregunta

  • ¿En qué medida la distinción entre correlación y causalidad es relevante para la generación de ingresos de Google, quizás centrándose especialmente en la generación de ingresos a través de tecnologías relacionadas con la visualización de publicidad y resultados de búsqueda de calidad?

13voto

Epsilon Puntos 21

La respuesta sencilla es que a Google (o a cualquiera) debería importarle la distinción en la medida en que pretenda intervenir . El conocimiento causal informa sobre los efectos de las intervenciones (acciones) en un ámbito determinado.

Si, por ejemplo, Google desea aumentar el porcentaje de clics en los anuncios, incrementar el número de usuarios de GMail o Google+, o inducir a los usuarios a utilizar Google en lugar de Bing, entonces necesita conocer los efectos de las posibles acciones (por ejemplo, aumentar el tamaño de la letra de los anuncios, promocionar Google+ en las revistas impresas o dar a conocer las diferencias entre los resultados de búsqueda de Google y Bing, respectivamente). La correlación es suficiente para que el motor de búsqueda de Google funcione bien, pero para sus otros sistemas (y su negocio en general) la distinción suele ser importante.

Cabe destacar que Google (y muchas empresas con negocios en la red) realizan constantemente experimentos en línea. Esta es una de las formas más sencillas y mejores de identificar y estimar las dependencias causales.

6voto

Nikos Alexandris Puntos 764

En primer lugar, se trata de una ocurrencia y es incorrecta. Google cuenta con muchos estadísticos de gran talento, expertos en recuperación de información, lingüistas, economistas, algunos psicólogos y otros. Esta gente pasa mucho tiempo educando a muchos no estadísticos sobre la diferencia entre correlación y causalidad. Dado que se trata de una gran organización, puede haber bolsas, incluso grandes, de ignorancia, pero la afirmación es definitivamente falsa. Además, gran parte de esa educación se dirige a los clientes, especialmente a los anunciantes.

Respuesta más profunda: La diferencia es extremadamente importante. Basta con mirar la clasificación de los resultados de las búsquedas, y permítanme ir más allá de la simple "correlación" para incluir medidas de similitud, funciones de puntuación, etc. Algunas páginas se miden para ser buenos resultados para ciertas consultas. Éstas tienen una serie de características de predicción que son importantes para su clasificación. En contraste con estas buenas páginas que son buenos resultados para las consultas hay un conjunto de páginas que son páginas que son muy malos resultados para las mismas consultas. Sin embargo, los creadores de esas páginas se esfuerzan mucho para que parezcan buenas páginas desde un punto de vista numérico como las coincidencias de texto, los enlaces de Internet, etc. Sin embargo, el hecho de que estas páginas sean numéricamente "similares" a las páginas buenas no significa que éstas sean, de hecho, buenas. Por lo tanto, Google ha invertido y seguirá invirtiendo mucho esfuerzo en determinar qué características razonables distinguen (separan) las páginas buenas de las malas.

Esto no es exactamente correlación y causalidad, pero es más profundo que eso. Las páginas buenas para determinadas consultas pueden situarse en un espacio numérico en el que parecen similares y distintas de muchas páginas irrelevantes o malas, pero el hecho de que los resultados estén en la misma región del espacio de características no implica que procedan del mismo subconjunto de "alta calidad" de la web.

Una respuesta más sencilla: Una perspectiva muy sencilla es abordar la clasificación de los resultados. El mejor resultado debería ser el primero, pero el hecho de que algo esté clasificado en primer lugar no significa que sea el mejor resultado. Según algunas métricas de puntuación, es posible que la clasificación de Google esté correlacionada con un estándar dorado de evaluaciones de calidad, pero eso no significa que su clasificación implique que los resultados estén realmente en este orden en términos de calidad y relevancia.

Actualización (tercera respuesta): Con el tiempo, hay otro aspecto que nos afecta a todos: es que el primer resultado de Google puede ser considerado como autoritario, porque es el primer resultado en Google. Aunque el análisis de enlaces (por ejemplo, el "PageRank", un método de análisis de enlaces) es un intento de reflejar la autoridad percibida, con el tiempo las nuevas páginas sobre un tema pueden simplemente reforzar esa estructura de enlaces al enlazar con el primer resultado de Google. Una página más nueva que tiene más autoridad tiene un problema con la ventaja respecto al primer resultado. Como Google quiere ofrecer la página más relevante en la actualidad En el caso de los países en vías de desarrollo, una serie de factores, entre ellos el llamado fenómeno "rich-get-richer", surgen debido a un efecto implícito de la correlación en la causalidad percibida.

Actualización (cuarta respuesta): Me di cuenta (por un comentario más abajo) de que podría ser útil leer la Alegoría de la Caverna de Platón para tener una idea de cómo interpretar la correlación y la causalidad como resultado de los "reflejos/proyecciones" de la realidad y de cómo la percibimos nosotros (o nuestras máquinas). La correlación, limitada estrictamente a la Correlación de Pearson, es demasiado limitada como interpretación de la cuestión de la incomprensión de la asociación (más amplia que la simple correlación) y la causalidad.

5voto

Dori Puntos 1325

Autor de la ocurrencia aquí.

El comentario se inspiró en parte en una charla de David Mease (en Google), en la que dijo, y parafraseo, que a las compañías de seguros de coches no les importa ser hombre causa más accidentes, mientras esté correlacionado, tienen que cobrar más. De hecho, es imposible cambiar el sexo de alguien en un experimento, por lo que nunca se podría demostrar la causa.

De la misma manera, a Google no le importa si el color rojo hace alguien haga clic en un anuncio, si se correlaciona con más clics, pueden cobrar más por ese anuncio.

También se inspiró en este artículo de Wired: El fin de la teoría: El diluvio de datos hace obsoleto el método científico . Una cita:

"La filosofía fundacional de Google es que no sabemos por qué esta página es mejor que aquella: Si las estadísticas de enlaces entrantes dicen que lo es, es suficiente".

Obviamente, Google tiene mucha gente muy inteligente que sabe la diferencia entre causalidad y correlación, pero en su caso, pueden ganar mucho dinero sin preocuparse por ello.

1voto

Lizzie Silver Puntos 520

Estoy de acuerdo con David : La diferencia es importante si se pretende intervenir, y Google puede probar los resultados de las intervenciones realizando experimentos controlados. (El programa óptimo de estos experimentos depende de su conjunto de hipótesis causales, que aprende de experimentos anteriores más datos observacionales (¡las correlaciones siguen siendo útiles!)

Hay una segunda razón por la que Google podría querer aprender las relaciones causales. Las relaciones causales son más resistentes a otros intervenciones de los jugadores. Las intervenciones tienden a ser locales, por lo que pueden cambiar una parte de la red causal pero dejar sin cambios todos los demás mecanismos causales. Por el contrario, las relaciones predictivas pueden fallar si se rompe un vínculo causal lejano. Internet cambia constantemente, y Google debería interesarse por saber qué características del entorno online son más resistentes a esos cambios.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X