En primer lugar, se trata de una ocurrencia y es incorrecta. Google cuenta con muchos estadísticos de gran talento, expertos en recuperación de información, lingüistas, economistas, algunos psicólogos y otros. Esta gente pasa mucho tiempo educando a muchos no estadísticos sobre la diferencia entre correlación y causalidad. Dado que se trata de una gran organización, puede haber bolsas, incluso grandes, de ignorancia, pero la afirmación es definitivamente falsa. Además, gran parte de esa educación se dirige a los clientes, especialmente a los anunciantes.
Respuesta más profunda: La diferencia es extremadamente importante. Basta con mirar la clasificación de los resultados de las búsquedas, y permítanme ir más allá de la simple "correlación" para incluir medidas de similitud, funciones de puntuación, etc. Algunas páginas se miden para ser buenos resultados para ciertas consultas. Éstas tienen una serie de características de predicción que son importantes para su clasificación. En contraste con estas buenas páginas que son buenos resultados para las consultas hay un conjunto de páginas que son páginas que son muy malos resultados para las mismas consultas. Sin embargo, los creadores de esas páginas se esfuerzan mucho para que parezcan buenas páginas desde un punto de vista numérico como las coincidencias de texto, los enlaces de Internet, etc. Sin embargo, el hecho de que estas páginas sean numéricamente "similares" a las páginas buenas no significa que éstas sean, de hecho, buenas. Por lo tanto, Google ha invertido y seguirá invirtiendo mucho esfuerzo en determinar qué características razonables distinguen (separan) las páginas buenas de las malas.
Esto no es exactamente correlación y causalidad, pero es más profundo que eso. Las páginas buenas para determinadas consultas pueden situarse en un espacio numérico en el que parecen similares y distintas de muchas páginas irrelevantes o malas, pero el hecho de que los resultados estén en la misma región del espacio de características no implica que procedan del mismo subconjunto de "alta calidad" de la web.
Una respuesta más sencilla: Una perspectiva muy sencilla es abordar la clasificación de los resultados. El mejor resultado debería ser el primero, pero el hecho de que algo esté clasificado en primer lugar no significa que sea el mejor resultado. Según algunas métricas de puntuación, es posible que la clasificación de Google esté correlacionada con un estándar dorado de evaluaciones de calidad, pero eso no significa que su clasificación implique que los resultados estén realmente en este orden en términos de calidad y relevancia.
Actualización (tercera respuesta): Con el tiempo, hay otro aspecto que nos afecta a todos: es que el primer resultado de Google puede ser considerado como autoritario, porque es el primer resultado en Google. Aunque el análisis de enlaces (por ejemplo, el "PageRank", un método de análisis de enlaces) es un intento de reflejar la autoridad percibida, con el tiempo las nuevas páginas sobre un tema pueden simplemente reforzar esa estructura de enlaces al enlazar con el primer resultado de Google. Una página más nueva que tiene más autoridad tiene un problema con la ventaja respecto al primer resultado. Como Google quiere ofrecer la página más relevante en la actualidad En el caso de los países en vías de desarrollo, una serie de factores, entre ellos el llamado fenómeno "rich-get-richer", surgen debido a un efecto implícito de la correlación en la causalidad percibida.
Actualización (cuarta respuesta): Me di cuenta (por un comentario más abajo) de que podría ser útil leer la Alegoría de la Caverna de Platón para tener una idea de cómo interpretar la correlación y la causalidad como resultado de los "reflejos/proyecciones" de la realidad y de cómo la percibimos nosotros (o nuestras máquinas). La correlación, limitada estrictamente a la Correlación de Pearson, es demasiado limitada como interpretación de la cuestión de la incomprensión de la asociación (más amplia que la simple correlación) y la causalidad.