Estadístico de prueba es para hacer inferencia a partir de los datos, se le informa de cómo las cosas están relacionadas. El resultado es algo que tiene un mundo real significado. E. g. de cómo el fumar está asociado con el cáncer de pulmón, tanto en términos de dirección y magnitud. Todavía no se decirte por qué sucedieron las cosas. A la respuesta de por qué sucedieron las cosas, tenemos que considerar también la interrelación con otras variables y hacer los ajustes necesarios (consulte la Perla, J. (2003) CAUSALIDAD: MODELOS, el RAZONAMIENTO Y la INFERENCIA).
Aprendizaje supervisado es para hacer predicciones, le dice lo que va a suceder. E. g. Dada la condición de fumador de una persona, podemos predecir si s/él tiene cáncer de pulmón. En casos simples, todavía le dice "cómo", por ejemplo mirando la corte de fumar estado que se identifica por el algoritmo. Pero los modelos más complejos son más difíciles o imposibles de interpretar (aprendizaje profundo/impulsar con un montón de características).
Sin supervisión de aprendizaje se utiliza a menudo en la facilitación de los dos anteriores.
- Para las pruebas estadísticas, por el descubrimiento de algunos desconocidos que subyacen a los subgrupos de los datos (clustering), se puede inferir que la heterogeneidad en las asociaciones entre las variables. E. g. fumar aumenta las probabilidades de tener cáncer de pulmón para el subgrupo a, pero no se subgrupo B.
- Para aprendizaje supervisado, podemos crear nuevas características para mejorar la precisión de la predicción y de la robustez. E. g. mediante la identificación de subgrupos (clustering) o combinación de características (reducción de dimensiones) que se asocian con la probabilidad de tener cáncer de pulmón.
Cuando el número de funciones/variables se hace más grande, la diferencia entre el estadístico de prueba y de aprendizaje supervisado vuelto más importante. Pruebas estadísticas no necesariamente se benefician de este, depende por ejemplo si se desea hacer inferencia causal mediante el control de otros factores o la identificación de la heterogeneidad en las asociaciones como se mencionó anteriormente. Aprendizaje supervisado va a funcionar mejor si las características son relevantes y va a ser más como una caja negra.
Cuando el número de la muestra se hace más grande, podemos obtener resultados más precisos para el estadístico de prueba, los resultados más precisos para el aprendizaje supervisado y resultados más sólidos para la supervisión de aprendizaje. Pero esto depende de la calidad de los datos. Mala calidad de los datos puede introducir un sesgo, o el ruido de los resultados.
A veces queremos saber "cómo" y "por qué" para informar de intervención acciones, por ejemplo, mediante la identificación de que fumar causa cáncer de pulmón, la política puede ser hecho para lidiar con eso. A veces queremos saber "qué" para informar la toma de decisiones, por ejemplo, averiguar quién es probable que tenga cáncer de pulmón y darles los primeros tratamientos. Hay una edición especial publicada en la Ciencia acerca de la predicción y sus límites (http://science.sciencemag.org/content/355/6324/468). "El éxito parece ser logrado de forma más sistemática cuando las preguntas son abordadas en los esfuerzos multidisciplinarios que se unen a la comprensión humana del contexto con algorítmica de la capacidad para manejar terabytes de datos." En mi opinión, por ejemplo, el conocimiento descubierto mediante la prueba de hipótesis puede ayudar de aprendizaje supervisado por informarnos de qué datos/características que debe recoger en el primer lugar. Por otro lado, el aprendizaje supervisado puede ayudar a generar hipótesis informando de las variables que