33 votos

Distinguir entre dos grupos en estadística y aprendizaje automático: prueba de hipótesis vs clasificación y clustering

Supongamos que tenemos dos grupos de datos, denominadas a y B (cada una conteniendo por ejemplo, de 200 muestras y 1 función), y quiero saber si son diferentes. Yo podría:

  • a) realizar una prueba estadística (por ejemplo, t-test) para ver si son estadísticamente diferentes.

  • b) el uso supervisado de aprendizaje de máquina (por ejemplo, de vectores de soporte clasificador o bosque aleatorio clasificador). Puedo entrenar esta en una parte de mis datos y verificar que en el resto. Si la máquina algoritmo de aprendizaje clasifica el resto correctamente después, puedo estar seguro de que las muestras son diferenciables.

  • c) el uso de un algoritmo no supervisado (por ejemplo, K-means) y deja que divide a los datos en dos muestras. Puedo, a continuación, comprobar si estos dos encontrado muestras de acuerdo con mis etiquetas, a y B.

Mis preguntas son:

  1. Cómo son estas tres maneras diferentes de superposición/exclusiva?
  2. Son b) y c) útil para todos los argumentos científicos?
  3. ¿Cómo podría obtener un "significado" de la diferencia entre las muestras a y B de los métodos b) y c)?
  4. ¿Qué cambiaría si los datos que tenía varias características en lugar de 1?
  5. ¿Qué sucede si contienen un número diferente de muestras, por ejemplo, 100 vs 300?

18voto

Sean Hanley Puntos 2428

Gran pregunta. Cualquier cosa puede ser buena o mala, útil o no, con base en lo que son sus metas (y tal vez sobre la naturaleza de su situación). Para la mayor parte, estos métodos están diseñados para satisfacer las diferentes metas.

  • Las pruebas estadísticas, como el $t$-prueba permiten poner a prueba las hipótesis científicas. A menudo se utilizan para otros fines (porque la gente simplemente no están familiarizados con otras herramientas), pero en general no debería ser. Si usted tiene un a priori la hipótesis de que los dos grupos tienen diferentes medios en una variable de distribución normal, entonces el $t$-prueba le permitirá a usted a prueba esta hipótesis y control de su largo plazo de la tasa de error tipo I (aunque no se sabe si se hizo un tipo de la tasa de error en este caso en particular).
  • Los clasificadores en el aprendizaje de máquina, como un SVM, están diseñados para clasificar patrones como pertenecientes a uno de un conocido conjunto de clases. La situación típica es que usted tiene algunos de los casos conocidos, y quieres entrenar el clasificador de usar para que pueda proporcionar la información más precisa de las clasificaciones en el futuro, cuando se tienen otros patrones, cuya verdadera clase es desconocida. El énfasis aquí está en fuera de muestra de la exactitud; no prueba ninguna hipótesis. Sin duda que la esperanza de que la distribución de las variables predictoras / características difieren entre las clases, porque de lo contrario no hay futuro de la clasificación de la ayuda será posible, pero usted no está tratando de evaluar su creencia de que los medios de Y se diferencian por X. quieres adivinar correctamente X en el futuro cuando Y es conocido.
  • Algoritmos de aprendizaje no supervisado, como agrupación, están diseñados para detectar o imponen a la estructura en un conjunto de datos. Hay muchas posibles razones por las que podría querer hacer esto. A veces, usted podría esperar que no son verdaderas, latente agrupaciones en un conjunto de datos y si desea ver los resultados de clustering se parece sensato y útil para sus propósitos. En otros casos, usted podría querer imponer una estructura en un conjunto de datos para permitir la reducción de datos. De cualquier manera, usted no está tratando de probar una hipótesis acerca de nada, ni con la esperanza de ser capaz de predecir con precisión cualquier cosa en el futuro.

Con esto en mente, le permite responder a sus preguntas:

  1. Los tres métodos se diferencian fundamentalmente en los objetivos a los que sirven.
  2. b y c podrían ser útiles en argumentos científicos, que depende de la naturaleza de los argumentos en cuestión. Por lejos el tipo más común de investigación en ciencia se centra en la comprobación de hipótesis. Sin embargo, la formación de modelos de predicción o la detección latente patrones también son posibles, objetivos legítimos.
  3. Usted normalmente no trate de obtener el 'significado' de los métodos a, b o c.
  4. Suponiendo que las características son categóricos en la naturaleza (que deduzco que es lo que tienes en mente), usted todavía puede comprobar la hipótesis mediante un ANOVA. En el aprendizaje de máquina no es un tema para multi-etiqueta de clasificación. También hay métodos para varios miembros y la superposición de grupos, pero estos son menos frecuentes y constituyen una parte mucho menos manejable problema. Para una visión general del tema, ver Krumpleman, C. S. (2010) la Superposición de la agrupación. Tesis doctoral, UT Austin, Ingeniería Eléctrica y de computadoras (pdf).
  5. Generalmente hablando, los tres tipos de métodos que tienen una mayor dificultad a medida que el número de casos a través de las categorías divergen.

12voto

Bauna Puntos 176

No va a responder a la agrupación, ya que se ha abordado en otras respuestas, pero:

En general, el problema de probar si dos muestras son significativamente diferentes se conoce como de dos muestras de prueba.

Haciendo un $t$-prueba, que limitan severamente el tipo de diferencias que estás buscando (diferencias de medias entre las distribuciones normales). Existen otras pruebas que pueden comprobar más general de los tipos de distancias: de Wilcoxon-Mann-Whitney para estocástico de pedido, la prueba de Kolmogorov-Smirnov para las diferencias generales en una dimensión, la máxima media de discrepancia o el equivalente en energía a distancia para genérico diferencias arbitrarias de los espacios de entrada, o un montón de otras opciones. Cada una de estas pruebas es mejor en la detección de ciertos tipos de diferencias, y a veces es difícil razonar acerca de qué tipo de diferencias son buenos o malos en la detección de, o interpretar los resultados más allá de un $p$ del valor.

Podría ser más fácil pensar sobre algunas de estas cuestiones si se construye una prueba de dos muestras de un clasificador, por ejemplo, como se ha propuesto recientemente por López-Paz y Oquab (2017). El procedimiento es el siguiente:

  • Dividir sus observaciones $X$ $Y$ en dos partes cada uno, $X_\text{train}$ y $X_\text{test}$, $Y_\text{train}$ y $Y_\text{test}$.
  • Entrenar un clasificador para distinguir entre el$X_\text{train}$$Y_\text{train}$.
  • Aplicar la salida del clasificador a$X_\text{test}$$Y_\text{test}$.
  • Cuenta la porción de veces que su predicción era correcta para obtener $\hat p$. Aplicar una prueba binomial para distinguir el null$p = \tfrac12$$p \ne \tfrac12$. Si $p \ne \tfrac12$, entonces las dos distribuciones son diferentes.

Mediante la inspección de la aprendió clasificador, usted también puede ser capaz de interpretar las diferencias entre las distribuciones en un semi-manera significativa. Por el cambio de la familia de clasificadores que considerar, también puede ayudar a guiar la prueba para detectar algunos tipos de diferencias.

Tenga en cuenta que es importante hacer el tren-prueba de la división: lo contrario de un clasificador que acaba de memorizar sus entradas siempre tendría perfecto discriminabilidad. El aumento de la porción de puntos en el conjunto de entrenamiento le da más datos para aprender un buen clasificador, pero menos oportunidad para asegurarse de que la precisión de la clasificación es muy diferente de la casualidad. Este equilibrio es algo que va a variar según el problema y el clasificador de la familia y aún no está bien entendido.

López-Paz y Oquab mostró un buen empírica rendimiento de este enfoque en un par de problemas. Ramdas et al. (2016) , además, mostró que, en teoría, estrechamente relacionadas con enfoque es la tasa óptima para un determinado problema sencillo. El "derecho" de esta configuración es un área de investigación activa, pero este enfoque es al menos razonable en muchos de los ajustes si desea un poco más de flexibilidad y la interpretación que acaba de aplicar un poco de off-the-shelf de prueba estándar.

3voto

Dipstick Puntos 4869

Sólo enfoque (a) sirve a la finalidad de las pruebas de hipótesis.

En el caso de la utilización de algoritmos de aprendizaje automático supervisado (b), que no puede ni probar o refutar hipótesis sobre distingness de grupos. Si la máquina algoritmo de aprendizaje no clasificar a los grupos correctamente puede ocurrir debido al uso de "mal" algoritmo para el problema, o no afinado lo suficiente, etc. Por otro lado, puede que la "tortura" totalmente "al azar" de los datos lo suficiente para producir el sobreajuste del modelo que hace buenas predicciones. Otro problema es cuándo y cómo podrían saber que el algoritmo hace predicciones "buenas"? Casi nunca se tendría como objetivo el 100% de precisión de la clasificación, por lo que cuando se sabe que los resultados de la clasificación de probar nada?

Algoritmos de agrupamiento (c) no están diseñados para el aprendizaje supervisado. Ellos no tienen por objeto la recreación de las etiquetas, pero para agrupar los datos en términos de similitudes. Ahora, los resultados dependen de qué algoritmo utilizar y qué tipo de similitudes que usted está buscando. Sus datos pueden tener diferentes tipos de similitudes, puede que desee buscar diferencias entre niños y niñas, pero el algoritmo puede en lugar de encontrar grupos de ricos y pobres, niños, o inteligentes y menos inteligentes, a la derecha - y la mano izquierda, etc. De no encontrar la agrupación que la intención no es prueba de que la agrupación no tiene sentido, pero sólo a los que se encuentran otros "significativos" de la agrupación. Como en el caso anterior, los resultados dependen del algoritmo utilizado y los parámetros. Sería suite que si uno de cada diez algoritmos/configuración "de su" etiquetas? Lo que si fue uno de cada cien? ¿Qué tiempo de búsqueda antes de detenerse? Observe que cuando se utiliza la máquina de aprendizaje en la gran mayoría de los casos, usted no se detendrá después de usar un algoritmo con la configuración predeterminada y el resultado puede depender de que el procedimiento que utilizó.

2voto

pcooley Puntos 123
  1. a) sólo responde a la pregunta de si la distribución es diferente, pero no cómo distinguirlos. b) también se podrá encontrar el mejor valor para diferenciar entre las dos distribuciones. c) si las dos distribuciones tienen algunas propiedades específicas. Por ejemplo funcionará con normalidad de la distribución, pero no con algunos de los dos modal distribuciones, debido a que el método puede diferenciar dos modos de un mismo grupo en lugar de dos grupos diferentes.

  2. c) no es útil para los argumentos científicos, porque dos de modal distribuciones. b) podría ser utilizado para la diferenciación de dos distribuciones, ya que se puede calcular la significación (ver 3.) A pesar de que yo nunca conocí.

  3. Por el arranque. Calcular el modelo basado en el azar submuestras de 1000 veces. Consigue una puntuación, por ejemplo, la suma mínima de alfa y beta errores. Ordenar la puntuación ascendente. Para el 5% de confianza de que usted elija el 950th valor. Si este valor es menor al 50% (para el mismo número de puntos para el grupo a y B), a continuación, con un 95% de confianza que usted puede hacer caso omiso de la hipótesis nula de que la distribución de la misma. El problema es que si las distribuciones son normales, tienen la misma media, pero tienen una variación diferente, entonces no será capaz de entender que son diferentes por ML técnicas. Por otro lado, usted puede encontrar una prueba de variación que va a ser capaz de distinguir las dos distribuciones. Y podría ser de otra manera que ML será más fuerte que un estadístico de prueba y será capaz de distinguir las distribuciones.

  4. Cuando usted tiene sólo una característica en ML que usted necesita para encontrar un único valor para distinguir las distribuciones. Con dos características de la frontera puede ser un seno y en multi-dimensional espacio podría ser muy raro. Por lo que será mucho más difícil encontrar el borde derecho. Por otro lado, las características adicionales aportar información adicional. Así que, por lo general, permiten distinguir las dos distribuciones más fácil. Si ambas variables siguen una distribución normal, entonces la frontera es una línea.

  5. Muestras más pequeñas pueden comportarse de no-normalmente debido a que el Teorema Central del Límite, no puede ser aplicada. Tamaño de la muestra más empezar a comportarse de una manera más normal, ya que el Teorema del Límite Central comienza a trabajar. Por ejemplo, la media de ambos grupos serán casi distribuidos normalmente si la muestra es lo suficientemente grande. Pero generalmente no es 100 vs 300 pero 10 observaciones en contra de 1000 observaciones. Así que de acuerdo a este sitio de la prueba t para diferencia de la media funcionará independientemente de la distribución, si el número de observaciones es mayor de 40 años y sin valores atípicos.

0voto

Tom KL Puntos 1

Estadístico de prueba es para hacer inferencia a partir de los datos, se le informa de cómo las cosas están relacionadas. El resultado es algo que tiene un mundo real significado. E. g. de cómo el fumar está asociado con el cáncer de pulmón, tanto en términos de dirección y magnitud. Todavía no se decirte por qué sucedieron las cosas. A la respuesta de por qué sucedieron las cosas, tenemos que considerar también la interrelación con otras variables y hacer los ajustes necesarios (consulte la Perla, J. (2003) CAUSALIDAD: MODELOS, el RAZONAMIENTO Y la INFERENCIA).

Aprendizaje supervisado es para hacer predicciones, le dice lo que va a suceder. E. g. Dada la condición de fumador de una persona, podemos predecir si s/él tiene cáncer de pulmón. En casos simples, todavía le dice "cómo", por ejemplo mirando la corte de fumar estado que se identifica por el algoritmo. Pero los modelos más complejos son más difíciles o imposibles de interpretar (aprendizaje profundo/impulsar con un montón de características).

Sin supervisión de aprendizaje se utiliza a menudo en la facilitación de los dos anteriores.

  • Para las pruebas estadísticas, por el descubrimiento de algunos desconocidos que subyacen a los subgrupos de los datos (clustering), se puede inferir que la heterogeneidad en las asociaciones entre las variables. E. g. fumar aumenta las probabilidades de tener cáncer de pulmón para el subgrupo a, pero no se subgrupo B.
  • Para aprendizaje supervisado, podemos crear nuevas características para mejorar la precisión de la predicción y de la robustez. E. g. mediante la identificación de subgrupos (clustering) o combinación de características (reducción de dimensiones) que se asocian con la probabilidad de tener cáncer de pulmón.

Cuando el número de funciones/variables se hace más grande, la diferencia entre el estadístico de prueba y de aprendizaje supervisado vuelto más importante. Pruebas estadísticas no necesariamente se benefician de este, depende por ejemplo si se desea hacer inferencia causal mediante el control de otros factores o la identificación de la heterogeneidad en las asociaciones como se mencionó anteriormente. Aprendizaje supervisado va a funcionar mejor si las características son relevantes y va a ser más como una caja negra.

Cuando el número de la muestra se hace más grande, podemos obtener resultados más precisos para el estadístico de prueba, los resultados más precisos para el aprendizaje supervisado y resultados más sólidos para la supervisión de aprendizaje. Pero esto depende de la calidad de los datos. Mala calidad de los datos puede introducir un sesgo, o el ruido de los resultados.

A veces queremos saber "cómo" y "por qué" para informar de intervención acciones, por ejemplo, mediante la identificación de que fumar causa cáncer de pulmón, la política puede ser hecho para lidiar con eso. A veces queremos saber "qué" para informar la toma de decisiones, por ejemplo, averiguar quién es probable que tenga cáncer de pulmón y darles los primeros tratamientos. Hay una edición especial publicada en la Ciencia acerca de la predicción y sus límites (http://science.sciencemag.org/content/355/6324/468). "El éxito parece ser logrado de forma más sistemática cuando las preguntas son abordadas en los esfuerzos multidisciplinarios que se unen a la comprensión humana del contexto con algorítmica de la capacidad para manejar terabytes de datos." En mi opinión, por ejemplo, el conocimiento descubierto mediante la prueba de hipótesis puede ayudar de aprendizaje supervisado por informarnos de qué datos/características que debe recoger en el primer lugar. Por otro lado, el aprendizaje supervisado puede ayudar a generar hipótesis informando de las variables que

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X