Ciertamente se podría asignar arbitrariamente los valores atípicos para tener el sistema de conversión que reduce su valor atípico-ness. Pero creo que esto sería más de una decisión arbitraria de una mejora.
Puede ser también la búsqueda de una prueba sencilla para saber si su distribución de tazas de un determinado ingrediente en una receta de categoría es unimodal o no (después de la normalización de las porciones y otros ingredientes). Hartigan inmersión de prueba es una prueba, pero dudo que va a ser útil aquí. Ciertamente se podría hacer una simulación de mejor de los casos del conjunto de datos para ejecutar el diptest y obtener un mejor sentido de su utilidad aquí.
Mi inclinación es a tratar esto como un problema de minería de datos en la que tratamos de encontrar que otras características de la receta están asociados con los diferentes tipos de copas. Me gustaría plantear la hipótesis de que la copa tipo está asociado con la región, la cultura y la región/la cultura es el mejor identificado por las características lingüísticas en las recetas.
Me gustaría entrenar un clasificador, tal vez sólo Naïve Bayes, con un conjunto de datos en el que la copa es de tipo conocido. Esto puede descartar en línea receta de sitios web, muchos de los cuales se traducen automáticamente a partir de métricas a unidades imperiales. Lo ideal sería que raspar el contenido de varios libros de cocina regional.
Yo probablemente realizar una rápida comprobación de validez para ver si hay realmente ninguna variación regional en las unidades. Quién sabe, la variación en las unidades de medida pueden ser mejor explicados por si la receta está dirigido a casual cocineros (raro propias escalas) o graves.
Las proporciones de los ingredientes pueden ser útiles, pero quizás es demasiado complicado para ser vale la pena. La mayoría de las recetas son tolerantes de la imprecisión. Dentro de menos tolerante categorías (es decir tortas), el factor decisivo no es el de la materia prima, pero los ingredientes de los ingredientes. Es decir, grasa, proteína, etc. Así que lo ideal sería la búsqueda de ingredientes nutricionales de los perfiles en alguna de las muchas fuentes en línea.
Creo que probablemente sería más fácil y más exitoso para ver si la podemos clasificar en base a las palabras en las recetas, incluyendo el título, ingredientes, o incluso paso a paso las instrucciones. Por ejemplo, "azúcar" (inglés Británico) frente a "azúcar fino" (Americano) o "self-raising flour" (un producto Británico).
Para identificar estos shibboleth características, usted puede capacitar al azar de los bosques para predecir la región o de la unidad de medida del sistema cuando se le da una TF-IDF (plazo de frecuencia inversa de documento de frecuencia) de la matriz hecha por el recuento de palabras en las recetas. En R, la varSelRF y Boruta paquetes son útiles para la selección de variables a través de random forest.
Pero yo sí creo que la clave es la obtención de un conjunto de datos con conocidas en el terreno de la verdad.