4 votos

¿Se pueden mejorar las estadísticas basadas en unidades de medida crudas?

Estoy recogiendo en línea recetas con el fin de calcular el promedio de las proporciones de los ingredientes para crepes o de pastelería. La mayoría de los volúmenes en función de las unidades de medida en inglés recetas (tazas, cucharadas, cucharaditas) difieren de un país a otro y, a veces, diferentes dentro de un mismo país, dependiendo de si tradicional, métrica o de gobierno unidades normalizadas se utilizan.

He utilizado mis propias conjeturas para convertir estas unidades mililitros. Así, por ejemplo, si no está claro exactamente qué taza de medir es el indicado, yo uso una métrica taza (250ml).

Me pregunto si hay herramientas que pueden ser utilizados para inferir la más probable es la conversión de estas unidades de crudo, dado que un porcentaje de los datos está grabado con la más exacta de las unidades (gramos, mililitros). O, en su defecto, a cuenta de la incertidumbre en alguna forma (de mayor tamaño de los intervalos de confianza?).

Actualización: veo que algunas preguntas tienen comentarios preguntando lo que las estadísticas se utilizan para. En caso de que sea útil, yo la estoy usando para responder a preguntas como "¿Cómo hacer crepes difieren de los suecos panqueques?" y "¿Cómo inglés recetas de crepes difieren de francés recetas?". Por ejemplo...

Ingredient proportions for pancake batter

3voto

Olivier Pons Puntos 118

Ciertamente se podría asignar arbitrariamente los valores atípicos para tener el sistema de conversión que reduce su valor atípico-ness. Pero creo que esto sería más de una decisión arbitraria de una mejora.

Puede ser también la búsqueda de una prueba sencilla para saber si su distribución de tazas de un determinado ingrediente en una receta de categoría es unimodal o no (después de la normalización de las porciones y otros ingredientes). Hartigan inmersión de prueba es una prueba, pero dudo que va a ser útil aquí. Ciertamente se podría hacer una simulación de mejor de los casos del conjunto de datos para ejecutar el diptest y obtener un mejor sentido de su utilidad aquí.

Mi inclinación es a tratar esto como un problema de minería de datos en la que tratamos de encontrar que otras características de la receta están asociados con los diferentes tipos de copas. Me gustaría plantear la hipótesis de que la copa tipo está asociado con la región, la cultura y la región/la cultura es el mejor identificado por las características lingüísticas en las recetas.

Me gustaría entrenar un clasificador, tal vez sólo Naïve Bayes, con un conjunto de datos en el que la copa es de tipo conocido. Esto puede descartar en línea receta de sitios web, muchos de los cuales se traducen automáticamente a partir de métricas a unidades imperiales. Lo ideal sería que raspar el contenido de varios libros de cocina regional.

Yo probablemente realizar una rápida comprobación de validez para ver si hay realmente ninguna variación regional en las unidades. Quién sabe, la variación en las unidades de medida pueden ser mejor explicados por si la receta está dirigido a casual cocineros (raro propias escalas) o graves.

Las proporciones de los ingredientes pueden ser útiles, pero quizás es demasiado complicado para ser vale la pena. La mayoría de las recetas son tolerantes de la imprecisión. Dentro de menos tolerante categorías (es decir tortas), el factor decisivo no es el de la materia prima, pero los ingredientes de los ingredientes. Es decir, grasa, proteína, etc. Así que lo ideal sería la búsqueda de ingredientes nutricionales de los perfiles en alguna de las muchas fuentes en línea.

Creo que probablemente sería más fácil y más exitoso para ver si la podemos clasificar en base a las palabras en las recetas, incluyendo el título, ingredientes, o incluso paso a paso las instrucciones. Por ejemplo, "azúcar" (inglés Británico) frente a "azúcar fino" (Americano) o "self-raising flour" (un producto Británico).

Para identificar estos shibboleth características, usted puede capacitar al azar de los bosques para predecir la región o de la unidad de medida del sistema cuando se le da una TF-IDF (plazo de frecuencia inversa de documento de frecuencia) de la matriz hecha por el recuento de palabras en las recetas. En R, la varSelRF y Boruta paquetes son útiles para la selección de variables a través de random forest.

Pero yo sí creo que la clave es la obtención de un conjunto de datos con conocidas en el terreno de la verdad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X