6 votos

¿Por tanto Big Data?

  • Ya han pasado muchos años desde que me he hecho ninguna estadística (o cualquier grave de las matemáticas), pero sí recuerdo que el error de muestreo disminuye más lentamente para tamaños de muestras más grandes (como n^-1/2, al menos para algunos de estadísticas).

  • También recuerdo (de análisis numérico) que para los procesos de modelado lineal de ecuaciones diferenciales ordinarias, errores en constante coeficientes o condiciones iniciales aumentan exponencialmente con el tiempo (y al menos tan malo para procesos no lineales), es decir, la reducción de la condición inicial sólo los errores y comprad para nosotros un aumento de la logarítmica en la predicción de precisión a lo largo del tiempo.

  • Mientras que mucho se ha dicho sobre los Grandes Datos y la parcialidad de los errores, una cosa es cierta: lo que los datos ya se puede recoger (junto con cualquiera de los sesgos que puedan contener), usted puede tomar la muestra al azar sin la introducción de sesgos. En resumen: si usted puede almacenar -- usted puede tomar la muestra (sin prejuicios).

A la luz de estos (y puedo estar equivocado, por supuesto), parece que cualquier muestra adicional recopilamos tiene rendimiento decreciente en las estadísticas, así como las predicciones (y los beneficios disminuyen muy rápidamente). Parece, entonces, que incluso si el almacenamiento y el análisis de Grandes Datos es relativamente barato, aún así no pagar. Tenemos un montón de datos que nos compre con poco o ningún conocimiento adicional: muy poco más de precisión estadística, no menos sesgo, y prácticamente ninguna capacidad predictiva[1]. Entonces, ¿cuáles son los beneficios de Big Data?

(Esta pregunta es más no un duplicado de la de muestreo Es relevante en el momento de la 'big data'?, y, en cualquier caso, las respuestas a esa pregunta no responder a las minas)

[1] Este último punto -- de la capacidad predictiva-parece la más pertinente, ya que es lo que muchos de los usos comerciales de Grandes volúmenes de Datos. Pero el comportamiento de los usuarios de los cambios todo el tiempo, probablemente con algunas complicado comentarios, y posiblemente no lineal -- así que sea cual sea la exactitud adicional que tenemos, dicen que n^-1/2, esta magra ganancia, entonces, se convierte logarítmica cuando las predicciones son que se trate. De hecho, se puede argumentar que para obtener mejores predicciones, es preferible reducir el tiempo que se toma para calcular la estadística (por muestreo), que para aumentar la precisión al aumentar el tamaño de la muestra, debido a que el tiempo tiene un efecto exponencial en "conocimiento", mientras que el tamaño de la muestra tiene un mero polinomio efecto.

6voto

Amadiere Puntos 5606

no es sólo la información que es grande, el problema es grande.

De hecho, los beneficios de aumentar el tamaño muestral no se si eran de cómputo de la media de terabytes de datos. Sólo que nadie está interesado en los 10 dígitos de la media de todos modos...

Más a menudo que no, los problemas de big data son más como una gran cantidad de problemas a ser resueltos de una vez. Tiene millones de usuarios, miles de productos. El tamaño de la muestra para cada uno de ellos no son grandes datos, pero usted tiene un montón de ellos... del mismo modo, en reconocimiento de imagen, usted tiene un montón de píxeles, y un montón de etiquetas (imagenet tiene algunos 20000 categorías o así), así que más a menudo que no, los que no tienen ni una sola de capacitación ejemplo de que es muy similar...

Cuando la búsqueda de un gran espacio de hipótesis, también es necesario ajustar por múltiples problemas de prueba. Dicen que son pruebas para problemas con un $\alpha=0.999$ de certeza. Pero son las pruebas a sólo 100 hipótesis, entonces termina con la certeza de que sólo $\bar\alpha=0.90$ que el resultado es realmente correcto. Y esta confianza disminuye rápidamente - en 1000 pruebas, hay un 2 en 3 en la probabilidad de tener un resultado falso positivo. Una (al menos teórica) de salida es el uso de un mayor $\alpha$ como $\alpha=0.99999$ en las pruebas individuales. Pero entonces puede que tenga que obtener una muestra más grande para ser capaz de llegar a tal confianza nunca...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X