46 votos

¿Exactamente qué es Big Data?

Me han preguntado en varias ocasiones a la pregunta:

¿Qué es Big Data?

Tanto por parte de los estudiantes y a mis familiares que están recogiendo el rumor en torno a las estadísticas y ML.

He encontrado este CV-post. Y siento que estoy de acuerdo con que la única respuesta allí.

La página de la Wikipedia también tiene algunos comentarios, pero no estoy seguro de si estoy muy de acuerdo con todo lo que hay.

EDIT: (siento que la página de Wikipedia carece en la explicación de los métodos para abordar este y el paradigma que menciono a continuación).

Recientemente asistí a una conferencia a cargo de Emmanuel Candès, en donde presentó el Big-Data paradigma de la

Recoger los datos de $\Rightarrow$ Preguntar después

Esta es la principal diferencia de una hipótesis de investigación, donde por primera vez formular una hipótesis y, a continuación, recoger datos para decir algo al respecto.

Pasó mucho en la problemática de la cuantificación de la fiabilidad de las hipótesis generadas por el espionaje de datos. La principal cosa que me sacó de su conferencia fue que realmente necesitamos para empezar a controlar el FDR y presentó el knockoff método para hacerlo.

Creo que el CV debe tener una pregunta sobre ¿qué es Big-Data y ¿cuál es su definición. Siento que hay tantas diferentes "definiciones", que es difícil de entender lo que es, o explicar a los demás, si no hay un consenso general en lo que consiste.

Siento que la "definición/paradigma/descripción" proporcionado por Candès es la cosa más cercana estoy de acuerdo, ¿cuáles son sus pensamientos?

EDIT2: creo que la solución debe ofrecer algo más que una explicación de los datos en sí. Debe ser una combinación de datos/métodos/paradigma.

EDIT3: creo que esta entrevista con Michael Jordan podría añadir algo a la mesa así.

EDIT4: decidí elegir la respuesta más votada como la correcta. Aunque creo que todas las respuestas que añadir algo a la discusión y yo, personalmente, siento que esto es más una pregunta de un paradigma de cómo se genera hipótesis y trabajar con datos. Espero que esta pregunta servirá como un conjunto de referencias para aquellos que van en busca de lo que los Grandes Datos. Espero que la página de la Wikipedia será cambiado para enfatizar aún más la comparación múltiple problema y el control de la FDR.

56voto

codymanix Puntos 12119

Tuve el placer de asistir a una conferencia impartida por el Dr. Hadley Wickham, de RStudio la fama. Él la definió tal que

  • Big Data: no Puede caber en la memoria en un equipo: > 1 TB
  • Medio de Datos: Ajusta en la memoria de un servidor: 10 GB - 1 TB
  • Pequeños Datos: Ajusta en la memoria en un ordenador portátil: < 10 GB

Hadley también cree que la mayoría de los datos de al menos puede ser reducido a manejable problemas, y que una cantidad muy pequeña es en realidad el verdadero big data. Se denota esto como el "Big Data Mirage".

  • El 90% Puede ser reducido a un pequeño/ mediano de datos problema con el subconjunto de/muestreo/resume
  • 9% Puede ser reducido a un número muy grande de datos pequeños problemas
  • 1% Es irreducible grande

Las diapositivas se pueden encontrar aquí.

19voto

Dawny33 Puntos 1811

Un conjunto de datos/flujo se llama Big Data, si satisface todas las cuatro V

  • Volumen
  • Velocidad
  • Veracidad
  • Variedad

A menos que, y hasta que no está satisfecho, el conjunto de datos no puede ser denominado como el Big Data.

Una respuesta similar de la mina, para su referencia.


Habiendo dicho que, como científico, me parece el Mapa-Reducir marco muy agradable. La división de los datos, la asignación y, a continuación, los resultados del asignador de paso se reduce a un único resultado. Me parece que este marco realmente fascinante, y cómo se ha beneficiado en el mundo de los datos.

Y estas son algunas de las maneras cómo puedo lidiar con el problema de datos durante mi trabajo de todos los días:

  1. Columnas de Bases de datos: Estos son de gran ayuda para los científicos de datos. Yo uso de Aws Desplazamiento al Rojo como mi columnas de datos de la tienda. Ayuda en la ejecución de complejos de consultas SQL y se une a menos de un dolor. Me parece muy buena, sobre todo cuando mi equipo de desarrollo hace algunas muy complejas preguntas, y no necesito decir: "Sí, corrió una consulta; que nos iba a llegar en un día!"
  2. La chispa y el Mapa Reducir Marco: Razones que se han explicado anteriormente.

Y esta es la manera en que los datos del experimento se lleva a cabo:

  • El problema a resolver es identificado
  • Las posibles fuentes de datos están ahora en la lista de espera.
  • Las tuberías están diseñadas para obtener los datos en el corrimiento Al rojo de las bases de datos locales. Sí, la Chispa se produce aquí. Realmente es muy útil durante el DB - > S3 --> corrimiento Al rojo de movimiento de datos.
  • Entonces, las consultas y SQL se realiza un análisis de los datos en el desplazamiento Al rojo.

Sí, hay Grandes Datos algoritmos como hyper loglog, etc; pero no he encontrado la necesidad de usarlos.

Así Que, Sí. Los datos se recogen en primer lugar antes de la generación de la hipótesis.

15voto

user777 Puntos 10934

Creo que la única utilidad de la definición de big data son los datos que los catálogos de toda la información acerca de un fenómeno en particular. A lo que me refiero es que en lugar de que el muestreo de una población de interés y la recolección de algunas de las mediciones en las unidades, big data, recoge las mediciones en el conjunto de la población de interés. Supongamos que usted está interesado en Amazon.com clientes. Es perfectamente factible Amazon.com para recopilar información acerca de todos sus clientes en la compra, en lugar de sólo el seguimiento de algunos usuarios o sólo el seguimiento de algunas transacciones.

A mi mente, las definiciones que dependen del tamaño de la memoria de los datos a ser de cierta utilidad limitada. Por esa métrica, dado bastante grande a un equipo, no hay datos es en realidad el big data. En el extremo de un ser infinitamente grande equipo, este argumento puede parecer reduccionista, pero consideremos el caso de comparar mi nivel consumidor portátil a los servidores de Google. Claramente me gustaría tener enormes problemas logísticos tratando de tamizar a través de un terabyte de datos, pero Google tiene los recursos para gestionar esa tarea bastante fácilmente. Lo que es más importante, el tamaño de su ordenador no es una propiedad intrínseca de los datos, por lo que la definición de los datos puramente en referencia a lo que la tecnología tiene en la mano es como medir la distancia en términos de la longitud de sus brazos.

Este argumento no es sólo un formalismo. La necesidad de complicadas palatalization sistemas y plataformas informáticas distribuidas desaparece una vez que usted tiene suficiente poder de cómputo. Así que si aceptamos la definición que el Big Data es demasiado grande para caber en la memoria RAM (o se bloquea, Excel, o lo que sea), luego de la actualización de nuestras máquinas, Big Data, deja de existir. Esto parece una tontería.

Pero echemos un vistazo a algunos datos sobre big data, y voy a llamar a este "Gran Metadatos." Este blog se observa una tendencia importante: la memoria RAM disponible que está aumentando más rápidamente que el tamaño de los datos, y provocativamente afirma que "el Gran memoria RAM es de comer Big Data", es decir, con la infraestructura suficiente, ya no tiene un gran problema de datos, sólo tienes datos, y volver de nuevo al dominio de métodos analíticos convencionales.

Por otra parte, una representación diferente de los métodos tienen diferentes tamaños, así que no es precisamente clara de lo que significa tener "big data" se define en referencia a su tamaño en memoria. Si los datos se construyen de tal manera que mucha de la información redundante se almacena (es decir, elige una forma ineficiente de codificación), usted puede fácilmente cruzar el umbral de lo que su equipo puede gestionar fácilmente. Pero ¿por qué quieres una definición que tienen esta propiedad? A mi mente, o si no el conjunto de datos es "big data" no debería depender de si o no usted hizo eficiente de decisiones en el diseño de la investigación.

Desde el punto de vista de un profesional, el big data como defino también lleva consigo los requisitos de cálculo, pero estos son los requisitos específicos de la aplicación. El pensamiento a través del diseño de base de datos (software, hardware, organización) por $10^4$ observaciones es muy diferente a la de $10^7$ observaciones, y que está perfectamente bien. Esto también implica que el big data, como yo lo defino, no necesitan especializado de la tecnología más allá de lo que hemos desarrollado en la estadística clásica: las muestras y los intervalos de confianza son todavía perfectamente útil y válida inferencial herramientas cuando usted necesita para extrapolar. Modelos lineales pueden proporcionar perfectamente aceptable respuestas a algunas preguntas. Pero el big data como yo lo defino como pueden requerir nueva tecnología. Tal vez usted necesita para clasificar nuevos datos en una situación donde usted tiene más predictores de datos de entrenamiento, o donde su predictores crecen con el tamaño de los datos. Estos problemas requieren nuevas tecnología.


Como un aparte, creo que esta cuestión es importante porque, implícitamente, toca sobre el por qué de las definiciones son importantes, es decir, para quién es la definición del tema. Una discusión de la suma de primer grado no se inicia con la teoría de conjuntos, se inicia con la referencia para el conteo de objetos físicos. Ha sido mi experiencia que la mayoría del uso del término "big data" se produce en la prensa popular o en las comunicaciones entre personas que no son especialistas en estadística o de la máquina de aprendizaje (materiales de marketing solicitar el análisis de profesionales, por ejemplo), y se utiliza para expresar la idea de que la informática prácticas significaba sombrero hay una gran cantidad de información disponible que puede ser explotada. Esto es casi siempre en el contexto de los datos que revela información acerca de los consumidores que es, quizás, si no privada, no es inmediatamente obvia. La anécdota acerca de una cadena de tiendas de envío de correos directos a las personas que se evaluaron fueron las madres gestantes sobre la base de sus compras más recientes es el ejemplo clásico de esto.

Así, la connotación y análisis en torno a que el uso común de "big data" también lleva consigo la idea de que los datos pueden revelar oscuros, ocultos o privados, incluso los detalles de la vida de una persona, siempre que la solicitud de una suficiente inferencial método. Cuando los medios de comunicación informan sobre los grandes datos, este deterioro del anonimato es por lo general lo que está conduciendo a la definición de lo "big data" se parece algo equivocado en esta luz, porque la prensa popular y no especialistas no tienen ninguna preocupación por los méritos de bosques aleatorios y máquinas de soporte vectorial y así sucesivamente, ni tienen un sentido de los retos de análisis de datos a diferentes escalas. Y esto está bien. La preocupación que desde su perspectiva se centra en el ámbito social , político y consecuencias legales de la era de la información. Una definición precisa de los medios de comunicación o no especialistas no es muy útil debido a que su comprensión no es precisa. (No creo que me petulante -- yo soy, simplemente, observar que no todo el mundo puede ser un experto en todo.)

8voto

Laurent Duval Puntos 229

enter image description here

La vericación de la enorme literatura sobre Big Data, he recogido hasta 14 "V" términos, 13 de ellos a lo largo de unos 11 dimensiones:

  • Validez,
  • Valor,
  • La Variabilidad Del/De La Varianza,
  • Variedad,
  • Velocidad,
  • Veracidad/Veraciousness,
  • Viabilidad,
  • La virtualidad,
  • La visualización,
  • La volatilidad,
  • De volumen.

El 14 de término es Vacuidad. Según los últimos provocativa post, los Grandes Datos no Existe. Sus principales puntos son los siguientes:

  • "Big Data" no es Grande
  • La mayoría de los "Grandes Datos" no es Realmente Útil
  • [Debemos] Hacer La Mayoría De los Pequeños de Datos

Una correcta definición de Big Data podría evolucionar con el hardware, el software, las necesidades y los conocimientos, y probablemente no debería depender de un tamaño fijo. Por lo tanto, la seizable definición de Big data: La próxima frontera para la innovación, la competencia y la productividad, de junio de 2011:

"Big data" se refiere a conjuntos de datos cuyo tamaño es más allá de la capacidad de típico de la base de datos de herramientas de software para capturar, almacenar, administrar, y analizar.

3voto

Metallica Puntos 484

Creo que la razón por la que la gente se confunde de lo que es Big Data es que ellos no ven sus beneficios. El valor de Big Data (la técnica), no es sólo en la cantidad de datos que se pueden recoger, sino también en el Modelado Predictivo, que es el tiempo más importante:

  1. Modelado predictivo cambiado completamente la forma de hacer estadísticas y predicciones, nos da un mayor conocimiento sobre nuestros datos, porque los nuevos modelos, nuevas técnicas pueden detectar mejor las tendencias, los ruidos de los datos, la captura de "multi"-dimensiones de la base de datos. El más dimensiones que tenemos en nuestra base de datos, la mejor oportunidad que puede crear el modelo adecuado. Modelado predictivo es el corazón de los Grandes Datos del valor.
  2. Big Data (en términos de tamaño de los datos) es el paso preliminar, y está ahí para servir a los modelos Predictivos: enriquecer la base de datos con respecto a la: 1.número de predictores (más variables), 2.número de observaciones.

Más predictores porque ahora somos capaces de capturar los datos que eran imposibles de capturar antes (debido a la limitada potencia de hardware, la capacidad limitada para trabajar en los datos no estructurados). Más predictores significa más posibilidades de tener los predictores significativos, yo.e modelo mejor, una mejor predicción, la mejor decisión puede ser tomada para el negocio.

Más observaciones no sólo hacen que el modelo más robusta en el tiempo, pero también ayudan a que el modelo de aprender/detectar todos los posibles patrones que se pueden presentar generado en la realidad.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X