7 votos

¿Qué es la matemática rigurosa definición de grueso datos?

Cuando en el lugar de trabajo, cierta medida de toma de dispositivos están sujetos a diferentes precisión numérica; en algunos casos, la exactitud puede ser bastante débil (es decir, a uno o dos valores significativos sólo). Así, en lugar de conjuntos de datos como este: $$\{0.012, 0.033, 0.042, 0.982, 1.028, 1.037, 1.950\},$$ donde cada uno de los valores son únicos, nos encontramos con un conjunto de datos que se parece a esto: $$\{ 0.0, 0.0, 0.0, 1.0, 1.0, 1.0, 2.0\}.$$ Graficar en un individuo rango de movimiento de la trama, el último parece más "grueso", y el problema subyacente es la estimación de la verdadera variación dentro de los datos se vuelve más difícil cuando la medición incrementos son demasiado grandes.

Mi pregunta es la siguiente: Si yo quería un equipo para detectar el grueso de los datos, entonces me debe proporcionar una definición lógica del fenómeno. He visto definiciones que dice "3 o menos diferentes valores" o "4 o menos valores diferentes," pero no tengo idea de cómo esas definiciones fueron obtenidos, y lo que la base de la justificación es por tales normas.

A alguien podría ser capaz de ayudar a dirigir me hacia una definición rigurosa y la justificación?

8voto

Rob Allen Puntos 486

Este tipo de datos es a menudo llamado cuantificada, especialmente cuando los números de precisión está limitada por el dispositivo de medición. Por ejemplo, una escala sólo puede mostrar números enteros de gramos o libras. Esto es particularmente común cuando una señal analógica (desde un micrófono, medidor de tensión, etc) se digitaliza. El error resultante (por ejemplo, la diferencia entre 0.012 y 0 para el primer punto de datos) se llama error de cuantización. También se podría llamar de redondeo o de discretización, aunque débilmente implica que se ha hecho durante el post-procesamiento.

El truncamiento también trabaja aquí, pero hay que distinguir entre la truncar el rango de las observaciones (por ejemplo, la conversión de cualquier cosa por encima de 10 en 10, o por debajo de los 0 a 0) y truncar los valores de las observaciones individuales.


No estoy al tanto de una manera robusta detectar la cuantización en cualquier situación. De hecho, casi todos los datos es cuantificada en cierta medida, y la cantidad de quanitization es a menudo conocido antes de tiempo desde el dispositivo de medición de las especificaciones. Sin embargo, hay algunas heurísticas que puedes intentar:

  • Cuántos valores tienen? Digital-a-analógico convertidores de utilizar un número fijo de bits (generalmente de 8, 12, 16 o 24), que le da $2^8, 2^{12}, 2^{16}$ o $2^{24}$ único valores, y estos valores son a menudo igualmente espaciados entre el valor máximo y el mínimo.

  • Hay una constante del tamaño de paso entre los valores. En otras palabras, ordenar, tirar de los duplicados, y ver si el vecino valores aumentan en la misma cantidad.

Aún así, creo que sería mejor preguntar acerca de cómo los datos se ha generado para comenzar con.


Si los datos son "ligeramente" cuantificada, por lo general no es un problema. Por ejemplo, no me preocuparía demasiado si mi sujetos humanos' pesos se registraron en (entero) libras o kilogramos. Si los datos están fuertemente cuantificada, se puede tratar como intervalo de censura de datos. Esto es particularmente común en los análisis de supervivencia, donde sólo se puede comprobar para ver si la vida de alguien o algo está funcionando en algún intervalo fijo (por ejemplo, inspecciones semanales de una fábrica). Búsqueda por intervalo de regresión si esto se ajusta a su situación.

Usted debe estar seguro de comprender la hipótesis nula subyacentes a las pruebas que se ejecutan en binned de datos. Por ejemplo, los datos distribuidos de manera uniforme a través de 10 bandejas es muy diferente de la de datos distribuidos de manera uniforme en toda la gama.

6voto

Cliff AB Puntos 3213

En general, el "binned de datos" que es como se refiere.

Si usted piensa en un histograma, cada barra se refiere a una bandeja. Si un valor está entre los extremos superior e inferior de una bandeja, que el valor se coloca en esta bandeja. Como un ejemplo, si usted tiene binned de datos debido a una simple redondeo (es decir, un cierto valor de 1,01 se convierte representado como 1.0 en el conjunto de datos), se puede considerar de valor observado 1.0 significado el verdadero valor que estaba realmente en el intervalo [0.5, 1.5).

Normalmente, este aspecto de los datos es a menudo ignorado; a menudo hay poco problema con el uso de la entero de la edad de un sujeto (28 años) en lugar de la edad exacta (28.153...). En los casos en los que el binning efecto puede ser sustancial (es decir, los años en la empresa; 1/12 es muy diferente 5/12, pero redondeado ambos son 0), los datos pueden ser tratados como intervalo censurado en cuenta la incertidumbre en la respuesta exacta del valor.

2voto

Carl McTague Puntos 111

En su caso se denomina de cuantización, un problema común con el procesamiento de la señal. Por lo general se ve uniformemente espaciados de datos (incluso cuando no tienes multiplicidades).

En general (es que hay muchos puntos de cerca uno del otro, no es necesario, con el mismo valor o la separación), mira la agrupación. Para un 1-dimensional de los valores de ordenar y tomar un histograma de las diferencias entre más cercano a los valores.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X