53 votos

Excel como una de las estadísticas del banco de trabajo

Parece que mucha gente (incluido yo) como para hacer análisis exploratorio de datos en Excel. Algunas limitaciones, tales como el número de filas permitido en una hoja de cálculo, son un dolor, pero en la mayoría de los casos no hacen imposible el uso de Excel para jugar con los datos.

Un papel por McCullough y Heiser, sin embargo, prácticamente grita que obtendrá sus resultados de todo mal, y probablemente se queme en el infierno así, si tratas de usar Excel.

Es este papel correcto o está sesgada? Los autores hacen sonar como odian a Microsoft.

50voto

jldugger Puntos 7490

Utilice la herramienta correcta para el trabajo correcto y explotar las fortalezas de las herramientas que están familiarizados con.

En Excel en el caso de que existan algunos aspectos:

  • Por favor, no use una hoja de cálculo para gestionar los datos, incluso si los datos se ajustan a una. Sólo estás buscando problemas, muchos problemas. No hay prácticamente ninguna protección contra errores tipográficos, venta al por mayor mezcla de datos, truncar los valores de datos, etc., etc.

  • Muchas de las funciones estadísticas, de hecho, están rotos. La distribución t es uno de ellos.

  • El valor predeterminado gráficos son horribles.

  • Lo que falta es algo fundamental gráficos estadísticos, especialmente boxplots y los histogramas.

  • El generador de números aleatorios es una broma (pero a pesar de que aún es efectiva para propósitos educativos).

  • Evite las funciones de alto nivel y la mayoría de los complementos; c**p. Pero esto es sólo el principio general de la computación segura: si no estás seguro de qué función está haciendo, no lo uso. Se adhieren a los de bajo nivel (que incluyen funciones aritméticas, clasificación, exp, ln, funciones trigonométricas, y-dentro de los límites--la distribución normal de las funciones). Nunca utilice un complemento que produce un gráfico: va a ser terrible. (NB: es muy fácil para crear su propia probabilidad de parcelas a partir de cero. Que va a ser la correcta y altamente personalizable.)

En su favor, sin embargo, son los siguientes:

  • Su función básica de los cálculos numéricos son tan precisos como los de doble precisión flotadores puede ser. Entre ellos figuran algunos útiles, tales como el registro de rayos gamma.

  • Es muy fácil de ajustar un control alrededor de la caja de entrada en una hoja de cálculo, haciendo posible la creación de simulaciones dinámicas con facilidad.

  • Si necesita compartir un cálculo con fines no estadísticos personas, la mayoría tienen un poco de consuelo con una hoja de cálculo y ninguna en absoluto con el software de estadística, no importa lo barato que puede ser.

  • Es fácil escribir numérica efectiva macros, incluyendo la portabilidad antiguo código de Fortran, que está muy cerca de VBA. Por otra parte, la ejecución de VBA es razonablemente rápido. (Por ejemplo, tengo el código que calcula con precisión no central t distribuciones a partir de cero y tres implementaciones diferentes de la transformada Rápida de Fourier.)

  • Soporta algunas eficaz y simulación de Monte-Carlo complementos como Crystal Ball y @Risk. (Que utilizan sus propios generadores de números aleatorios, por el camino, he comprobado.)

  • La inmediatez de la interacción directa con (un pequeño conjunto de datos) es incomparable: es mejor que cualquier stats paquete de Mathematica, etc. Cuando se utiliza como una calculadora gigante con un montón de almacenamiento, una hoja de cálculo realmente entra en su cuenta.

  • Bueno EDA, utilizando robusto y resistente a los métodos, no es fácil, pero después de haber hecho una vez, se puede establecer de nuevo rápidamente. Con Excel se puede reproducir de forma eficaz todos los cálculos (aunque sólo algunas de las parcelas) de Tukey EDA libro, incluyendo la mediana polaco de la n-forma de tablas (aunque es un poco engorroso).

En respuesta directa a la pregunta original, existe un sesgo en los que el papel: se centra en el material que Excel es más débil y que un competentes de estadística es menos probable que utilice. Eso no es una crítica al papel, a pesar de que, debido a las advertencias como esta necesidad de ser transmitido.

23voto

Eggs McLaren Puntos 945

Un interesante artículo sobre el uso de Excel en Bioinformática de configuración es:

Errónea de Identificadores: nombre de Gen errores puede ser introducido inadvertidamente cuando el uso de Excel en la bioinformática, la BMC La bioinformática, 2004 (enlace).

De este breve artículo describe el problema de conversiones de tipo automático en Excel (en particular, la fecha de punto flotante y de conversiones). Por ejemplo, el nombre de gen Sept2 se convierte en 2-Sept. En realidad se puede encontrar este error en bases de datos en línea.

Uso de Excel para administrar medianas a grandes cantidades de datos es peligroso. De errores pueden aparecer sin que el usuario se percate.

14voto

icelava Puntos 548

Bien, la cuestión de si el papel es correcto o sesgada debe ser fácil: sólo podría replicar algunos de sus análisis y ver si se obtienen las mismas respuestas.

McCullough ha estado tomando diferentes versiones de MS Excel aparte de algunos años, y al parecer MS no he visto ajuste para corregir los errores señaló hace años, en las versiones anteriores.

Yo no veo un problema con jugar con los datos en Excel. Pero para ser honesto, yo no haría mi "graves" de los análisis en Excel. Mi principal problema no sería imprecisiones (que supongo que sólo muy raramente un problema), pero la imposibilidad de seguimiento y replicar mi análisis un año más tarde, cuando un revisor o mi jefe le pregunta por qué no lo hizo X - usted puede guardar su trabajo y sus callejones sin salida en comentaron R código, pero no de una manera significativa en Excel.

10voto

DavLink Puntos 101

Esporádicamente, una pregunta en torno al uso de hojas de cálculo de Google elevado contraste (por lo tanto, interesante) opiniones acerca de eso, ¿algunos de ustedes uso de Google Docs hojas de cálculo para llevar a cabo y compartir su trabajo estadístico con los demás?

Tengo en mente un antiguo artículo que no parecen ser tan pesimista, pero es sólo marginalmente citado en el documento que usted ha mencionado: Keeling y Pavur, Un estudio comparativo de la fiabilidad de los nueve paquetes de software de estadística (CSDA 2007 51: 3811). Pero ahora, he encontrado el tuyo en mi disco duro. También hubo una edición especial en 2008, vea la sección Especial de Microsoft Excel 2007, y más recientemente en el Journal of Statistical Software: En la Precisión Numérica de las Planillas de cálculo.

Creo que es un debate, y usted encontrará diversos artículos y opiniones acerca de Excel fiabilidad estadísticos de computación. Creo que hay diferentes niveles de discusión (¿qué tipo de análisis que se planea hacer, ¿usted confía en el interior de solver, hay no-lineal de los términos que entran en un determinado modelo, etc.), y las fuentes de las cifras inexactitud podría surgir como el resultado de la correcta computación errores o decisiones en el diseño de los problemas; esto es bien resumida en

M. Altman, J. Gill & M. P. McDonald, Numérica de Problemas de Estadística Computación para el Científico Social, Wiley, 2004.

Ahora, para el análisis exploratorio de datos, hay varias alternativas que mejoren capacidades de visualización, multivariado y gráficos dinámicos, por ejemplo, GGobi -- pero ver hilos en este wiki.

Pero, claramente, el primer punto que se hizo aborda otro problema (OMI), a saber, que el de usar una hoja de cálculo para atender a un gran conjunto de datos: es simplemente no es posible importar archivo csv en Excel (estoy pensando en datos genómicos, pero se aplica a otro tipo de datos de alta dimensión). No ha sido construido para ese propósito.

9voto

Chris Cudmore Puntos 634

Los documentos y demás participantes señalan técnica debilidades. Whuber hace un buen trabajo de esbozar, al menos, algunos de sus puntos fuertes. Yo personalmente amplia de la labor estadística en Excel (pruebas de hipótesis, lineal y regresiones multivariantes) y me encanta. Yo uso Excel 2003 con una capacidad de 256 columnas y 65.000 filas que puede manejar el 100% de los conjuntos de datos que utiliza. Entiendo Excel 2007 se ha extendido de que la capacidad de una enorme cantidad de (las filas de los millones de personas).

Como Whuber menciona, Excel también sirve como una plataforma de partida para una multitud de bastante pendiente de complementos de software que son todos bastante potente y fácil de usar. Estoy pensando en Crystal Ball y @Risk para la Simulación de Monte Carlo; XLStat para todo poderoso estadísticas y análisis de datos; y Lo que es Mejor para la optimización. Y la lista continúa. Es como Excel es el equivalente de un IPod o IPad con una infinidad de bastante increíble Aplicaciones. Concedido el Excel Aplicaciones no son baratos. Pero, de lo que son capaces de hacer ellos normalmente son bastante grandes ofertas.

Tan lejos como modelo de la documentación se refiere, no es tan fácil de insertar un cuadro de texto donde usted, literalmente, puede escribir un libro acerca de su metodología, sus fuentes, etc... también Se pueden insertar comentarios en cualquier celda. Así que, si nada Excel es realmente bueno para facilitar incrustado documentación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X