16 votos

¿Algunos de ustedes uso de Google Docs hojas de cálculo para llevar a cabo y compartir su trabajo estadístico con los demás?

Sé que la mayoría de ustedes probablemente sienten que Google Docs es todavía una primitiva de la herramienta. No es de Matlab o R y ni siquiera Excel. Sin embargo, estoy desconcertado en el poder de este software basado en web que sólo utiliza la capacidad operativa de un navegador (y es compatible con multitud de navegadores que funcionan de forma muy diferente).

Mike Lawrence, activo en este foro, ha compartido una hoja de cálculo con nosotros a través de Google Docs haciendo algunos muy elegantes cosas con él. Yo, personalmente, he replicado una bastante completa la prueba de hipótesis marco (incluyendo numerosos paramétricos y no paramétricos de pruebas) originalmente hecho en Excel en Google Docs.

Estoy interesado si alguno de ustedes ha dado Google Docs una oportunidad y la han empujado a sus límites en aplicaciones interesantes. Yo también estoy interesado en escuchar acerca de los errores o defectos que se han encontrado con Google Docs

Estoy a la designación de esta cuestión "para la wiki de la comunidad" que denota que no hay mejor respuesta para esto. Se trata más bien de una encuesta que nada.

19voto

DavLink Puntos 101

Como un entusiasta usuario de R, bash, Python, asciidoc, (La)TeX, de código abierto sofwtare o cualquier país de la onu*x herramientas, no puedo ofrecer una respuesta objetiva. Además, como a menudo argumentan en contra de la utilización de MS Excel o una hoja de cálculo de cualquier tipo (bueno, ver sus datos, o parte de ella, pero ¿qué otra cosa?), No me gustaría contribuir positivamente al debate. Yo no soy el único, por ejemplo,

Un colega mío suelta a todos sus macros debido a la falta de compatibilidad con versiones anteriores, etc. Otro colega intentó importar la genética de datos (alrededor de 700 sujetos con genotipo en 800,000 marcadores, 120 Mo), sólo a mirar "a por ellos". Excel error, el Bloc de notas le dio demasiado... soy capaz de "mirar a ellos" con vi, y cambiar rápidamente el formato de los datos con algunos sed/awk o perl script. Así que creo que hay diferentes niveles a considerar cuando se habla acerca de la utilidad de las hojas de cálculo. Ya sea que usted trabaje en pequeños conjuntos de datos, y sólo desea aplicar estadísticas elementales a las cosas, y tal vez está bien. A continuación, le toca a usted para confiar en los resultados, o siempre puedes pedir el código fuente, pero tal vez sería más sencillo para hacer una prueba rápida de todos los en línea de los procedimientos con el NIST de referencia. No creo que corresponde a una buena manera de hacer estadísticas, simplemente porque este no es un verdadero software estadístico (en mi humilde opinión), aunque como una actualización de la lista antes citada, las nuevas versiones de MS Excel parece haber demostrado mejoras en la exactitud de los análisis estadísticos, ver Keeling y Pavur, Un estudio comparativo de la fiabilidad de los nueve paquetes de software de estadística (CSDA 2007 51: 3811).

Aún así, sobre un papel de 10 o 20 (en biomedicina, psicología, psiquiatría) incluye gráficos realizados con Excel, a veces sin quitar el fondo gris, la horizontal de la línea de color negro o el automático de la leyenda (Andrew Gelman y Hadley Wickham son sin duda tan feliz como cuando me visto). Pero más en general, tienden a ser los más utilizados "software" de acuerdo a una reciente encuesta en FlowingData, que me recuerdan a un viejo hablar de Brian Ripley (que co-autor de la MASA paquete de R, y escribir un libro excelente sobre el reconocimiento de patrones, entre otros):

No nos engañemos: la mayoría de los ampliamente utilizado pieza de software para estadísticas de Excel (B. Ripley a través de Ene De Leeuw), http://bit.ly/dB5K6r

Ahora, si usted siente que proporciona una rápida y fácil manera de obtener tus estadísticas hecho, ¿por qué no? El problema es que todavía hay cosas que no se pueden hacer (o al menos, es bastante difícil) en dicho entorno. Creo que de bootstrap, permutación, multivariante de análisis exploratorio de datos, para nombrar unos pocos. A menos que usted es muy competente en VBA (que no es ni scripts ni un lenguaje de programación), me inclino a pensar que incluso la menor de las operaciones sobre los datos que se manejan mejor en virtud de R (o Matlab, o Python, proporcionando obtener la herramienta adecuada para tratar con, por ejemplo, los llamados datos.marco). Por encima de todo, creo que Excel no muy promover buenas prácticas para el analista de datos (pero también se aplica a cualquier "cliquodrome", véase la discusión en Medstats acerca de la necesidad de mantener un registro de procesamiento de datos, documentación de análisis de datos y ediciones), y he encontrado este post en Práctica Estadísticas relativamente ilustrativos de algunos de Excel trampas. Aún así, se aplica a Excel, no sé cómo se traduce en GDocs.

Acerca de compartir su trabajo, tiendo a pensar que el Github (o Esencia de código fuente) o Dropbox (aunque EULA podría disuadir a algunas personas) son muy buenas opciones (revisión de la historia, la gestión de la subvención si es necesario, etc.). No puedo fomentar el uso de un software que básicamente almacenar los datos en un formato binario. Sé que puede ser importado en R, Matlab, Stata, SPSS, pero a mi opinión:

  • los datos deben definitivamente ser en un formato de texto que puede ser leído por otro software estadístico;
  • el análisis debe ser reproducible, lo que significa que debe proporcionar un script completo para su análisis y se debe ejecutar (nos acercamos al caso ideal cerca de aquí...) en otro sistema operativo en cualquier momento;
  • su propio software estadístico debe implementar reconoció algoritmos y debe haber una manera fácil de actualizar para reflejar las mejores prácticas actuales en la modelización estadística;
  • el sistema de intercambio que usted elija debe incluir el control de versiones y de colaboración de las instalaciones.

Eso es todo.

12voto

Scott Cowan Puntos 1564

Mi principal uso de hojas de cálculo de google han sido con google forms, para la recogida de datos y, a continuación, importar fácilmente en R. Aquí hay un post que escribí sobre ella la mitad de hace un año:

Hojas de cálculo de Google + de google forms + R = de Fácil recolección y la importación de datos para el análisis

También, Si usted está en la colaboración, mi herramienta de elección es DropBox. Yo escribí un post al respecto hace un par de meses:

La sincronización de archivos a través de las computadoras usando DropBox

Ahora he estado usando durante cerca de medio año en un proyecto con 5 co-autores, y ha sido de un valor incalculable (sincronización de los archivos de datos desde el 3 de contribuyentes, todo el mundo puede ver la última versión de la salida estoy produciendo, y todo el mundo está mirando a la misma .archivo docx para el artículo).

Ambos puestos ofrecen tutoriales en vídeo y las instrucciones verbales.

10voto

KRTac Puntos 33

"Yo también estoy interesado en escuchar acerca de los errores o defectos que se han encontrado con Google Docs."

Voy a responder a esa parte de la pregunta original solamente. Mis exploraciones con Google Docs hojas de cálculo (GSheets) se han preocupado con las funciones matemáticas y estadísticas. En el final de mi evaluación es que las hojas de cálculo de Google es en la que respeto mucho inferior, en 2012, el calumniado Excel de 1997.

Testigo: Hojas de cálculo de Google al parecer evalúa erfc(x) utilizando erfc(x)=1-erf(x) para los argumentos para que erf(x) se aproxima a 1. Que evalúa una desviación estándar o la varianza, a través de la media de los cuadrados menos el cuadrado de la media; es malo numérico de la práctica. Funciones combinatorias y discreto probabilidades como de poisson(n,x) = pow(x,n)*exp(-x)/n! se evaluó el factor por factor, causando huelga de desbordamiento. El factorial es evaluada usando la aproximación de Stirling factor por factor, causando más innecesaria de desbordamiento. El acumulativa de la distribución de Poisson es evaluado por simplemente haciendo la suma finita, por lo que la normalización de la propiedad se pierde en el redondeo; lo mismo es cierto para la distribución binomial acumulativa. El acumulado de la distribución normal es totalmente desordenado; se va fuera de la [0,1] rango. En general, hay una pérdida de exactitud relativa a la implementación de las mismas funciones en otros paquetes. Las descripciones de funciones elementales tales como el redondeo a menudo son confusas y ininteligible; la interpretación es un juego de adivinanzas.

Me han documentado estas cuestiones en dos conjuntos de anuncios en Google Docs producto foros:

(2011-11-13 y posterior) normdist lanza valor negativo todavía https://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/

(2012-05-06 y posterior) Errores y otros problemas con los datos estadísticos y funciones matemáticas en GSheets https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X