26 votos

Lo que aprender después de Casella Y Berger?

Soy una pura matemática estudiante de posgrado, con poco fondo en matemáticas aplicadas. Desde el otoño pasado he estado tomando clases en Casella Y Berger libro, y he terminado cientos (230+) de las páginas de ejercicio de los problemas en el libro. Ahora mismo estoy en el Capítulo 10.

Sin embargo, ya que no he especializado en estadísticas o planeado para ser un estadista, no creo que voy a ser capaz de invertir el tiempo regularmente para continuar el aprendizaje de análisis de datos. Mi experiencia hasta ahora me está diciendo que, para ser un estadístico, se necesita tener una gran cantidad de tedioso cálculo que implica varias distribuciones (Weibull, Cauchy, $t$, $F$...). He encontrado mientras las ideas fundamentales son simples, la aplicación (por ejemplo, el metro LIGERO en la prueba de hipótesis) todavía puede ser difícil debido a tecnicismos.

Es mi entendimiento correcto? Es allí una manera de la que puedo aprender de probabilidad y estadística que no sólo cubre más avanzado material, sino que también puede ayudar en caso de necesidad de análisis de datos en la vida real? Le tengo que gastar $\ge$20 hrs a la semana en él, como solía?

Aunque creo que no hay ningún camino real en el aprendizaje de las matemáticas, a menudo no puedo dejar de pensar la mayoría de las veces no sabemos lo que la distribución es de la vida real de los datos, así que ¿cuál es el propósito para nosotros, para centrarse exclusivamente en las diferentes familias de distribuciones? Si el tamaño de la muestra es pequeño y el teorema central del límite no se aplica, ¿cómo podemos analizar correctamente los datos, además de la media muestral y la varianza si la distribución es desconocida?

Mi semestre va a terminar en un mes, y no quiero que mi conocimiento para que se evapore después empiezo a concentrarme en mi investigación de Doctorado. Así que me decidí a preguntar. Estoy aprendiendo R, y tengo algunos conocimientos en programación, pero mi nivel es casi el mismo como un código de mono.

27voto

AdamSane Puntos 1825

Creo que no voy a ser capaz de dar a regular la inversión de tiempo para continuar el aprendizaje de análisis de datos

No creo Casella Y Berger es un lugar para aprender de los datos tanto en la forma de análisis de datos. Es un lugar para aprender algunas de las herramientas de la teoría estadística.

Mi experiencia hasta ahora me dice para ser una estadstica las necesidades de un oso con un montón de tedioso cálculo que implica varias distribuciones(Weibull, Cauchy, t, F...).

Me he pasado un montón de tiempo como un estadístico de realizar el análisis de datos. Es que pocas veces (casi nunca) implica mí haciendo tedioso cálculo. Esto implica a veces un poco simple álgebra, pero el común de los problemas se resuelven normalmente y no tengo la necesidad de gastar ningún esfuerzo en replicar que cada vez.

El equipo hace todo el tedioso cálculo.

Si yo estoy en una situación en la que no estoy preparado para asumir razonablemente caso estándar (por ejemplo, no está preparado para el uso de un GLM), yo por lo general no tienen la información suficiente para asumir cualquier otra forma de distribución, por lo que la cuestión de los cálculos en la LRT es generalmente irrelevante (lo que puedo hacer cuando me necesitan, que acaba tienden a ser solucionado ya o vienen tan rara vez que lo interesante de la desviación).

Yo tiendo a hacer un montón de simulación; yo también con frecuencia se intenta utilizar el remuestreo en alguna forma, ya sea junto con o en lugar de los supuestos paramétricos.

Le tengo que gastar 20 hr+ por semana en él, como solía ser?

Depende de lo que usted quiere ser capaz de hacer y cómo pronto usted desea ser buenos en eso.

El análisis de datos es una habilidad, y requiere práctica y una gran base de conocimiento. Usted tendrá algunos de los conocimientos que necesita ya.

Si quieres ser un buen profesional en una amplia variedad de cosas, va a tomar un montón de tiempo, pero a mi mente es mucho más divertido que el álgebra y la dicha de hacer Casella y Berger ejercicios.

Algunas de las habilidades que he construido en decir que los problemas de regresión son útiles con series de tiempo, digamos -, sino un montón de nuevas habilidades son necesarias. Así que aprender a interpretar los gráficos de residuos y gráficos QQ es muy útil, pero que no me diga lo mucho que me necesita preocuparse acerca de un pequeño golpe en un FAP de la trama y no me dan herramientas como el uso de un-paso-adelante los errores de predicción.

Así, por ejemplo, no es necesario gastar un esfuerzo de averiguar cómo hacer razonablemente ML típica de los rayos gamma o los modelos de weibull, porque son estándar, lo suficiente como para ser resuelto los problemas que ya han sido en gran medida puso en una forma conveniente.

Si usted viene a hacer la investigación, se necesita mucho más de las habilidades de recoger en lugares como Casella Y Berger (pero incluso con ese tipo de habilidades, usted también debe leer más de un libro).


Algunas sugerencias de cosas:

Definitivamente, usted debe crear un poco de regresión de las habilidades, incluso si usted no hace nada más.

Hay un número de muy buenos libros, pero tal vez Draper & Smith Aplicó Análisis de Regresión plus Fox y Weisberg Un R Compañero de la aplicación de la Regresión; también me gustaría sugerir que usted considere la siguiente con Harrell la Regresión de la Modelización de Estrategias

(Se puede sustituir cualquier número de buenos libros para Draper y Smith - encontrar uno o dos que se adapten a ti.)

El segundo libro tiene una gran cantidad de capítulos adicionales que son muy mucho la pena leer (y su propio R-package)

--

Una buena segunda porción sería Venables & Ripley Estadística Aplicada Moderna con S.

Que algunos de puesta a tierra de una manera bastante amplia franja de ideas.

Puede ser que usted necesita un poco más de material básico en algunos temas (no sé su fondo).

Entonces tendría que empezar a pensar en qué áreas de la estadística que desea/necesita -- Bayesiano estadísticas, series de tiempo, análisis multivariante, etc etc

7voto

Steve Cooley Puntos 239

Mi consejo, viniendo desde el punto de vista opuesto (Estadísticas estudiante de Doctorado) es trabajar a través de una regresión de libros de texto. Esto parece un punto de partida natural para alguien con una sólida base teórica, sin ninguna experiencia aplicada. Sé que muchos estudiantes de posgrado de fuera de nuestro departamento de empezar en una regresión curso.

Un buen ejemplo es Sanford Weisberg de Aplicar la Regresión Lineal. Creo que en su cuarta versión. Usted probablemente podría encontrar relativamente barato versiones anteriores.

http://users.stat.umn.edu/~/arena alr4ed/

Una cosa buena acerca de este libro de texto, en particular dada su relativa inexperiencia con R, es la R de la cartilla disponible a través del enlace de arriba. Proporciona instrucción suficiente para recrear todo lo que se hace en el libro. De esta manera, en realidad se puede aprender de regresión (además de algunos conceptos básicos de GLM), sin que su falta de programación de R sosteniendo detrás (y probablemente tendrás que recoger muchos de los R lo basico a lo largo del camino).

Si desea una completa introducción a R, usted puede ser mejor servido ir a través de Fox y Weisberg es Un R Compañero para Aplicar la Regresión, pero parece que prefieren aprender en las estadísticas de la programación (si esas dos cosas puede ser considerado por separado).

A su vez el compromiso de preocupación, yo realmente no creo que usted puede encontrar este libro de texto o material demasiado difícil. A diferencia de Casella-Berger, ya no hay mucho en el camino de las pruebas o derivaciones. Generalmente es bastante sencillo.

Como un aparte, parece ser que hay soluciones flotando en línea (o estuvieron en algún momento), por lo que podría intentar problemas, consulte las soluciones, y el tipo de velocidad de trabajar su camino a través de todo el libro.

4voto

Nick Stauner Puntos 8220

Estoy tratando de una manera indirecta a más de un estadístico de mí, pero yo soy principalmente un psicólogo que pasa a tener algunos cuantitativo y metodológico intereses. Para hacer psicométricas funciona correctamente, he estado estudiando avanzada (un psicólogo) los métodos que yo no sueño de calcular manualmente (mucho menos que yo sepa). He sido sorprendido en cómo es accesible y conveniente de estos métodos se han convertido a través de todos los esfuerzos dedicados de paquete de R programadores durante la última década. He estado haciendo la vida real de análisis, con nuevos métodos que he aprendido a usar en mucho menos de 20 horas por el método...me podría pasar mucho tiempo en un nuevo método por el momento yo estoy listo para publicar un resultado utilizando, pero ciertamente no hay necesidad de hacer un trabajo de medio tiempo de estudiar solo para hacer el progreso como el que tengo. ¿Qué puede usted encontrar el tiempo para hacerlo; no es una cuestión de todo o nada búsqueda si usted no lo necesita para ser.

Sin duda, no he centrado exclusivamente sobre cualquier tema, dejar solas a las familias de distribuciones; dudo que algún honesto a la bondad estadístico iba a estudiar muy bien. He incursionado en distribuciones teóricas para tal vez una hora por día en un par de ocasiones durante la semana pasada; eso ha sido suficiente para resultar útil en datos reales de las aplicaciones. Como lo que yo puedo decir, la idea no es tanto para clasificar las distribuciones estrictamente, es un reconocimiento a la distribución de las formas que se asemejan a las teorías y los utilizan para ayudar a decidir el análisis y comprender la dinámica básica. He compartido pensamientos similares en mi más reciente respuesta a "¿Es mejor seleccionar distribuciones basadas en teoría, ajuste o algo más?"

Usted no ha dicho lo que el análisis que desea realizar en lo que supongo era su hipotético escenario del peor caso, pero hay formas para el estudio de la sensibilidad de cualquier análisis al error de muestreo. Si la CT no se aplica, todavía hay varios estadísticos preguntas que usted puede hacer si usted sabe cómo. Los métodos no paramétricos generalmente muy limitado de supuestos acerca de las distribuciones, por lo que el conocimiento previo de la forma de una población de distribución no es necesariamente un problema importante.

El conocimiento en general, realmente no se evaporan todos los que de forma rápida o completamente, pero si usted no lo utiliza, usted encontrará que es más difícil de recordar libremente. Usted va a contratar a un reconocimiento ventaja mucho más tiempo, que todavía podría ser útil si alguna vez necesita para estudiar los temas que he estudiado varios años antes...pero si desea mantener la fluidez en lo que has aprendido, seguir usando, y seguir aprendiendo! R es definitivamente un buen lugar para invertir cualquier repuesto de estudio de tiempo que usted tiene. Se debe ayudar con su pura matemática: ver otro de mis recientes respuestas a "Mejor fuente abierta de software de visualización de datos para usar con PowerPoint."

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X