4 votos

Cómo poner en práctica mis conocimientos de probabilidad y estadística

Antecedentes: Soy estudiante de un máster en análisis estocástico. Mi curso es muy teórico, que en general me parece bien, es lo que más disfruto. De las asignaturas más afines a los datos, tengo (o voy a obtener/profundizar) conocimientos en procesos estocásticos de todo tipo, series temporales, estadística, regresión lineal. Aparte de eso, mi curso se centra en el análisis estocástico, las ecuaciones diferenciales estocásticas, la modelización espacial y los procesos puntuales.

Puedo trabajar con R, Mathematica y un poco de Python y Javascript. Y por supuesto, no hay que olvidar Excel.

Motivación: El impulso final que me llevó a escribir esta pregunta es bastante sencillo: hace poco me topé con un concurso de estudiantes de análisis de datos en mi ciudad y pensé en presentarme. Rápidamente me di cuenta de que no tengo ni idea de qué hacer con los datos. No es que no sea bueno en ello - literalmente no tengo ningún conocimiento real, aparte de ser capaz de responder a preguntas limitadas en estadística y regresión de las clases, posiblemente modelar los procesos simples si me esfuerzo.

Pero en términos más generales, simplemente creo que, puesto que soy matemático, tener conocimientos de análisis de datos es una especie de fruta madura y sería una gran pena no aprender nada al respecto.

Objetivos: Aquí está el problema. Aunque tengo una vaga idea, mi desconocimiento es tal que no sé qué es lo que quiero. Entiendo que esto no hace una pregunta bien planteada, pero espero que dar forma a mis objetivos es lo que Math.SE ayudará también. Creo que me gustaría seguir con R, ya que es un software libre que siempre podré usar (a diferencia de Mathematica), pero la elección del software es secundaria. Vagamente, me gustaría:

1) Tener los conocimientos necesarios para poder competir teóricamente en una competición de este tipo (hacerlo mal está bien, pero actualmente me estoy planteando entrar en una maratón habiendo leído sólo sobre "piernas" y "correr" en la wikipedia)

2) Ser capaz de utilizar al máximo mis conocimientos de matemáticas y convertirlos en mi punto fuerte: si compitiera contra otras personas, probablemente me aplastarían incluso aquellos que sólo tienen conocimientos básicos de estadística y series temporales, pero que son buenos trabajando con datos. Además, si pudiera incorporar de algún modo la modelización estocástica/espacial real, también sería una opción interesante.

3) Voy a intentar adivinar mis objetivos - ser capaz de hacer estadísticas básicas/regresión en R, modelar diferentes procesos, hacer experimentos con variables aleatorias de diferentes distribuciones de probabilidad, tener el conjunto de herramientas básicas para las series de tiempo. Más allá de eso realmente estaría adivinando completamente.

Preguntas : 1) ¿Qué estudio? ¿Hay temas/libros que se consideren lo básico ?

2) ¿Cómo puedo aprovechar mejor mis puntos fuertes, es decir, una mayor comprensión de las matemáticas? Digamos que si de alguna manera tuviera que comparar datos utilizando una métrica interesante que requiere un buen conocimiento de los espacios métricos para ser entendida (sí, no sé de qué estoy hablando). Por otra parte, es muy probable que cuanto más simple, mejor. Simplemente me gustaría ser consciente de los posibles puntos fuertes, pero realmente quiero ser capaz de caminar / arrastrarse correctamente primero.

3) La cuestión principal: ¿Qué recursos me recomendaría, es decir, alguien que no tiene miedo (o incluso le gustan) las matemáticas complicadas? Esto no quiere decir que un libro sencillo no pueda ser mucho más importante, pero no soy limitado a ellos.

Esta es principalmente una pregunta de solicitud de referencias (también para facilitar la respuesta, supongo), pero cualquier respuesta que consista en consejos y reflexiones generales sobre este asunto será también muy bienvenida.

Por cierto, no quiero que parezca que la competición es mi principal motivación, ya que no lo es. Es sólo que creo que es un punto de referencia útil para las habilidades de datos de la "vida real" que aprendí.

Gracias por cualquier ayuda.

2voto

BruceET Puntos 7117

Si hay alguien en su universidad o en su zona que sea un estadístico aplicado, deberíais empezar por tener algunas discusiones sobre estos temas con él o ella. Alguien que le conozca personalmente puede darte un nivel de asesoramiento que no puedes conseguir aquí.

No estoy seguro de lo que podría ganar con la participación en los concursos porque están intencionalmente más allá de las capacidades de la mayoría de los principiantes. Al menos, podrías conocer a algunos profesores y estudiantes que podrían darte algunos consejos y apoyo.

La estadística es una ciencia matemática, pero algunas partes de la estadística aplicada suelen ser más inductivas que deductivas. No se tiene más que los datos disponibles y, sin embargo, puede esperar que los datos le digan mucho sobre las poblaciones de las que se tomaron las muestras. Averiguar cómo y por qué se recogieron los datos suele ser un primer paso importante. Empezar con algunas estadísticas y gráficos descriptivos suele ser útil.

Te sugiero que empieces con los temas básicos tradicionales: estadística descriptiva estadística descriptiva, pruebas t de una y dos muestras, pruebas de bondad de ajuste chi-cuadrado, análisis de varianza de un factor (o de una vía) y regresión lineal simple (una variable de predicción). Intenta hacerte una idea de cuándo estos procedimientos son apropiados y lo que pueden y no pueden decir sobre los datos. A continuación, pase a temas más avanzados.

Aquí hay algunos libros:

Aunque no es un texto de estadística, Nate Silver: 'The signal and the noise' puede darle una buena idea de cómo piensa un estadístico serio y productivo. (El libro trata de los intentos de de predecir en varios campos. Está bien escoger sólo los que parecen más interesantes). Silver dice que es un estadístico bayesiano, y hay un sabor bayesiano en gran parte de su trabajo, pero no estoy no estoy seguro de hasta qué punto los estadísticos bayesianos estarían de acuerdo con todas sus enfoques. El libro me pareció muy interesante, pero para pero para una lectura recreativa más que para obtener información técnica específica.

Peter Dalgaard tiene un sólido libro introductorio que utiliza R para analizar datos reales (principalmente biológicos). La segunda edición tiene más información sobre R que la primera, lo que puede ser bueno o malo dependiendo de su nivel actual de conocimiento sobre R. (Hay otros libros razonables sobre el aprendizaje de la estadística con R, pero Dalgaard es uno de los desarrolladores de R y he encontrado que sus explicaciones son muy claras).

Ramsey y Shafer tienen un buen libro 'Statistical Sleuth' sobre aplicaciones estadísticas básicas. No utiliza ningún paquete de software en particular. Es lo suficientemente interesante y lo suficientemente claro como para que funcione bien para el autoestudio. El nivel matemático es bajo, pero el libro le da una buena sentido de lo que es una estadística aplicada seria.

Por último, estos días hay mucha prensa sobre la "ciencia de los datos" y el "big datos". Estos campos son nuevos y pueden ser difíciles de navegar por su cuenta. Por lo general, hay una gran cantidad de datos y relativamente relativamente poca información sobre su calidad y cómo se han recogido. En este punto, muchas de las ideas provienen más de la informática que de las matemáticas o la estadística. Se están desarrollando normas sobre lo que constituyen resultados útiles. Actualmente los campos caóticos con gran potencial para el futuro.

0 votos

Gracias por esta respuesta. Para ser honesto, tengo una pequeña aversión hacia la estadística, pero no incluí eso en la pregunta, ya que sé que superar esta aversión es necesariamente parte de aprender a trabajar con datos. El libro de Dalgaard me parece perfecto, sobre todo porque mi objetivo principal es dedicarme a la biología/medicina cuando termine el máster. Tengo un interés marginal en los grandes datos, pero siento que si alguna vez me dedico a ello, sólo será después de tener fundamentos sólidos en otras formas de manejar los datos.

1 votos

Al adentrarse en la estadística aplicada, tenga en cuenta que es fundamentalmente interdisciplinaria. Tienes que compartir la preocupación del investigador por lo que muestran los datos en relación con su investigación. Probablemente será más fácil para ti aprender un poco de biología que para un biólogo con datos aprender el análisis de datos, pero en algún momento hay que desarrollar una excelente comunicación.

0 votos

Sí, definitivamente estoy de acuerdo, en realidad aprender la biología molecular próximo semestre :)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X