31 votos

¿Cuáles son las ramas de la estadística?

En matemáticas, hay ramas como el álgebra, el análisis, la topología, etc. En el aprendizaje automático hay aprendizaje supervisado, no supervisado y de refuerzo. Dentro de cada una de estas ramas, hay ramas más finas que dividen aún más los métodos.

Me cuesta establecer un paralelismo con las estadísticas. ¿Cuáles serían las principales ramas de la estadística (y las sub-ramas)? Probablemente no sea posible una partición perfecta, pero cualquier cosa es mejor que un gran mapa en blanco.

Ejemplos visuales: enter image description here enter image description here

51voto

Senseful Puntos 116

Estos sistemas de clasificación me parecen muy poco útiles y contradictorios. Por ejemplo:

  • Las redes neuronales son una forma de aprendizaje supervisado
  • El cálculo se utiliza en la geometría diferencial
  • La teoría de la probabilidad puede formalizarse como una parte de la teoría de conjuntos

y así sucesivamente. No hay "ramas" inequívocas de las matemáticas, y tampoco debería haberlas de la estadística.

32voto

mkt Puntos 688

Este es un pequeño contrapunto a la respuesta de Rob Hyndman. Empezó como un comentario y luego se volvió demasiado complejo para uno. Si se aleja demasiado de la cuestión principal, pido disculpas y lo borraré.


La biología ha representado las relaciones jerárquicas desde mucho antes El primer garabato de Darwin (ver el comentario de Nick Cox para un enlace). La mayoría de las relaciones evolutivas se siguen mostrando con este tipo de "árbol filogenético" bonito, limpio y ramificado:

enter image description here Sin embargo, al final nos dimos cuenta de que la biología es más complicada. De vez en cuando se produce un intercambio genético (a través del mestizaje y otros procesos) entre especies distintas y los genes presentes en una parte del árbol "saltan" a otra parte del mismo. Transferencia genética horizontal mueve los genes de una manera que hace que la simple representación del árbol anterior sea inexacta. Sin embargo, no hemos abandonado los árboles, sino que nos hemos limitado a modificar este tipo de visualización:

Same as the previous figure, but with gene transfer across branches shown

Esto es más difícil de seguir, pero transmite una imagen más precisa de la realidad.

Otro ejemplo:

enter image description here

Sin embargo, nunca introducimos estas figuras más complejas para empezar, porque son difíciles de entender sin comprender los conceptos básicos. En su lugar, enseñamos la idea básica con la figura simple, y luego les presentamos la figura más compleja y las nuevas complicaciones de la historia.

Cualquier "mapa" de las estadísticas sería igualmente inexacto y una valiosa herramienta de enseñanza. Las visualizaciones de la forma que sugiere OP son muy útiles para los estudiantes y no deben ignorarse sólo porque no capten la realidad en su totalidad. Podemos añadir más complejidad a la imagen una vez que tengan un marco básico.

29voto

user164061 Puntos 281

Podrías buscar en las palabras clave/ tags del sitio web de Cross Validated.


Las sucursales como red

Una forma de hacerlo es trazarlo como una red basada en las relaciones entre las palabras clave (la frecuencia con la que coinciden en el mismo post).

Cuando se utiliza este script sql para obtener los datos del sitio desde (data.stackexchange.com/stats/query/edit/1122036)

select Tags from Posts where PostTypeId = 1 and Score >2

A continuación, se obtiene una lista de palabras clave para todas las preguntas con una puntuación de 2 o superior.

Podrías explorar esa lista trazando algo como lo siguiente:

relations between tags

Actualización: lo mismo con el color (basado en los vectores propios de la matriz de relación) y sin la etiqueta de autoestudio

relations between tags

Se podría limpiar un poco más este gráfico (por ejemplo, eliminar las etiquetas que no se relacionan con conceptos estadísticos como las etiquetas de software, en el gráfico anterior esto ya se hace para la etiqueta "r") y mejorar la representación visual, pero supongo que esta imagen de arriba ya muestra un buen punto de partida.

Código R:

#the sql-script saved like an sql file
network <- read.csv("~/../Desktop/network.csv", stringsAsFactors = 0)
#it looks like this:
> network[1][1:5,]
 [1] "<r><biostatistics><bioinformatics>"                                 
 [2] "<hypothesis-testing><nonlinear-regression><regression-coefficients>"
 [3] "<aic>"                                                              
 [4] "<regression><nonparametric><kernel-smoothing>"                      
 [5] "<r><regression><experiment-design><simulation><random-generation>"  

l <- length(network[,1])
nk <- 1
keywords <- c("<r>")
M <- matrix(0,1)

for (j in 1:l) {                              # loop all lines in the text file
  s <- stringr::str_match_all(network[j,],"<.*?>")           # extract keywords
  m <- c(0)                                             
  for (is in s[[1]]) {
    if (sum(keywords == is) == 0) {           # check if there is a new keyword
      keywords <- c(keywords,is)              # add to the keywords table
      nk<-nk+1
      M <- cbind(M,rep(0,nk-1))               # expand the relation matrix with zero's
      M <- rbind(M,rep(0,nk))
    }
    m <- c(m, which(keywords == is))
    lm <- length(m)
    if (lm>2) {                               # for keywords >2 add +1 to the relations
      for (mi in m[-c(1,lm)]) {
        M[mi,m[lm]] <- M[mi,m[lm]]+1
        M[m[lm],mi] <- M[m[lm],mi]+1
      }
    }
  }
}

#getting rid of <  >
skeywords <- sub(c("<"),"",keywords)
skeywords <- sub(c(">"),"",skeywords) 

# plotting connections 

library(igraph)
library("visNetwork")

# reduces nodes and edges
Ms<-M[-1,-1]             # -1,-1 elliminates the 'r' tag which offsets the graph
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

# convert to data object for VisNetwork function
g <- graph.adjacency(Ms[-el,-el], weighted=TRUE, mode = "undirected")
data <- toVisNetworkData(g)

# adjust some plotting parameters some 
data$nodes['label'] <- skeywords[-1][-el]
data$nodes['title'] <- skeywords[-1][-el]
data$nodes['value'] <- colSums(Ms)[-el]
data$edges['width'] <- sqrt(data$edges['weight'])*1
data$nodes['font.size'] <- 20+log(ww[-el])*6
data$edges['color'] <- "#eeeeff"

#plot
visNetwork(nodes = data$nodes, edges = data$edges) %>%
visPhysics(solver = "forceAtlas2Based", stabilization = TRUE,
           forceAtlas2Based = list(nodeDistance=70, springConstant = 0.04,
                                   springLength = 50,
                                   avoidOverlap =1)
           )

Ramas jerárquicas

Creo que este tipo de gráficos de red mencionados anteriormente están relacionados con algunas de las críticas relativas a una estructura jerárquica puramente ramificada. Si se quiere, supongo que se podría realizar un agrupamiento jerárquico para forzarlo a una estructura jerárquica.

A continuación se muestra un ejemplo de este modelo jerárquico. Todavía habría que encontrar nombres de grupo adecuados para los distintos clusters (pero, no creo que esta agrupación jerárquica sea la buena dirección, así que lo dejo abierto).

hierarchical clustering

La medida de distancia para la agrupación se ha encontrado por ensayo y error (haciendo ajustes hasta que los clusters parecen agradables.

#####
#####  cluster

library(cluster)

Ms<-M[-1,-1]
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

Ms<-M[-1,-1]
R <- (keycount[-1]^-1) %*% t(keycount[-1]^-1)
Ms <- log(Ms*R+0.00000001)

Mc <- Ms[-el,-el]
colnames(Mc) <- skeywords[-1][-el]

cmod <- agnes(-Mc, diss = TRUE)

plot(as.hclust(cmod), cex = 0.65, hang=-1, xlab = "", ylab ="")

4voto

Baer Puntos 116

Una forma de enfocar el problema es observar las redes de citación y coautoría en las revistas de estadística, como Annals of Statistics, Biometrika, JASA y JRSS-B. Esto lo hicieron:

Ji, P., y Jin, J. (2016). Redes de coautoría y citación para estadísticos. The Annals of Applied Statistics, 10(4), 1779-1812.

Identificaron comunidades de estadísticos y utilizaron su comprensión del dominio para etiquetar las comunidades como:

  • Análisis de datos de alta dimensión (HDDA-Coau-A)
  • Aprendizaje automático teórico
  • Reducción de la dimensión
  • Johns Hopkins
  • Duke
  • Stanford
  • Regresión cuantílica
  • Diseño experimental
  • Objetivo Bayes
  • Bioestadística
  • Análisis de datos de alta dimensión (HDDA-Coau-B)
  • Pruebas múltiples a gran escala
  • Selección de variables
  • Estadística espacial y semiparamétrica/no paramétrica

El documento incluye una discusión detallada de las comunidades junto con la descomposición de las más grandes en otras subcomunidades.

Puede que esto no responda del todo a la pregunta, ya que se refiere a los campos de los estadísticos investigadores y no a todos los campos, incluidos los que ya no están activos. No obstante, esperamos que sea útil. Por supuesto, hay otras advertencias (como considerar sólo estas cuatro revistas) que se discuten más adelante en el documento.

2voto

carlo Puntos 31

Veo muchas respuestas sorprendentes, y no sé cómo puede ser recibida una humilde clasificación hecha por uno mismo, pero no conozco ningún libro omnicomprensivo de todas las estadísticas para mostrar el resumen de, y sí creo que, como comentó brillantemente @mkt, una clasificación de un campo de estudio puede ser útil. Así que aquí va mi intento:

  • estadísticas descriptivas
    • simple inferencia
      • pruebas de hipótesis simples
    • trazado/visualización de datos
  • diseño de la muestra
    • diseño experimental
    • diseño de la encuesta
  • estadística multivariante (no supervisada)
    • agrupación
    • análisis de componentes
    • modelos de variables latentes
  • modelos lineales (que en realidad también son multivariantes)
    • mínimos cuadrados ordinarios
    • modelos lineales generalizados
      • modelo logit
    • otros modelos lineales
      • Modelo de Cox
      • regresión cuantílica
    • inferencia multivariante
      • pruebas de hipótesis múltiples
      • pruebas de hipótesis ajustadas
    • modelos para datos estructurados
      • modelos de efectos mixtos
      • modelos espaciales
      • modelos de series temporales
    • extensiones no lineales
      • modelos aditivos generalizados
  • estadística bayesiana (en realidad existen métodos bayesianos para muchas cosas que ya he enumerado)
  • regresión y clasificación no paramétrica
    • muchos métodos de aprendizaje automático encajan aquí

Por supuesto que esto es demasiado simplista, sólo pretende dar alguna idea a alguien que apenas conoce el campo, cada uno de nosotros aquí seguramente sabe que hay un montón de métodos entre las categorías aquí arriba, muchos otros no los enumeré porque son menos famosos o porque simplemente se me olvidaron. Espero que os guste.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X