35 votos

Conjunto de datos libre de muy alta clasificación dimensional

¿Cuáles son los disponibles libremente conjunto de datos para la clasificación con más de 1000 funciones (o puntos de muestra si contiene curvas)?

Ya hay una wiki de la comunidad acerca de los conjuntos de datos: http://stats.stackexchange.com/questions/7/locating-freely-available-data-samples/

Pero aquí, sería bueno tener una más enfocada lista que puede ser utilizado más convenientemente, también propongo las siguientes reglas:

  1. Un post por cada conjunto de datos
  2. No hay enlace a un conjunto de conjunto de datos
  3. cada conjunto de datos debe estar asociada con

    • un nombre (para averiguar de qué se trata) y un enlace a la base de datos (R conjuntos de datos puede ser llamado con el nombre del paquete)

    • el número de características (vamos a decir que es p) el tamaño del conjunto de datos (digamos que es n) y el número de etiquetas/clase (vamos a decir es k)

    • un típico de la tasa de error a partir de su experiencia (estado del algoritmo usado en las palabras) o de la literatura (en este último caso el enlace de papel)

7voto

ESRogs Puntos 1381

Dorothea
n = 1950
p = 100000 (0.1M, mitad artificial se agrega ruido)
k = 2 (~ 10 x no balanceada)
De NIPS2003.

3voto

ESRogs Puntos 1381

Dexter
n = 2600
p = 20000 (10 k + 53 es ruido artificial)
k = 2 (equilibrado)
De NIPS2003.

3voto

ESRogs Puntos 1381

Caracas
n = 900
p = 10000 (3k es agregado artificialmente ruido)
k = 2 (~ equilibrado)
De NIPS2003.

3voto

ESRogs Puntos 1381

Gisette
n = 13500
p = 5000 (la mitad es agregado artificialmente ruido)
k = 2 (equilibrado)
De NIPS2003.

3voto

David Pokluda Puntos 4284

Próstata (matriz de expresión del gene)

  • k = 2
  • n = 48 + 52
  • p = 6033

Disponible a través de (entre otros) nombre de spls paquete R del conjunto de datos: próstata

tasa de error = 102/3 (ver aquí) también creo que hay papel que muestran la tasa de error de 1/102. Yo diría que éste es un caso fácil de la prueba.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X