4 votos

Incorporación de datos booleanos en el análisis.

Tengo un conjunto de datos de alrededor de 3.000 observaciones de campo.

Los datos recogidos se divide en 20 variables (números reales), 30 de variables booleanas, y 10 o así buscar variables y una "respuesta" de la variable

Tenemos alrededor de 20.000 objetos en el campo, y estoy tratando de producir una "respuesta" para los más de 20.000 objetos basados en los 3.000 observaciones.

¿Cuáles son algunos de los métodos disponibles que incorporan booleanos y buscar las tablas?

alguna sugerencia sobre cómo debo proceder?

EDITAR

la respuesta de la variable es un valor booleano que así

EDIT 2

una muestra de los datos de la variable:

  • La edad de la muestra
  • longitud, área, volumen
  • el tiempo desde la última inspección
  • altura
  • el diseño de la vida

Tabla de búsqueda

  • tipo de material
  • el tipo de revestimiento
  • diseño estándar
  • eficacia de la concepción

una muestra de la booleano

  • es inspeccionado?
  • es en mala forma
  • qué se necesita reparaciones pronto

la respuesta de la variable que es mi f(x) es:

  • es utilizable

5voto

Dori Puntos 1325

Suena como que usted está tratando de predecir su booleano respuesta, ¿sí?

Esto se llama clasificación.

La Regresión logística es la elección obvia, pero hay otros métodos también. Usted no puede hacer tradicional de regresión, debido a que la respuesta no es un número real.

La búsqueda de variables se llaman nominales, y no puede ser tratada en la regresión mediante el uso de "dummy" de las variables.

Por ejemplo, si su búsqueda de la variable es de tipo=[acero, aluminio, plástico] (N=3), entonces sus variables ficticias tendría este aspecto:

IsSteel = [1,0] IsAlum = [1,0]

Sólo habría dos (N-1) variables ficticias, como IsSteel=0 Y IsAlum=0 representa "IsPlastic"=1

Pero cualquier buen programa de estadísticas debe manejar esto.

Si usted necesita un libro, recomiendo el Análisis de Datos Multivariados por el Cabello.

3voto

Jon Galloway Puntos 28243

Usted está decribing "categóricas de las variables" (representado en R a factores). Estos pueden ser incorporados en casi cualquier modelo estadístico por el que se asigna niveles. Usted tendría que dar más detalles acerca de su problema en particular con el fin de ser asesorado en un método en particular.

Editar

Si la variable de respuesta tiene dos posibles resultados, usted podría considerar la posibilidad de un binomio o logístico de regresión.

Nota: Si usted no está familiarizado con los diferentes tipos de variables estadísticas, sugiero la lectura de los primeros capítulos de Andrew Gelman "el Análisis de los Datos Mediante Regresión Multinivel y/Modelos Jerárquicos" que cubre esta en un muy comprensible.

2voto

DavLink Puntos 101

Ingo Ruczinski ha contribuido a promover el uso de la Lógica de regresión para el conjunto de datos que consta de variables binarias, con un énfasis en el orden superior de los términos de interacción. La principal ventaja en comparación con lo habitual o penalizado GLMs es que es más parcimonious en términos de grados de libertad. El resultado puede ser continua o categórica, y continua covariables puede ser añadido a la modelo (o el resultado puede ser primero residualized sobre ellos, si estos son los binarios de los predictores que son de interés).

El artículo original

Ruczinski yo, Kooperberg C, LeBlanc ML (2003). La Lógica De Regresión. Diario de cálculo y Gráficas Estadísticas, 12(3), 475-511.

incluye varias aplicaciones en estudios biomédicos, y una comparación de LR con CARRO y MARTE. Aunque principalmente se ha aplicado en gran escala de los estudios genéticos (por ejemplo, estudios de asociación de genoma), debería funcionar con cualquier variables binarias cuyo combinaciones de tasa de interés puede ser expresado con un conjunto de operadores lógicos.

El LogicReg paquete de R implementa esta técnica; ver también los paquetes relacionados en CRAN y Bioconductor, esp. LogicForest que comparte algunas ideas con Bosques Aleatorios.

1voto

ESRogs Puntos 1381

Prueba el bosque aleatorio; Según mi experiencia, puede funcionar bien con este tipo de datos y le brinda información adicional interesante, como la importancia de la variable y la medida de similitud de objetos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X