32 votos

formato de datos libsvm

Estoy usando la libsvm ( http://www.csie.ntu.edu.tw/~cjlin/libsvm/ ) para la clasificación de vectores de apoyo. Sin embargo, estoy confundido sobre el formato de los datos de entrada.

Del README:

El formato del archivo de datos de entrenamiento y prueba es:

<label> <index1>:<value1> <index2>:<value2> ...
.
.
.

Cada línea contiene una instancia y termina con un ' \n ' carácter. Para clasificación, <label> es un número entero que indica la etiqueta de clase (se admite la clase múltiple). Para la regresión, <label> es el valor objetivo que puede ser cualquier número real. Para la SVM de una clase, no se utiliza por lo que puede ser cualquier número. El par <index>:<value> da una característica (atributo): <index> es un número entero a partir de 1 y <value> es un número real. La única excepción es el núcleo precalculado, donde <index> comienza en 0; véase la sección de núcleos precalculados. Los índices deben estar en orden ASCENDENTE. Las etiquetas del archivo de pruebas sólo se utilizan para calcular la precisión o los errores. Si se desconocen, basta con rellenar la primera columna con cualquier número.

Tengo las siguientes preguntas:

  1. Para qué sirve el <index> ? ¿Para qué sirve?
  2. ¿Existe una correspondencia entre los mismos valores de índice de diferentes instancias de datos?
  3. ¿Qué pasa si me salto un índice en el medio?

Lo pregunto porque en el archivo de datos *heart_scale* que se incluye en el paquete para libsvm, en la línea 12, el índice empieza por 2. ¿Es el <value> para el índice 1 tomado como desconocido/falta? Nota: la herramienta tools/checkdata.py proporcionada con el paquete dice que el archivo *heart_scale* es correcto.

25voto

Andy C. Puntos 596

He implementado la sugerencia que hice en un comentario a la respuesta de joriki. Para $3 \le n \le 18$ He generado una lista de subconjuntos $S \subset \{1,2,...,n-1\}$ con la propiedad de que si un conjunto de palos con longitud total $n(n+1)/2$ toma todas las longitudes en $S$ , junto con cualquier otra longitud ≥n, entonces los palos siempre pueden cortarse en palos de longitud $1,2,...,n$ . Está disponible en este enlace (son unos 900.000).

Me quedé mirando un rato, pero nada me llamó la atención.

Editado para añadir: He cambiado el programa para que los conjuntos salgan en un orden más amigable para el ser humano: parte 1 (n = 1 a 17) y parte 2 (n = 18) .

5voto

Jason Dufair Puntos 447

Esta respuesta no me hará popular porque hace que la gente se ponga al día rápidamente para protegerse de los ladrones y nivela el campo de juego para la gente que le gusta mantener su ventaja sobre los demás.

Hay algunos métodos que utilizamos para determinar si el oro es falso o real... Métodos que comprueban si su oro es hueco, relleno, aleado (y los porcentajes de aleación y cuál podría ser el material de aleación) y si es material de cebo chapado para engañar a la gente que no conoce los métodos prácticos de prueba (se sabe que el tungsteno es un cebo para las barras de oro (históricamente)).

  1. Puedes cortar el lingote por la mitad... Entonces sabrás inmediatamente de que tiene el oro de la litera.

  2. Puedes hacer una comprobación de la gravedad específica de tu oro. Hay balanzas diseñadas para este fin y utilizan el peso por desplazamiento de agua. Usted que el oro es aproximadamente 19 veces más pesado que el agua.

  3. A continuación, puede realizar un análisis espectral mediante espectroscopia XRF. Se trata de un método de análisis más reciente que requiere que se perfore una pequeña una pequeña muestra de núcleo y la haga con una pistola de mano o la coloque en una unidad de mesa. de mesa. Es muy preciso.

  4. Se pueden hacer pruebas de rayado que son comparaciones de la vieja escuela utilizando un anillo de llaves de oro y plata de quilates y ácido para hacer esta comparación lado a lado comparación.

  5. Otro método es la digestión/precipitación ácida utilizando agua regia (mezcla de ácido nítrico y clorhídrico). Este es un método más común método y este método fundamental es parte de una base llamada medición cualitativa/cuantitativa y se enseñaba a los niños de la escuela secundaria los niños de la escuela secundaria en los años 40 y 50. Para precipitar se utilizaría una mezcla de alguna combinación de sodio y azufre o controlando los niveles de PH a través del calor y el hidróxido de sodio, el oro sale de la solución cuando se eleva el nivel de PH entre 9 y 10. Si subes la escala empiezas a dejar caer otros metales no deseados. Esto se suele hacer con pequeñas cantidades de oro

  6. Si no se confía puede enviar una muestra de su material a ALS Global . Esta es una de las varias empresas canadienses que son de confianza para el análisis de materiales (basado en un estudio del USGS que encontré hace 5 años). El tiempo de entrega de los análisis suele ser de 2-3 días. No te devuelven las muestras, y el tiempo puede alargarse dependiendo de la cantidad de materiales que estés analizando. Tienen paquetes para seleccionar y tienen un precio razonable (si usted no está no está al tanto de las pruebas o prefiere que los expertos se encarguen de entonces use ALS). También he hecho esto con muestras muy pequeñas.

En los mercados del oro y la plata hay todo tipo de cosas con las que hay que tener cuidado. El mejor método es investigar sus fuentes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X