Processing math: 100%

16 votos

¿Qué son exactamente los datos censurados?

He leído diferentes descripciones de datos censurados:

A) Como se explica en ce hilo, se censuran los datos no cuantificados por debajo o por encima de un determinado umbral. No cuantificados significa que los datos están por encima o por debajo de un determinado umbral, pero no conocemos el valor exacto. Los datos se marcado en el valor umbral bajo o alto en el modelo de regresión. Coincide con la descripción de este presentación (2ª diapositiva de la primera página). En otras palabras Y se limita a un valor mínimo, a un valor máximo o a ambos, porque no conocemos el valor real fuera de ese intervalo.

B) Un amigo me ha dicho que podemos aplicar un modelo de datos censurados a los datos parcialmente desconocido Y observaciones, siempre que tengamos al menos alguna información límite sobre la incógnita Yi resultados. Por ejemplo, queremos estimar el precio final de una mezcla de subastas silenciosas y abiertas basándonos en algunos criterios cualitativos (tipo de bienes, país, riqueza de los licitadores, etc.). Mientras que para las subastas abiertas conocemos todos los precios finales Yi En el caso de las subastas silenciosas, sólo conocemos la primera puja (por ejemplo, 1.000 dólares), pero no el precio final. Me han dicho que en este caso los datos están censurados por arriba y que hay que aplicar un modelo de regresión censurado.

C) Por último está la definición dada por el Wikipedia donde Y pero los predictores están disponibles. No sé en qué se diferencia este ejemplo de los datos truncados.

¿Qué son exactamente los datos censurados?

6 votos

El artículo más relevante de Wikipedia está en es.wikipedia.org/wiki/Censura_%28estadisticas%29 . Aunque no es exhaustivo, al menos describe la censura de tipo I y de tipo II y reconoce la censura por intervalos junto con la censura izquierda y derecha.

11voto

Neal Puntos 316

Considere los siguientes datos sobre un resultado y y una covariable x :

user y       x   
1    10      2 
2   (-∞,5]   3 
3   [4,+∞)   5   
4   [8,9]    7
5     .      .

Para el usuario 1, tenemos los datos completos. Para todos los demás, tenemos los datos incompletos. Los usuarios 2, 3 y 4 están todos censurados: el resultado correspondiente a los valores conocidos de la covariable no se observa o no se observa exactamente (censurado a la izquierda, a la derecha y a intervalos). A veces, esto es un artefacto de las consideraciones de privacidad en el diseño de la encuesta. En otras ocasiones, ocurre por otras razones. Por ejemplo, no observamos ningún salario por debajo del salario mínimo o la demanda real de entradas para conciertos por encima del aforo del estadio.

El usuario 5 está truncado: faltan tanto el resultado como la covariable. Esto suele ocurrir porque sólo recogemos datos de personas que hicieron algo. Por ejemplo, sólo encuestamos a personas que compraron algo ( y>0 ), por lo que excluimos a cualquier persona con y=0 junto con sus x s. Puede que ni siquiera tengamos una fila para este tipo de usuario en nuestros datos, aunque sabemos que existen porque conocemos la regla que se utilizó para generar nuestra muestra. Otro ejemplo incidental truncamiento: sólo observamos las ofertas salariales para las personas que están en activo, porque suponemos que la oferta salarial es el salario cuando se está trabajando. El truncamiento es fortuito, ya que no depende de y pero en otra variable.

En resumen, el truncamiento implica una mayor pérdida de información que la censura (puntos A y B). Ambos tipos de "omisión" son sistemáticos.

Trabajar con este tipo de datos suele implicar asumir una fuerte distribución del error y modificar la probabilidad para tenerla en cuenta. También son posibles enfoques semiparamétricos más flexibles. Esto está implícito en su punto B.

3 votos

Dos aspectos de esta respuesta me confunden. En primer lugar, los valores puramente ausentes no reflejan necesariamente un truncamiento. En segundo lugar, los manera de censura ("aleatoria" frente a "informativa") suele ser tan importante como el hecho de censurar, lo que indica que la censura es algo más que el mero registro de datos con valores de intervalo.

0 votos

Este es un muy buen ejemplo. ¿Significa que se pueden aplicar diferentes "límites de censura" a cada y ? ¿Cómo formular el modelo en este caso? Esto validaría la afirmación de mi amigo en B).

1 votos

Si está dispuesto a suponer errores homoscedásticos distribuidos normalmente, la probabilidad puede escribirse como ce y puede utilizar MLE con umbrales de censura específicos para cada observación.

9voto

Jeff Bauer Puntos 236

Desde un punto de vista descriptivo, yo diría que "una muestra de datos está censurada si algunas de sus observaciones adoptan o constituyen los valores extremos de la muestra, pero su valor real está fuera del intervalo de la muestra observada". Pero esto es engañosamente sencillo.

Así que primero vamos a discutir cómo podemos concluir que un conjunto de datos está censurado, lo que naturalmente nos llevará a discutir los casos presentados en la pregunta.

Supongamos que nos dan el siguiente conjunto de datos de una variable aleatoria discreta X para el que lo único que sabemos es que es no negativo:

{0,1,1,2,2,2,2,2,2,2}

¿Podemos decir que el conjunto de datos está censurado? Podemos pensar que sí, pero no necesariamente:

1) X puede tener el rango {0,1,2} y una distribución de probabilidad {0.1,0.1,0.8} . Si esto es así, parece que aquí no hay censura, sino una muestra "anticipada" de una variable aleatoria de este tipo, con soporte acotado y distribución muy asimétrica.

2) Pero puede darse el caso de que X tiene el rango {0,1,...,9} con una distribución de probabilidad uniforme {0.1,0.1,...0.1} en cuyo caso es muy probable que nuestra muestra de datos esté censurada.

¿Cómo podemos saberlo? No lo sabemos, excepto si poseemos conocimientos o información previos que nos permita argumentar a favor de uno u otro caso. ¿Los tres casos presentados en la pregunta representan un conocimiento previo del efecto de la censura? Veamos:

Caso A) describe una situación en la que para algunas observaciones sólo disponemos de información cualitativa como "muy grande", "muy pequeña", etc., lo que nos lleva a asignar a la observación un valor extremo. Obsérvese que el mero hecho de no conocer el valor real realizado no justifica la asignación de un valor extremo. Por tanto, debemos tener algunos información de que para estas observaciones, su valor supera o está por debajo de todos los observados. En este caso, el rango real de la variable aleatoria es desconocido, pero nuestra información cualitativa nos permite crear una muestra censurada (otra cuestión es por qué no descartamos las observaciones de las que no tenemos el valor real).

Caso B) es no un caso de censura, si lo entiendo bien, sino más bien un caso de muestra contaminada: nuestra información a priori nos dice que el valor máximo de la variable aleatoria no puede exceder de 3 (debido digamos a una ley física o a una ley social -supongamos que se trata de datos de calificaciones de un sistema de calificación que utiliza sólo los valores 1,2,3 ). Pero también hemos observado el valor 4 y el valor 5 . ¿Cómo es posible? Error en el registro de los datos. Pero en tal caso, no sabemos con certeza que el 4 y 5 deberían ser todos 3 's (de hecho, mirando el teclado lateral de un ordenador, es más probable que el 4 son 1 's y el 5 son 2 Al "corregir" de cualquier manera la muestra, no la convertimos en una muestra censurada, porque se supone que la variable aleatoria no varía en el rango de la muestra. grabado en primer lugar (por lo que no hay probabilidades reales asignadas a los valores 4 y 5 ).

Caso C) se refiere a una muestra conjunta, en la que tenemos una variable dependiente y predictores. En este caso, podemos tener una muestra en la que los valores de la variable dependiente se concentren en uno o ambos extremos, debido a la estructura del fenómeno estudiado: En el ejemplo habitual de "horas trabajadas", los parados no trabajan pero habría funcionado (piense detenidamente: ¿este caso entra realmente dentro de la "definición" descriptiva del principio de esta respuesta?) Por tanto, incluirlas en la regresión con las horas registradas "cero" crea un sesgo. En el otro extremo, se puede argumentar que el número máximo de horas trabajadas puede alcanzar, digamos 16 /día, y puede haber empleados que estén dispuestos a trabajar tantos por un salario determinado. Pero el marco jurídico no lo permite y, por tanto, no observamos esas "horas trabajadas". En este caso, intentamos estimar las " previsto función de oferta de mano de obra" - y es con respecto a esta variable que la muestra se caracteriza como censurada.
Pero si declaramos que lo que queremos hacer es estimar la "función de oferta de trabajo dado el fenómeno del desempleo y el marco jurídico", la muestra no estaría censurada, ya que reflejaría el efecto de estos dos aspectos, algo que queremos que haga.

Así vemos que caracterizar una muestra de datos como censurada
a) pueden provenir de diferentes situaciones y
b) requiere cierto cuidado
-y mucho menos que pueda confundirse con el caso de truncamiento .

7 votos

Esta parece ser una perspectiva econométrica. Obsérvese que es habitual en la investigación biomédica tener duraciones (posiblemente, literalmente, supervivencia) como respuesta, y tener pacientes censurados por no haber experimentado el evento al final del periodo de observación. Pero también tener pacientes que abandonaron o se perdieron durante el periodo de observación. (Podemos saber que el tiempo de supervivencia es superior al último contacto, pero podría ser inferior al final del periodo de observación.

0 votos

El caso B no se refiere a datos erróneos o contaminados. Supongamos que queremos estimar el precio final de una mezcla de silencioso y subastas abiertas en función de algunos criterios cualitativos (tipo de bienes, país, riqueza de los licitadores, ...). En las subastas silenciosas sólo conocemos la primera puja (por ejemplo, 1.000 dólares), pero no el precio final. Me han dicho que podemos utilizar los datos de las subastas silenciosas utilizando algún tipo de modelo censurado.

1 votos

@gung ¡sin duda se trata de un enfoque econométrico, teniendo en cuenta quién escribió la respuesta!

2voto

Andre Miller Puntos 182

Para mí, censurar significa que observamos información parcial sobre una observación Zi . Lo que quiero decir con esto es que, en lugar de observar Zi=zi observamos Ziai donde ai es la realización de Ai que es un engrosamiento aleatorio del espacio muestral. Podemos imaginar que primero seleccionamos una partición Ai del espacio muestral Z entonces Zi e informamos del AiAi tal que ZiAi (de forma equivalente, informamos I(ZiA) para todos AAi ). Censura no informativa de Zi por ejemplo, significa que Ai es independiente de Zi .

Esto es un poco heurístico y chapucero. Probablemente también deberíamos exigir que la distribución de [ZiZiai] es no degenerado para considerar Zi censurado. También podríamos señalar que, tal como se define, se trata de una generalización de datos que faltan donde para Zi=(Xi,Yi) se podría decir Yi falta si ai={x}×Y donde Y es el espacio muestral de Y y decir Zi falta si ai=Z . Cuando se dice " Zi está censurado", si siguen mi definición, lo que suelen querer decir es " Zi está censurada, pero no falta".

1voto

alexs77 Puntos 36

Es importante distinguir censurado frente a truncado así como falta datos.

Censura se aplica específicamente a la cuestión del análisis de la supervivencia y de los resultados del tiempo transcurrido hasta el suceso, en los que el suceso en cuestión se supone que se ha producido en algún momento después del momento en que dejó de observar a ese individuo . Un ejemplo son los hombres que tienen relaciones sexuales con hombres (HSH) y el riesgo de incidencia del VIH en un estudio prospectivo que se mudan y dejan de tener contacto con los coordinadores del estudio.

Truncado se aplica a una variable continua que se evalúa en un punto específico en el que se sabe que el valor real es mayor o menor que ese punto. Por ejemplo, en el seguimiento de personas infectadas por el VIH y el desarrollo del SIDA, los recuentos de células CD4 inferiores a 300 se evalúan hasta el límite inferior de detección 300.

Por último, datos que faltan son datos que tienen valores reales que no se observan en ningún sentido. Los datos censurados no son datos faltantes en el tiempo ni están truncados.

2 votos

Hay otro uso de "truncamiento": describir un proceso de generación de datos en el que las observaciones por encima/por debajo de los puntos de corte son inalcanzables. Un ejemplo clásico es el recuento del número de huevos encontrados en los nidos de una determinada especie de ave, cuya especie sólo puede identificarse a partir del huevo; los nidos vacíos pueden ser de cualquier especie, por lo que el número de ceros es desconocido. Si el nº de huevos sigue una distribución de Poisson, los recuentos de huevos de nidos no vacíos siguen una Poisson truncada. Así pues, el truncamiento produce datos perdidos según un mecanismo específico bien definido.

1 votos

... Sus datos sobre el recuento de células están censurados según el concepto que mucha gente tiene del término, que no se limita a las mediciones de tiempo a evento, ya que usted lo sabe todo sobre cada sujeto excepto hasta qué punto está por debajo de 300 su recuento de células; "truncamiento" aquí (alternativamente "Winsorización") describe el método de análisis, es decir, el tratamiento de los valores por debajo de 300 como si fueran iguales a 300.

0 votos

Una referencia clara sobre el concepto de censura en el análisis de supervivencia: itl.nist.gov/div898/handbook/apr/section1/apr131.htm .

-1voto

jishiyu Puntos 61
  1. Censurado: Es un término utilizado para indicar que el periodo de observación se cortó antes de que se produjera el acontecimiento de interés. Así pues, los "datos censurados" indican que el periodo de un acontecimiento concreto no se ha producido o nunca se ha producido.

3 votos

Bienvenido al sitio. Si esto está copiado de alguna fuente, por favor cite la fuente.

3 votos

La censura se aplica a mucho más que a las observaciones dependientes del tiempo. Por ejemplo, las mediciones de concentraciones químicas que están por debajo del límite de detección también se censuran.

0 votos

@whuber: Me permito ofrecer una enmienda amistosa a esa observación. Las concentraciones químicas que caen por debajo del límite de detección están efectivamente censuradas, pero como no es posible que sean negativas, los análisis deberían considerarlas truncadas en cero. Mi propia comprensión de la distinción entre truncamiento y censura es que el truncamiento se aplica al rango de parámetros que son posibles para la distribución subyacente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X