Desde un punto de vista descriptivo, yo diría que "una muestra de datos está censurada si algunas de sus observaciones adoptan o constituyen los valores extremos de la muestra, pero su valor real está fuera del intervalo de la muestra observada". Pero esto es engañosamente sencillo.
Así que primero vamos a discutir cómo podemos concluir que un conjunto de datos está censurado, lo que naturalmente nos llevará a discutir los casos presentados en la pregunta.
Supongamos que nos dan el siguiente conjunto de datos de una variable aleatoria discreta X para el que lo único que sabemos es que es no negativo:
{0,1,1,2,2,2,2,2,2,2}
¿Podemos decir que el conjunto de datos está censurado? Podemos pensar que sí, pero no necesariamente:
1) X puede tener el rango {0,1,2} y una distribución de probabilidad {0.1,0.1,0.8} . Si esto es así, parece que aquí no hay censura, sino una muestra "anticipada" de una variable aleatoria de este tipo, con soporte acotado y distribución muy asimétrica.
2) Pero puede darse el caso de que X tiene el rango {0,1,...,9} con una distribución de probabilidad uniforme {0.1,0.1,...0.1} en cuyo caso es muy probable que nuestra muestra de datos esté censurada.
¿Cómo podemos saberlo? No lo sabemos, excepto si poseemos conocimientos o información previos que nos permita argumentar a favor de uno u otro caso. ¿Los tres casos presentados en la pregunta representan un conocimiento previo del efecto de la censura? Veamos:
Caso A) describe una situación en la que para algunas observaciones sólo disponemos de información cualitativa como "muy grande", "muy pequeña", etc., lo que nos lleva a asignar a la observación un valor extremo. Obsérvese que el mero hecho de no conocer el valor real realizado no justifica la asignación de un valor extremo. Por tanto, debemos tener algunos información de que para estas observaciones, su valor supera o está por debajo de todos los observados. En este caso, el rango real de la variable aleatoria es desconocido, pero nuestra información cualitativa nos permite crear una muestra censurada (otra cuestión es por qué no descartamos las observaciones de las que no tenemos el valor real).
Caso B) es no un caso de censura, si lo entiendo bien, sino más bien un caso de muestra contaminada: nuestra información a priori nos dice que el valor máximo de la variable aleatoria no puede exceder de 3 (debido digamos a una ley física o a una ley social -supongamos que se trata de datos de calificaciones de un sistema de calificación que utiliza sólo los valores 1,2,3 ). Pero también hemos observado el valor 4 y el valor 5 . ¿Cómo es posible? Error en el registro de los datos. Pero en tal caso, no sabemos con certeza que el 4 y 5 deberían ser todos 3 's (de hecho, mirando el teclado lateral de un ordenador, es más probable que el 4 son 1 's y el 5 son 2 Al "corregir" de cualquier manera la muestra, no la convertimos en una muestra censurada, porque se supone que la variable aleatoria no varía en el rango de la muestra. grabado en primer lugar (por lo que no hay probabilidades reales asignadas a los valores 4 y 5 ).
Caso C) se refiere a una muestra conjunta, en la que tenemos una variable dependiente y predictores. En este caso, podemos tener una muestra en la que los valores de la variable dependiente se concentren en uno o ambos extremos, debido a la estructura del fenómeno estudiado: En el ejemplo habitual de "horas trabajadas", los parados no trabajan pero habría funcionado (piense detenidamente: ¿este caso entra realmente dentro de la "definición" descriptiva del principio de esta respuesta?) Por tanto, incluirlas en la regresión con las horas registradas "cero" crea un sesgo. En el otro extremo, se puede argumentar que el número máximo de horas trabajadas puede alcanzar, digamos 16 /día, y puede haber empleados que estén dispuestos a trabajar tantos por un salario determinado. Pero el marco jurídico no lo permite y, por tanto, no observamos esas "horas trabajadas". En este caso, intentamos estimar las " previsto función de oferta de mano de obra" - y es con respecto a esta variable que la muestra se caracteriza como censurada.
Pero si declaramos que lo que queremos hacer es estimar la "función de oferta de trabajo dado el fenómeno del desempleo y el marco jurídico", la muestra no estaría censurada, ya que reflejaría el efecto de estos dos aspectos, algo que queremos que haga.
Así vemos que caracterizar una muestra de datos como censurada
a) pueden provenir de diferentes situaciones y
b) requiere cierto cuidado
-y mucho menos que pueda confundirse con el caso de truncamiento .
6 votos
El artículo más relevante de Wikipedia está en es.wikipedia.org/wiki/Censura_%28estadisticas%29 . Aunque no es exhaustivo, al menos describe la censura de tipo I y de tipo II y reconoce la censura por intervalos junto con la censura izquierda y derecha.