el tamaño de las secciones histológicas varía de un paciente a otro, y quiero tener en cuenta adecuadamente esta diferencia en el esfuerzo de muestreo (se contarán más estructuras en las secciones más grandes)
La cuestión aquí es que el precisión de un valor para su structure_frequency
predictor podría depender de la zona de la sección histológica examinada. Una forma estándar de abordar esta cuestión es especificar ponderaciones para las observaciones que estén inversamente relacionadas con las varianzas estimadas de las observaciones predictoras. Si su structure_frequency
se basa en algún tipo de variable distribuida Bernoulli medida repetidamente, como la fracción de células que muestran alguna estructura particular, entonces la varianza de una fracción estimada $\hat p$ podría estimarse mediante $\hat p(1-\hat p)/n$ donde $n$ es el número de células examinadas.
Sin embargo, ten mucho, mucho cuidado antes de hacerlo. Por un lado, las observaciones a partir de las cuales calcula structure_frequency
pueden no estar distribuidos de forma independiente entre las secciones, como se ha supuesto anteriormente. Por otro lado, puede que el tamaño de la sección sea en sí mismo un factor predictivo del resultado. Por ejemplo, es posible que se disponga de secciones mucho más grandes de tumores en fase avanzada que de tumores en fase inicial. En ese caso, podría estar sobreponderando los casos en estadio avanzado si intenta tener en cuenta la imprecisión de structure_frequency
estimaciones de esta manera.