3 votos

¿Cómo calcular el intervalo de confianza en una tabla dinámica?

Me gustaría crear una serie de tablas sobre las calles más baratas y más caras alrededor de donde vivo, y me pregunto si alguien podría ayudar con una consulta sobre la confianza.

Tengo un conjunto de datos de transacciones de casas que proporciona variables para el precio de las propiedades en un año, junto con la calle y la zona.

He pivotado los datos por zona y calle y he calculado columnas para el precio medio y el recuento de propiedades vendidas:

                                        price
                                median  count   std
district        street          
CANNOCK CHASE   ABBEY STREET    182500  3       23780.787063
                ABBOTS WALK     134000  1       NaN

Aunque podría clasificar los resultados en función del precio medio y publicarlos tal cual, me siento incómodo sin incluir alguna medida de la representatividad real para poder filtrar los valores atípicos basados en propiedades individuales (como la segunda entrada de esta tabla).

Sé que esto es trivial, pero ¿puede alguien darme una orientación sencilla sobre cómo proceder?

-1voto

Dariusz Walczak Puntos 1126

He indagado un poco y he encontrado este post sobre el análisis de datos con Pandas de Randy Olson.

http://www.randalolson.com/2012/08/06/statistical-analysis-made-easy-in-python/

Eso hizo que el cálculo del error estándar de la media y otras estadísticas fuera sencillo.

Sin embargo, también es el hecho de que debería haber considerado la forma de la distribución en lugar de calcular ciegamente las estadísticas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X