Estudio de Distribución

Estadística. Obtención y Muestra de Datos. Análisis Descriptivo. Intervalos de Confianza. Diagrama de Tallos y Hojas. Medidas Características. Diagrama de Caja. Histogramas de Frecuencia

  • Enviado por: Elena Alvarez
  • Idioma: castellano
  • País: España España
  • 8 páginas
publicidad
publicidad

OBJETIVOS DEL TRABAJO

El trabajo que se va a realizar consiste en el estudio de la distribución de la duración de películas cinematográficas. Contrastaré películas del género drama con películas del género comedia.

Parto de la base de que las películas de drama son más largas que las de comedia, debido a que su trama es mucho más complicada. Mediante este trabajo trataré de probar esta hipótesis.

OBTENCIÓN Y MUESTRA DE LOS DATOS

Los datos han sido obtenidos de una videoteca particular. Eso no quiere decir que haya visto todas las películas, sino que hacía tiempo que ya habíamos tomado la duración de las mismas. Algunas de ellas pueden tener un error de 15 minutos más o menos, debido a los anuncios. Las películas compradas también tienen una duración aproximada, ya que existen trailers de otras películas al principio.

Aquí están los datos:

De esta manera los datos no aportan ninguna información, por lo que pasaremos a analizarlos.

ANÁLISIS DESCRIPTIVO DE DATOS

  • DIAGRAMA DE TALLO Y HOJAS

  • De estos dos diagramas ya podemos obtener algunas conclusiones:

  • Como bien habíamos supuesto las películas de comedia son más cortas que las de drama.

  • En las películas de comedia no existen datos atípicos, su distribución es mucho más uniforme, (las divisiones se contemplan de 5 en 5 minutos).

  • Las películas de drama sí tienen datos atípicos. Su argumento es mucho más complejo y por ello algunas películas necesitan de 3 horas para su completo desarrollo. Tal es el caso de El paciente inglés o de La lista de Schindler.

  • Los datos de películas de drama se distribuyen en su mayoría alrededor de los 'Estudio de Distribución'

  • Los datos de películas de comedia se distribuyen en su mayoría alrededor de los 'Estudio de Distribución'

  • Podríamos aventurarnos a decir que ambas variables parece que se distribuyen conforme a una normal por la aparente simetría. No obstante es muy pronto para poder afirmarlo. Mediante otros métodos de análisis llegaremos a asegurarlo o a rechazar esta hipótesis.

  • MEDIDAS CARACTERÍSTICAS

  • Una vez observadas las medidas obtenidas, podremos corroborar algunas de las deducciones hechas con el diagrama de tallo y hojas.

    Como podemos ver las comedias tienen un rango muy inferior al de los dramas, por tanto su distribución está más centralizada.

    Existe gran equivalencia entre las medidas de centralización, sobre todo en las comedias. En ellas la mediana y la media son prácticamente iguales, por lo que llegamos a la conclusión de que los datos son homogéneos. En los dramas hay una pequeña diferencia entre la media y la mediana causada por los datos atípicos, pero esta diferencia no es tan grande como para considerar que exista heterogeneidad en los datos.

    Las medidas de dispersión son relativamente pequeñas. Mediante la desviación típica en las comedias deducimos que entre 90 y 110 minutos están el 89% de los datos, y en los dramas entre 102 y 142 minutos.

    El coeficiente de variación se presenta multiplicado por 100, por tanto en el caso de los dramas es 0.1636 y en el caso de comedia 0.1041. Por tanto podemos asegurar la homogeneidad de los datos, ya que es menor que 1.5.

    'Estudio de Distribución'
    'Estudio de Distribución'
    3. DIAGRAMA DE CAJA

    Mediante los diagramas de caja observamos mucho mejor las diferencias entre los rangos de ambos géneros, la centralización en las comedias, así como su simetría, y los datos atípicos en los dramas. Ahora podemos ver con más claridad que las comedias sí se asemejan a una normal, y los dramas a pesar de los datos atípicos, como son escasos también podría hallarse distribuida por una normal.

    'Estudio de Distribución'
    'Estudio de Distribución'
    4. HISTOGRAMAS DE FRECUENCIA.

    He representado los histogramas de frecuencia junto con una gráfica comparativa de distribución normal.

    Podemos observar sin necesidad de ningún cálculo que las comedias se ajustan mucho más a una normal que los dramas. No obstante, realizaré una estimación de parámetros y los test de Kolmogorov-Smirnov y de'Estudio de Distribución'
    .

  • DIAGRAMA DE PROBABILIDAD NORMAL

  • 'Estudio de Distribución'
    'Estudio de Distribución'

    Si los datos fueran normales, se ajustarían a la recta. Pues bien, parece que nuestras variables coinciden bastante con las rectas, aunque parece que las comedias no se ajustan tanto como habíamos pensado en un principio. Tengamos en cuenta la variable drama. Si eliminásemos los datos atípicos ¿Se ajustaría más a una normal?. Lo comprobamos mediante otro histograma y otro diagrama de probabilidad normal.

    'Estudio de Distribución'
    'Estudio de Distribución'
    Parece que con la eliminación de los datos atípicos la distribución sí es una normal, y además se aproxima bastante más que las comedias. No obstante nuestro objetivo es demostrar que las películas de drama son más largas que las comedias, y aunque ya ha quedado demostrado no tendría gracia que eliminase los datos más significativos, aunque con ello mi variable se distribuyese como una normal, por tanto los test y los intervalos de confianza los haré con la variable inicial completa.

    CONSTRUCCIÓN DEL MODELO

    Hemos visto en los puntos anteriores que las dos variables, drama y comedia, se asemejan considerablemente al modelo teórico. En este punto trataremos de demostrar con argumentos más consistentes que la mera observación, esta hipótesis.

    Los parámetros de nuestras variables son:

    DRAMA: Una Media de 122,509 y una Desviación Típica de 20,047

    COMEDIA: Una Media de 120,018 y una Desviación Típica de 10,4145

  • INTERVALOS DE CONFIANZA

  • Tras repetidas pruebas, dando un intervalo de confianza del 95% tanto en la media como en la varianza, la variable comedia aceptará como mínima media el valor de 97.21 minutos y la variable drama 117.1 minutos. Con estos valores no se rechazan las hipótesis de ambas medias.

  • TEST DE 'Estudio de Distribución'

  • Este test está basado en las diferencias entre los valores reales y los teóricos para que se distribuya como una normal (en este caso). Se puede apreciar que estas diferencias no son excesivamente grandes, de hecho para que este test acepte la distribución de nuestras variables como normales ha de tener un nivel de significación superior a 0.05, y en nuestro caso es 0.45 y 0.08 por lo que podemos aceptar nuestras distribuciones como normales.

  • TEST DE KOLMOGOROV-SMIRNOV

  • Los niveles de aceptación de este test son más elevados que los del anterior. Era suficiente con que fuese mayor que 0.05 y a la vista tenemos los resultados. Por tanto, y ahora con seguridad podemos decir que nuestras variables se distribuyen como una normal.

    Hay que decir que a simple vista deducíamos mayor probabilidad de que fuese una normal a la variable comedia y sin embargo los test nos dicen que la variable drama se asemeja más a una normal. El posible motivo es que una normal deja el 5% de los datos (pertenecientes a la cola) fuera de la representación, por lo que los datos atípicos quedarían fuera de ella. Si volvemos a observar las gráficas pertenecientes a la variable drama sin datos atípicos podemos observar que se asemeja más a una normal que la variable comedia.

    CONCLUSIONES

    Hemos demostrado nuestra hipótesis de la duración de las películas, en efecto las películas de drama son más largas que las comedias... Pero tampoco hace falta ser muy listo para deducir esto, por tanto no hemos demostrado nada que no supiéramos de antemano.

    No obstante jamás me había fijado en que las películas de comedia tienen una duración estándar, su rango es más bien pequeño, mientras que los dramas tienen más de una hora y media de diferencia entre las películas más cortas y las más largas.

    Supongo que todavía no ha nacido el genio que sea capaz de mantener la atención de un espectador y hacerle reír durante más de dos horas seguidas... La película se volvería repetitiva, soez e incluso vulgar. De hecho muchas de las películas que quieren hacerse pasar por comedias rayan lo absurdo y lo grosero y no despiertan en la mayoría de los espectadores más que una mueca de desagrado.

    Siempre he considerado mucho más difícil hacer reír a la gente que hacerla llorar. Para desgracia de todos, tenemos muchas más razones para llorar que para reír, o al menos eso creemos. Quizá por eso son muy pocas las buenas comedias y abundantes los buenos dramas.

    Con un poco de suerte dentro de poco aparecerá otro genio de la comedia como Jerry Lewis que consiga que todos tengamos agujetas de tanto reír. Hasta entonces nos tendremos que conformar con las comedias que simplemente se pueden ver, o `disfrutar' llorando con los dramas...

    8

    2

    DRAMA: unidad = 1 1|2 representa 12

    5 9|00388

    13 10|01113577

    25 11|000014556679

    (14) 12|00001345567899

    16 13|0445778

    9 14|12556

    4 15|0

    3 16|5

    HI|180, 185

    COMEDIA: unidad = 1 1|2 representa 12

    1 7o|9

    2 8*|3

    7 8o|57788

    18 9*|00001222333

    26 9o|55556889

    (12) 10*|000000022344

    17 10o|5566668

    10 11*|03

    8 11o|5568

    4 12*|0012

    

    Variable: DRAMA (longitud = 55)

    ( 1) 116 (19) 105 (37) 120 (55) 134

    ( 2) 110 (20) 117 (38) 126

    ( 3) 110 (21) 124 (39) 135

    ( 4) 120 (22) 146 (40) 98

    ( 5) 110 (23) 98 (41) 116

    ( 6) 103 (24) 114 (42) 119

    ( 7) 100 (25) 101 (43) 137

    ( 8) 120 (26) 138 (44) 115

    ( 9) 90 (27) 107 (45) 115

    (10) 129 (28) 107 (46) 185

    (11) 111 (29) 110 (47) 145

    (12) 93 (30) 134 (48) 125

    (13) 130 (31) 145 (49) 128

    (14) 137 (32) 101 (50) 165

    (15) 123 (33) 127 (51) 150

    (16) 120 (34) 141 (52) 129

    (17) 142 (35) 90 (53) 125

    (18) 101 (36) 180 (54) 121

    Variable: COMEDIA (longitud = 55)

    ( 1) 100 (19) 106 (37) 121 (55) 99

    ( 2) 120 (20) 90 (38) 100

    ( 3) 90 (21) 105 (39) 87

    ( 4) 92 (22) 85 (40) 102

    ( 5) 88 (23) 93 (41) 100

    ( 6) 90 (24) 88 (42) 92

    ( 7) 95 (25) 113 (43) 100

    ( 8) 105 (26) 83 (44) 120

    ( 9) 115 (27) 95 (45) 122

    (10) 93 (28) 96 (46) 104

    (11) 100 (29) 98 (47) 91

    (12) 95 (30) 106 (48) 108

    (13) 110 (31) 95 (49) 106

    (14) 100 (32) 87 (50) 103

    (15) 102 (33) 98 (51) 106

    (16) 115 (34) 93 (52) 90

    (17) 104 (35) 100 (53) 116

    (18) 79 (36) 118 (54) 92

    Variable: DRAMA COMEDIA

    Amplitud 55 55

    Media 122.509 100.018

    Mediana 120 100

    Moda 120 100

    Media geométrica 120.997 99.4949

    Varianza 401.884 108.463

    Desviación típica 20.047 10.4145

    Mínimo 90 79

    Máximo 185 122

    Rango 95 43

    Cuartil inferior 110 92

    Cuartil superior 134 106

    Skewness 0.95427 0.408092

    Curtosis 1.48939 0.421846

    Coef. de variación 16.3637 10.4126

    DRAMA

    Muestra Estadística: N° de Observaciones 55

    Media 122.509

    Varianza 401.884

    Desviación típica 20.047

    Mediana 120

    Intervalo de confianza para la Media: 95%

    Muestra 1 117.088 127.93 54 D.F.

    Intervalo de confianza para la Varianza: 95%

    Muestra 1 284.83 609.835 54 D.F.

    Test de Hipótesis para H0:

    Media = 120 Computed t statistic = 0.928212

    vs Alt: NE Nivel de Sig. = 0.357428

    at Alpha = 0.05 NO SE RECHAZA H0.

    COMEDIA

    Muestra Estadística: N° de Observaciones 55

    Media 100.018

    Varianza 108.463

    Desviación Típica 10.4145

    Mediana 100

    Intervalo de confianza para la Media: 95 %

    Muestra 1 97.2021 102.834 54 D.F.

    Intervalo de confianza para la Varianza: 95 %

    Muestra 1 76.8713 164.585 54 D.F.

    Test de Hipótesis H0: Media = 98 Computed t statistic = 0.0129473

    vs Alt: NE Nivel de Sig. = 0.989718

    at Alpha = 0.05 NO SE RECHAZA H0.

    

    DRAMA

    Límite Límite Frecuencia Frecuencia

    Inferior Superior Observada Esperada 'Estudio de Distribución'

    en o por debajo 100.000 6 7.2 .1975

    100.000 113.333 12 10.6 .1835

    113.333 120.000 11 7.0 2.3391

    120.000 126.667 6 7.3 .2179

    126.667 133.333 5 6.8 .4663

    133.333 140.000 6 5.7 .0188

    sobre 140.000 9 10.5 .2225

    'Estudio de Distribución'
    = 3.64555 con 4 d.f. nivel de Sig. = 0.456095

    COMEDIA

    Límite Límite Frecuencia Frecuencia

    Inferior Superior Observada Esperada 'Estudio de Distribución'

    en o por debajo 87.111 5 5.9 .1426

    87.111 92.667 10 7.3 1.0087

    92.667 98.222 10 10.5 .0265

    98.222 101.000 8 5.8 .8069

    101.000 103.778 3 5.7 1.2693

    103.778 106.556 8 5.2 1.5525

    106.556 112.111 2 7.8 4.3378

    sobre 112.111 9 6.8 .7476

    'Estudio de Distribución'
    = 9.89183 con 5 d.f. nivel Sig. = 0.0783588

    DRAMA

    Estimación estadística de KOLMOGOROV DPLUS = 0.0821379

    Estimación estadística KOLMOGOROV DMINUS = 0.0561989

    Estimación estadística sobre todo DN = 0.0821379

    Nivel aproximado de significación = 0.851939

    COMEDIA

    Estimación estadística de KOLMOGOROV DPLUS =0.100692

    Estimación estadística KOLMOGOROV DMINUS = 0.0703188

    Estimación estadística sobre todo DN = 0.100692

    Nivel aproximado de significación = 0.632632