Estadística

Principios. Medidas descriptivas: de tendencia central, de dispersión. Distribución de frecuencias

  • Enviado por: Luis Alberto Hernández
  • Idioma: castellano
  • País: España España
  • 22 páginas

publicidad
cursos destacados
Geometría Básica
Geometría Básica
En el curso de Geometría Básica aprenderás los fundamentos de esta rama de las matemáticas....
Ver más información

Cálculo Integral
Cálculo Integral
Curso básico de cálculo integral de una sola variable. Se parte desde los conceptos básicos como...
Ver más información


PRINCIPIOS DEL PENSAMIENTO ESTADISTICO

1.- Dar mayor importancia a los hechos que a los conceptos abstractos.

2.- No expresar los hechos en términos de sentimientos o ideas, sino utilizar gráficas o diagramas derivados de resultados específicos observados.

3.- Tomar decisiones en base de condiciones establecidas, mediante análisis estadísticos efectuados.

El método estadístico es el mejor mecanismo de comunicación y retroalimentacion, sin embargo los métodos estadísticos son herramientas, no son útiles si son usados incorrectamente.

MEDIDAS DESCRIPTIVAS DE LOS DATOS

DATOS (X1. X2,........,Xn)

Los datos estadísticos simplemente son números referidos a cierta variable o factor(X1, X2,...........Xn), por lo tanto es necesario calcular ciertas medidas que permitan describir mejor lo que los datos representan.

Generalmente se requiere conocer la tendencia y dispersión de los datos s clasifica en:

  • Medidas de tendencia central (o localización).

  • Medidas de dispersión (o variación).

  • Para la representación de estas medidas descriptivas se utilizan letras latinas para datos reales que provienen de muestras, y letras griegas para representar a la población como distribución teórica. Ejemplo:

    POBLACION (N)_________________MUESTRA (n)

     (Media) X(Media)

    X es un estimado de , y S es un estimado de cuando la muestra tomada corresponde a esa población.

    X= S=

    Las medidas descriptivas de mayor utilización son las siguientes:

    MEDIDAS DE TENDENCIA CENTRAL

    1)Media (X).- Comúnmente usada como medida de agrupación de datos. Se define:

    n = sumatoria

     Xi Xi= valor observado

    X=i=1/n n= tamaño de la muestra

  • Mediana (X).- Se define como el valor que divide en dos partes iguales a un conjunto de datos, arreglados en orden de magnitud.

  • Ejemplos:

  • Si n es impar: 2, 8, 5, 4, 1, 3, 9 -------- n=7,

  • Ordenados: 1, 2, 3, 4, 5, 6, 7, 8, 9 --- X=4

  • Si n es par: 2, 8, 3, 5, 6, 1------------- n=6,

  • Ordenados: 1, 2, 3, 5, 6, 8------------- X=3+5/2=4

    X=4 (mediana media)

  • Moda (M).- Se define como el valor que se presenta con mayor frecuencia en un conjunto de datos.

  • Ejemplo: 2, 1, 0, 3, 0, 0, 4, 0 ------------ M=0

    MEDIDAS DE DISPERSION

  • Rango (R).- SE define como la diferencia entre el valor mayor y el menor de un conjunto de datos.

  • R=Xmax-Xmin

  • Varianza (v).- Se define como el promedio de las desviaciones* al cuadrado de los datos, a partir de su media.

  • *Desviación: Es la diferencia entre el valor individual (Xi), y la media(X).

    n

     (Xi-X)

    V= i=1/ (n-1)**

    ** Se utiliza (n-1) por las siguientes razones:

    1.- Solo (n-1) de las desviaciones de lo datos a partir de la media (Xi-X) son independientes. La suma de odas las desviaciones es cero.

    2.- Se consideran los datos (Xi) como una variable aleatoria ( al azar).

    3.- Desviación estándar (S).- Se define como la raíz cuadrada de la varianza.

    S= V S= n

     (Xi-X)

    I=1/(n-1)

    Otra razón por la cual se utiliza (n-1) para el calculo de la desviación estándar, es porque se refiere a la desviación estándar de la muestra, no de la población.

    Generalmente la media es la medida descriptiva de localización o tendencia que mas se utiliza. Para el caso de las medidas de dispersión, las que mas se utilizan son el rango y la desviación estándar. La varianza es empleada para efectuar pruebas estadísticas un poco mas sofisticadas, como su empleo en el diseño y análisis de experimentos. Para nuestro caso, digamos que la varianza es un simplemente un paso previo para el calculo para el calculo de la desviación estándar.

    Aunque el rango (R) y la desviación estándar de la muestra es (S) miden la dispersión o variación de los datos de diferente manera, su utilización también dependen de la cantidad de datos.

    El rango se utiliza para muestras de 12 o menos unidades, y la desviación estándar para muestras de 30 o mas unidades. Para muestras mayores de 12 y menores de 30 se puede emplear la desviación estándar (S), pero solo para fines experimentales o pruebas.

    Ejemplo: Calculo de medidas de dispersión

    Supongamos que hay dos grupos de estudiantes: " A y B ", y que ambos tienen un promedio X=65 (pts.) de calificación, con esta información parece no existir gran diferencia entre los dos grupos. Si observamos los datos individuales, notamos la diferencia:

    Grupo A Grupo B

    50, 55, 60, 70, 75, 80, 60, 60, 60, 70, 70, 70,

    Xa=65 (pts.) Xb= 65 (pts.)

    Si calculamos las medidas de dispersión podemos hacer un análisis mas completo entre ambos grupos.

  • Rango R =X max - Xmin.

  • Ra = 30 (pts) Rb=10 (pts.)

    2) Varianza. Consideramos solo el grupo a

    DATOS

    Xi

    DESVIACIONES

    Xi-X

    DESVIACIONES AL

    CUADRADO(Xi-X)

    50

    55

    60

    70

    75

    80

    50-65

    55-65

    60-65

    70-65

    75-65

    80-65

    225

    100

    25

    25

    100

    225

    =390

    =0

    =700

    X=65 (pts.) *V=140.0 (pts.)

    *La unidad de medición de la varianza, en este caso, son puntos al cuadrado (lo cual no tiene sentido).

  • Desviación estándar. Para el grupo A

  • S= V = 140.0 = 11.83

    S=11.83(pts.)

    * La desviación estándar para el grupo B es: S= 5.48 (pts.)

    Resumiendo los cálculos anteriores:

    GRUPO A

    GRUPO B

    X=65pts.

    R=30pts.

    X=65pts.

    R=10pts.

    S=11.83

    S=5.48

    Con estas medidas descriptivas podemos establecer mejores conclusiones que con los datos solamente, o los promedios es necesario calcular siempre una medida de tendencia, generalmente la media (X), y una medida de dispersión, el rango (R) o la desviación estándar (S).

    En el ejemplo anterior la medida de dispersión a utilizar es el rango (R), por la cantidad de datos.

    DISTRIBUCION DE FRECUENCIAS

    La distribución de frecuencias es una tabla que divide un conjunto de datos en un numero de clases (categorías) apropiadas, mostrando también el numero de elementos en cada clase. La tabla sacrifica parte de la información contenida en los datos; En lugar de conocer el valor exacto de cada elemento . Solo sabemos que pertenece a una clase determinada. Por otra parte, ese tipo de agrupamiento hace resaltar características importantes en los datos, y en lo que se gana en legibilidad, compensa con creces la perdida de información. A continuación consideraremos principalmente las distribuciones numéricas, es decir, distribuciones de frecuencias donde los datos se hallan agrupados por su tamaño: si se hallan agrupados de acuerdo con alguna cualidad o atributo denominaremos distribución categórica a esa distribución.

    La primera etapa la construcción de una distribución de frecuencias consiste en decir en cuantas clases utilizar y elegir los limites de cada clase, es decir, de donde a donde abarca cada una. En general, el numero de clases que usemos depende del numero de observaciones, pero tiene muy poca utilidad utilizar menos de 5 o mas de 15. Depende de si mismo del rango de los datos, es decir, la diferencia entre la observación mas grande y la mas pequeña.

    Para ejemplificar la construcción de una distribución de distribución de frecuencia, consideramos la siguientes mediciones de la emisión diaria (en toneladas) de oxido de azufre de una planta industrial.

  • 10.5 1526.4 17.3 11.2 23.9 24.8 18.7 13.9 9.0 13.2

  • 22.7 9.8 6.2 14.7 17.5 26.1 12.8 28.6 17.6 23.7

  • 22.7 18.0 20.5 11.0 20.9 15.5 19.4 16.7 10.7

  • 15.2 22.9 26.6 20.4 21.4 19.2 21.6 16.9 19.0

  • 18.5 23.0 24.6 20.1 16.2 18.0 7.7 13.5 23.5 14.5

    14.4 29.6 19.4 17.0 20.8 24.3 22.5 24.6 18.4 18.1

  • 21.9 12.3 22.3 13.3 11.8 19.3 20.0 25.7 31.8

  • 25.9.9 27.5 18.1 17.9 9.4 24.1 20.1 18.5

  • En vista de que las observación mas grande es 31.8, y la mas pequeña es 6.2 y el rango es 25.6, podríamos elegir seis clases que tuvieran los limites 5.0-.9.9,10.0-14.9,...,30.0-34.9. Podríamos también elegir las siete clases 5.o-8.9, 9.0-12.9,..., 29.0-31.9. Nótese que en cada caso las clases no se traslapan, incluyen todos los datos y tienen la misma medida.

    Supóngase que hemos optado por la segunda de estas clasificaciones; ordenamos las 80 observaciones y obtenemos los resultados que se muestran en la siguiente tabla:

    Limites de clase Etiqueta Frecuencia

    5.0-8.9 /// 3

    9.0-12.9 //// //// 10

    13.0-16.9 //// //// //// 14

    17.0-20.9 //// //// //// //// //// 25

    21.0-24.9 //// //// //// // 17

    25.0-28.9 //// //// 9

    29.0-32.9 // 2

    Total 80

    Obsérvese que los limites de clase se dan con el mismo numero de decimales que los datos originales. Si los datos se hubiesen dado con dos decimales, habríamos usado los limites de clase 5.00-8.99, 9.00-12.99,..., 29.0-32.99 y, de haber sido redondeados al entero mas próximo, se habrían utilizado los limites de clase 5-8, 9-12,..., 29-32.

    Como señalamos anteriormente, una vez que lo datos han sido agrupados, cada observación pierde su identidad en el sentido de que su valor exacto ya no se conoce. Esto puede originar dificultades cuando queremos dar algunas descripciones ulteriores de los datos, pero podemos evitarlas representando cada observación en una clase por su punto medio, denominando marca de clase. En general, las marcas de clase de una distribución de frecuencias se obtiene promediando los limites de clase consecutivos o fronteras de clases sucesivas. Si todas las clases de una distribución tienen la misma longitud, como en nuestro ejemplo, al intervalo común entre cuales quiera marcas d clase sucesivas lo llamaremos intervalo de clase de la distribución. Nótese que el intervalo puede obtenerse también en la diferencia entre dos fronteras cualquiera de clase consecutivas, pero no de la diferencia entre los limites de clases sucesivos.

    Ejemplo:

    En relación con el ejemplo de la distribución de los datos de oxido de azufre, indíquese, a) Las marcas de clase y b) el intervalo de clase.

    a) Las marcas de clase son 5.0+8.9=6.95 9.0+ 12.9= 10.95, 14.95,

    18.95,22.95, 26.95 y 30.95. b) El intervalo de clase es : 10.95 - 6.95 =4.

    Existen varias formas alternas de agrupar los datos. Entre estas se encuentran las distribuciones acumuladas menor que o menor, mayor que y o mayor. Una distribución acumulada menor que muestra el numero total de observaciones que son menores que los valores dados. Esto deben ser fronteras de clase o limites de clase apropiados, pero no pueden ser marcas de clase.

    Ejemplo conviértase la distribución de la emisión del oxido de azufre en una distribución que muestre cuantas observaciones son menores que 4.95, menores que 8.95, menores que 12.95, ..., y menor que 3.95.

    Como ninguno de los valores es menor que 4.95., menores que 8.95, 3+ 10 =13 son menores que 12.95, 3-10+ 14 =7 son menores que 16.95, y los 80 valores son menores que 32.95.

    Las distribuciones acumuladas mayor que y o mayor se construyen, de manera similar, sumando las frecuencias una por una empezando en el otro extremo de la distribución de la frecuencia. En la practica, las distribuciones acumuladas menor que se utilizan con mayor frecuencia, y es bastante común referirse a ellas simplemente como distribuciones acumuladas.

    Si se desea comparar distribuciones de frecuencias, puede ser necesario (o al menos ventajoso), convertidas en distribuciones porcentuales. Basta dividir cada frecuencia de clase entre la frecuencia total (el numero total de observaciones en la distribución), y multiplicar por cien; en esta forma se indica que porcentaje de los datos esta en cada clase de la distribución puede hacerse lo mismo también con las distribuciones acumuladas, convirtiéndolas así en distribuciones porcentuales acumuladas.

    GRAFICAS DE LAS DISTRIBUCIONES DE FRECUENCIA

    Las propiedades de las distribuciones de frecuencia relacionadas con su forma se hacen mas evidentes por medio de gráficas, y en esta sección introduciremos algunas de las formas mas comunes de representar gráficamente las distribuciones de frecuencias, las distribuciones porcentuales y las distribuciones acumuladas.

    La forma mas común de representar gráficamente una distribución de frecuencia es el histograma. El histograma de una distribución de frecuencia se construye con rectángulos adyacentes, las alturas de los rectángulos representan la frecuencias de clase y sus bases se extienden entre fronteras de clases sucesivas. Un histograma de los datos de la emisión de oxido de azufre se muestra en la figura siguiente:

    ANEXO 1

    En relación con los histogramas, algunas veces es preferible considerar las áreas de lo rectángulos, mas que sus alturas, como representativas de las frecuencias de clase. Esto se aplica en particular en situaciones en que deseamos aproximar histogramas con curvas lisas o en que las clases son de distinta longitud.

    Otras gráficas similares a los histogramas son los diagramas de barras, en ellos; las alturas de los rectángulos, o barras, representan la frecuencia de clase pero no se pretende fijar alguna escala horizontal continua.

    Otra forma optativa de presentar las distribuciones de frecuencia en forma gráfica es el polígono de frecuencia. En él la frecuencias de clase son graficadas sobre las marcas de clase esto es, gratificamos los puntos (Xi, fi) donde X, es la marca de clase.

    Al observar la gracia d una distribución de frecuencia a menudo resaltan características que no eran evidentes en los datos mismos. Aparte de que tal gráfica muestra una excelente imagen de los datos en conjunto, puede subrayar también irregularidades y rasgos pocos comunes. Por ejemplo lasa observaciones muy alejadas que de alguna manera no coinciden con la imagen en conjunto, es decir, con el patrón global de los datos, pueden tener su origen en errores de medición, faltas en el equipo o causas similares. Asimismo, el hecho de que un histograma o polígono de frecuencias exhiba dos o mas modas puede proporcionar información pertinente. La aparición de dos modas puede implicar, por ejemplo, un cambio en el proceso que esta siendo medido o que los datos provienen de varias fuentes. Con un poco de experiencia uno aprende a detectar varias irregularidades o anomalías, y para un ingeniero experimentado seria tan sorprendente que el histograma de una distribución de lo tiempos que halla en un circuito integrado fuera simetrica como si las distribuciones de las tallas de los sombreros para caballeros en México fuera bimodal.

    ANEXO 2

    A veces será suficiente dibujar un histograma para resolver un problema de ingeniería.

    EJEMPLO:

    Se midió la resistencia a la compresión de 58 muestras de una aleación de aluminio en desarrollo común material para aeronaves.

    64.4 67.7 68.0 68.0 68.3 68.4 68.6 68.8 68.9 69.0 69.1

    69.2 69.3 69.3 69.5 69.5 69.6 69.7 69.8 69.8 69.9 70.0

    70.0 70.1 70.2 70.3 70.3 70.4 70.5 70.6 70.6 70.8 70.9

    71.0 71.1 71.2 71.3 71.3 71.5 71.6 71.6 71.7 71.8 71.8

    71.9 72.1 72.2 72.3 72.4 72.6 72.7 72.9 73.1 73.3 73.5

    74.2 74.5 75.3

    Dibújese un histograma que tenga una escala tal que el área total sea una unidad.

    SOLUCION

    La altura de cada rectángulo será igual a frecuencia relativa dividida entre el ancho, de modo que su superficie sea igual al a frecuencia relativa. El histograma resultante, hecho con computadora, tiene una forma casi simetrica. También se a graficado una curva continua que se aproxima a la forma general .En el capitulo V se estudiara esta familia de curvas con forma e campana.

    Este ejemplo nos sugiere que lo histogramas para observaciones que se reciben en forma continua, se pueden aproximar con curvas suaves.

    Las distribuciones acumuladas por lo general se representan graficamente en forma de ojivas, las cuales son similares a lo polígonos de frecuencia, excepto en que graficamos las frecuencias acumuladas sobre las fronteras de clase en lugar graficar las frecuencias ordinarias sobre las marcas de clase.

    Los puntos así determinados se unen otra vez mediante segmentos rectilíneos, la cual representa la distribucion acumulada menor que de los datos de la emisión de oxido de azufre.

    ANEXO 3 Y 4

    EJEMPLO

    Con base en la siguiente información, que representan las calificaciones obtenidas por un grupo de 50 estudiantes de la materia de probabilidad, realizaremos su correspondiente análisis.

    DATOS

    60, 33, 85, 52, 65, 77, 84, 65, 57, 74,

    71, 81, 35, 50, 35, 64, 74, 47, 68, 54,

    80, 41, 61, 91, 55, 73, 59, 53, 45, 77,

    41, 78, 55, 48, 69, 85, 67, 39, 76, 60,

    94, 66, 98, 66, 73, 42, 65, 94, 89, 88.

    Construyamos una distribución de frecuencias.

    Seleccionamos 7 clases en base a la regla empírica. Después de ajustar tenemos:

    CLASES TABULACION FRECUENCIAS

    ___________________________________________________

    30-39 //// 4

    40-49 //// / 6

    50-59 //// /// 8

  • //// //// // 12

  • 70-79 //// //// 9

    80-89 //// // 7

    90-99 //// 4

    Dejando solo las clases con las correspondientes frecuencias, tenemos propiamente la tabla de frecuencias.

    Los grupos categorías que van de 30-39, de 40-49, etc.; se llaman intervalos de clase. Los valore 30, 40, etc,; son los limites inferiores mientras que lo valores 39, 49, etc. ; son los limites superiores de los intervalos de clase.

    CALCÚLESE AHORA CADA MARCA DE CLASE

    __________________________________________________

    MARCA DE CLASE FRECUENCIA

    __________________________________________________

  • 4

  • 6

  • 8

  • 12

  • 9

  • 7

  • 4

  • __________________________________________

    TOTAL 50

    Con base con el cuadro anterior , construir ahora el histograma. Para evitar espacios entre barra, se amplían los intervalos de clase, en media unidad para ambos lados. Esto sobre todo es necesario cuando los datos son discretos. Con estos valores, la figura correspondiente será:

    ANEXO 5

    Nótese que las alturas de las barras corresponde a las frecuencias de los intervalos. Los valores de los limites de los intervalos usados para trazar la gráfica se conocen como limites reales de clase.

    ANEXO 6

    Calcular el ancho real de clase puede hacerse de dos maneras. Una, considerando la diferencia entre limites reales de clase y la otra, considerando la diferencia entre las marcas de clase, que se consideran en la anterior gráfica.

    Ancho real de clase = 39.5 - 29.5 = 10

    Ancho real de clase = 44.5 - 34.5 = 10

    Construir ahora el polígono de frecuencia

    Esto se consigue uniendo los puntos medios superiores de los intervalos de clase, que corresponden a las marcas de clase. Las siguiente figura represente el correspondiente polígono de frecuencia de las calificaciones que estamos analizando.

    ANEXO 7

    Obsérvese que se crearon dos intervalos de frecuencia 0 de los extremos a fin de "aterrizar", el polígono.

    Se puede comprobar que el área dentro del polígono de frecuencias es igual al área dentro del histograma.

    Suavizando el polígono de frecuencia determine la correspondiente curva de frecuencia. (En realidad la curva de frecuencia s la representación gráfica de una distribucion de frecuencia teórica).

    A continuación se presentan algunas de las curvas de frecuencia de mayor interés.

    DISTRIBUCION RECTANGULAR

    ANEXO 8

    CLASES F

    30- 39 7

  • 7

  • 7

  • 7

  • 7

  • 7

  • 7

  • DISTRIBUCION NORMAL

    ANEXO 9

    DISTRIBUCION ASIMETRICA

    ANEXO 10

    Clases f

    30- 39 1

  • 3

  • 6

  • 10

  • 12

  • 15

  • 90-99 3

    DISTRIBUCION BIMODAL

    ANEXO 11

    Continuando con el problema de ejemplo, construir una tabla de frecuencias acumuladas.

    Lo primero que se debe decidir es si se usara el limite inferior o el superior como criterio de división. Usaremos los superiores. También debemos decidir del tipo "o menos" o del tipo "o mas". La tabla siguiente presenta los valores correspondiente a ambas.

    __________________________________________________

    CLASES f O MENOS O MAS

    __________________________________________________________

    30-39 4 4 46

    40-39 6 10 40

    50-59 8 18 32

    60-69 12 30 20

    70-79 9 39 11

    80-89 7 46 4

    90-99 4 50 0

    __________________________________________________________

    CALCULO DE X Y DE S

    PARA DATOS AGRUPADOS

    Se explico anteriormente los métodos con que se calculan X y S para datos sin agrupar. Dichos métodos son particularmente adecuados para calculadoras de bolsillos y son además rápidos y precisos.

    El calculo de X para datos no agrupados no presentan problemas solo tenemos que sumar los valores de observaciones y dividir entre n.

    Por otra parte, el calculo de S casi siempre es engorroso si directamente aplicamos la formula definida con anterioridad. En su ligar es conveniente usar la ecuación equivalente:

    n

    S = n  X - ( xi )

    

    ----------------------

    n ( n - 1 )

    la cual necesita menos trabajo para evaluar con una calculadora

    EJEMPLO

    Calcúlese la media y la desviación estándar de las siguientes millas por galón obtenidas en 20 recorridos en un perímetro citadino con un automóvil de tamaño intermedio:

    19.7 21.5 22.5 22.2 22.6

    21.9 20.5 19.3 19.9 21.7

    22.8 23.2 21.4 20.8 19.4

    22.0 23.0 21.1 20.9 20.3

    SOLUCION

    Con una calculadora se tiene que la uma de estos datos es 427.7 y que la suma de sus cuadrados es 9173.19. En consecuencia,

    427.7

    X = = 21.38

    20

    S = 20 (9.173.19) - (427.7) = 1.412

    20.19

    Y, por lo tanto, s=1.19. Al calcular las suma necesarias por lo general se conservan todas las cifras decimales; pero como en este ejemplo, se redondea al final a una décima mas de la que habida en los datos originales.

    Para calcular X y S de datos agrupados, tendremos que hacer alguna suposición acerca de la distribucion de los valores dentro de cada clase. Si los representamos dentro de una clase por la correspondiente marca de clase, la suma de las X y la de sus cuadros pueden escribirse ahora como:

     xi fi y  xi fi

    i = 1 i = 1

    donde X, es la marca de clase de i-esima clase, fi es la correspondiente frecuencia de clase y k es el numero de clases en la distribucion. Sustituyendo estas sumas en la formula para X y en la formula de calculo S, obtenemos:

    k

    X =  xifi

    i = 1

    _______

    n

    S = n . xifi - (xifi9)

    i = 1 i = 1

    _____________

    n ( n - 1 )

    EJEMPLO:

    Empléese la distribucion obtenida para calcular la media y la variancia de los datos de la emisión del oxido de azufre.

    SOLUCION:

    Al notar las marcas de clase y las frecuencias de clase en las primeras dos columnas y los productos Xi Fi y X Fi en la tercera y cuarta columnas, se obtiene

    ____________________________________________

    Xi Fi xifi xifi

    ____________________________________________

    6.95 3 20.85 144.9075

    10.95 10 109.50 1,199.0250

    14.95 14 209.30 3,129.0350

    18.95 25 473.75 8,977.5625

    22.95 17 390.15 8,953.9425

    26.95 9 242.55 6,536.7225

    30.95 2 61.90 1,915.8050

    ____________________________________________

    80 1,508.00 30,857.0000

    ____________________________________________

    entonces, la sustitución en las formulas arroja el resultado.

    X = 1,508 = 18.85

    80

    y además

    S = 80(30.857) - (1.508) = 30.77

    80.79