Estadística

Frecuencias

  • Enviado por: Maxim
  • Idioma: castellano
  • País: España España
  • 20 páginas
publicidad

TEMA 0

ALGUNAS DEFINICIONES

Población.- Es un conjunto de personas, objetos, ideas o acontecimientos que van a ser estudiados.

Individuo.- También es denominado como unidad estadística. Es cada uno de los elementos de la población que va a ser estudiada.

Censo.- Es el estudio de todos los elementos de una población. A veces es imposible de realizar, bien sea porque se trate de una población de infinitos elementos, de que el método sea destructivo o cualquier otra razón.

Muestra.- Es un subconjunto de la población. (Tendrán interés aquellas que representen fielmente a la población).

Tamaño muestral.- Es el número de elementos de la muestra.

Muestreo aleatorio simple.- Los elementos elegidos son equiprobables y la elección debe realizarse con independencia

Variables (o atributos).- Son los caracteres que se pueden observar y estudiar en los individuos de la población. Esta característica varía de un individuo a otro. El valor es impredecible antes del estudio (es imposible saber la altura de alguien antes de tenerlo enfrente, por ejemplo). Se clasifican en:

Variables cualitativas.- No toman valores numéricos (Color del pelo, p. e.). A los posibles resultados se les denomina modalidades.

Variables cuantitativas discretas.- Toman un número finito de valores dentro de un intervalo finito (Número de hijos de una familia, p.e.)

Variables cuantitativas continuas.- Toman valores dentro de un intervalo. (p. e. Altura de los estudiantes)

ETAPAS PARA LA DETERMINACIÓN DE UN PROBLEMA

Formulación del problema

Diseño del experimento (Saber que muestreo se va a utilizar)

Obtención de los datos

Análisis estadístico de los datos.

Formulación de la respuesta, que irá acompañada del método empleado.

TEMA 1

DISTRIBUCIONES DE FRECUENCIAS

Para el estudio de la distribución de frecuencias se define la variable estadística X, de la cual se dispone de una muestra de tamaño N. Sea entonces n el número de observaciones distintas que hay en la muestra.

Frecuencia absoluta (ni).- Es el número de veces que una observación distinta (xi) se repite. Observamos que:

Frecuencia absoluta acumulada (Ni) de un dato xi .- Número de veces que se repiten observaciones menores o iguales a xi.

(frecuencia abs. acum. de xn)

Frecuencia relativa.- Se define como el cociente entre el número de veces que se hace una observación y el número de observaciones totales:

La suma de las frecuencias relativas es 1.

Frecuencia relativa acumulada.- Se define como el cociente entre el número de veces que se hace una observación menor o igual a xi, y el número de observaciones totales:

La suma de las frecuencias relativas acumuladas es 1.

EJEMPLO: (Frecuencias)

Entramos en una clase en la cual hay 120 alumnos. Les preguntamos a 11 por sus edades y nos responden 18, 19, 19, 22, 18, 17, 19, 20, 20, 19 y 20. Realizar la tabla de frecuencias correspondiente:

La tabla sería esta:

Edad

Frecuencia abs.

Frecuencia rel.

Frec. abs. acum.

Frec. rel. acum.

xi

ni

fi

Ni

Fi

17

1

1/11

1

1/11

18

2

2/11

3

3/11

19

4

4/11

7

7/11

20

3

3/11

10

10/11

22

1

1/11

11

11/11

Totales:

11

1

11

1

Si en lugar de haber 120 alumnos sólo hubiera 11, y hubieran sido cogidos como muestra, ésta sería bastante mala, pues algo debe pasar para que estén tan sólo 11 personas y precisamente esas 11 personas.

En el ejemplo anterior, la variable es cuantitativa discreta. Si la variable es contínua, o incluso si el número de datos es muy grande, suelen emplearse los intervalos de clase. La marca de clase es el punto medio del intervalo, y la vamos a tratar como si realmente agrupase a todos los valores del intervalo. Será llamada xi.

EJEMPLO: (Intervalos de clase)

Interesados en conocer las alturas del grupo anterior, nos dan los siguientes datos (en centímetros): 170, 163, 174, 158, 179, 165, 161, 160, 158 y 162.

Nuevamente construimos la tabla de frecuencias. Definiremos intervalos de diez en diez centímetros de altura:

Intervalo

xi

ni

fi

Ni

Fi

(150, 160]

155

3

3/11

3

3/11

(160, 170]

165

6

6/11

9

9/11

(170, 180]

175

2

2/11

11

9/11

REGLAS PARA ELEGIR LOS INTERVALOS DE CLASE

Como regla general, tomaremos como número de intervalos de clase el entero entre 5 y 20 más próximo a .

  • En general, se tomarán todos los intervalos de la misma longitud, salvo que haya razones que sugieran lo contrario, como el hecho de que existan unos pocos datos dispersos en toda la distribución, y muchos concentrados en un solo intervalo)

  • Cuando se sepa el número de intervalos, se seleccionarán de forma que cubran toda la observación, evitando en la medida de lo posible que haya datos en la frontera de los intervalos. Para esto se pueden dejar holguras antes del primer dato y después del último o aumentar en un decimal la precisión

  • REPRESENTACIONES GRÁFICAS

    Diagrama de barras.- Sirve tanto para observaciones que provengan de variables cualitativas como para observaciones provenientes de variables discretas. En un sistema de coordenadas se sitúan los datos en el eje de abscisas, y sobre ellos se levantan barras indicando su frecuencia (fig 1.1).

  • Polígono de frecuencias acumuladas.- Se representan los puntos (xi, ni) ó bien (xi, Fi) y se unen mediante segmentos (fig 1.2)

  • Histograma.- En el eje de abscisas se representan los intervalos de clase, y sobre ellos se levantan rectángulos de un área proporcional a su frecuencia (fig 1.3). El histograma es muy sensible a decisiones que tomamos nosotros, y le afectan cosas como la elección de los intervalos de clase, la escala....

  • Fig 1.1.- Diagrama de barras

    Fig 1.2.- Pólígono de frecuencias acumuladas

    Fig 1.3.- Histograma de frecuencias.

    TEMA 2

    MEDIDAS DE POSICIÓN

    Sea X una variable estadística; entonces del conjunto {x1, x2, ... , xn} se pueden sacar las medidas de tendencia central, promedios ó medidas de posición.

    Medidas de posición central.- Son valores entorno a los cuales se agrupa la distribución, y por tanto, de alguna manera la representan.

    I.- Media aritmética.- Sea X una variable estadística que toma los valores distintos x1, x2, ... , xn, con frecuencias absolutas n1, n2, ... , nn

    Propiedades de la media aritmética:

    , esto es tanto como decir que la media es el centro de gravedad de las observaciones.

    es mínima cuando .

    y = a + b·x Þ . La media es un operador lineal.

    En general no se cumple que y = x2 Þ

    El principal inconveniente de la media aritmética es su falta de robustez, puesto que es una medida muy sensible a la presencia de datos atípicos.

    II.- Media aritmética ponderada

    donde w es el peso de la medida tomada.

    Propiedades de la m. a. ponderada:

    wi ³ 0, para todo i.

    EJEMPLO (Media aritmética y M.a. ponderada):

    Una persona hace tres exámenes: el primero dura una hora y saca un 7, el segundo dura dos horas y saca un 6, y el tercero dura 30 minutos y saca un 4. Hállese la nota media.

    Si se utiliza la media aritmética simple,

    Si se utiliza la m. a. ponderada se tiene que

    III.- Media geométrica

    Es menos intuitiva que la media aritmética. Puede observarse en la expresión anterior que se anula si alguna observación es cero. Además también es posible observar la posibilidad de que no pueda ser calculada si hay valores negativas.

    La media geométrica suele utilizarse para el cálculo de promedios de porcentajes, razones, tasas y números índices, entre otras aplicaciones.

    IV.- Media armónica.- Es la inversa de la media aritmética de las inversas de las inversas de las observaciones. No puede calcularse si alguna observación es cero, y suele emplearse para calcular medias de velocidades, tiempos, porcentajes...

    EJEMPLO (Media armónica):

    Un coche recorre un trayecto con una velocidad media de 60 km./h a la ida, y de 70 km./h a la vuelta. Se pide la velocidad media de todo el trayecto.

    Aplicando la Física que sabemos tenemos que a partir de la fórmula de la velocidad media se deduce que: km./h

    ida y vuelta es 2·s

    Siempre se verifica que la media armónica es menor o igual a la media geométrica, que a su vez es menor o igual a la media aritmética. ()

    V.- Mediana.- Es el valor de la variable que deja a su izquierda el mismo número de valores que a su derecha si estos están ordenados de menor a mayor. Si hay un número impar de datos, la mediana es el valor central, y si hay un número par de datos la mediana es la media aritmética de los valores centrales. Si la variable está agrupada en clases, se calcula la clase mediana y dentro de ella la mediana por interpolación lineal.

    EJEMPLO (Mediana):

    x= -1, 0.5, 1, 4, 7 ® La mediana es 1

    Si se repiten

    x= 1, 1, 2, 2, 3, 3, 3, 4, 4 ® La mediana es 3

    Si hay un número par de observaciones:

    x=1, 1, 2, 2, 3, 3, 4, 4 ® La mediana es la media aritmética de los dos elementos centrales: 2.5

    Se dice que la mediana es robusta ante valores extremos (se ve poco influenciada por valores extremos de la variable). Un ejemplo de esto es que para calcular el salario medio de un país no se calcula la media aritmética de todos los salarios del país, sino la mediana de todos ellos. Esto se hace para que unos cuantos grandes salarios no falseen la muestra elevando la media aritmética.

    Para hallar la mediana a partir de una tabla de frecuencias se haría lo siguiente:

    xi

    ni

    Ni

    1

    3

    3

    2

    7

    10

    3

    4

    14

    4

    3

    17

    Primero se hallaría la columna Ni que es la columna de las frecuencias acumuladas (n1+ n2+...+nn ) y se calcula , y se coge el valor de la columna Ni inmediatamente superior a este resultado, en este caso 10. La mediana es el valor que está en esa fila pero en la columna xi. Este valor es 2.

    Si se diera el caso de que , entonces

    VI.- Moda.- Es el valor que más se repite dentro del conjunto de las observaciones: Si la variable es continua se habla de intervalo modal, que es el intervalo de clase de mayor altura al representar el histograma. Si los intervalos tienen distintas longitudes, el intervalo de mayor altura no tiene por que coincidir con el de mayor frecuencia. Dentro del intervalo modal se considera la marca de clase como representante. La moda puede calcularse siempre pero no tiene por que ser única.

    EJEMPLO (Moda):

    X= 1, 1, 2, 3, 3, 3, 4, 5 ® La moda es 3

    Si hay dos valores que son moda, entonces será un conjunto bimodal, si hay tres, trimodal, etc.

    VII.- Cuantiles.- Los cuantiles son aquellos valores que dividen la distribución en intervalos, de forma que cada uno de ellos tenga la misma frecuencia. Un cuantil de orden p ( ) es un valor tal que el p% de las observaciones están a su derecha en el intervalo o en su misma posición. Se denotan por Qp. El cuantil de orden 50 es la mediana. Para hallar un cuantil a partir de una tabla de frecuencias se procede igual que en el caso de la mediana, sólo que en vez de haremos para hallar el p%.

    Cuartiles.- Son los cuantiles Q25, Q50, Q75, y se denominan así porque dividen al conjunto de las observaciones en cuatro partes iguales.

    Quintiles.- Dividen la distribución en cinco partes iguales.

    Deciles.- La dividen en diez partes iguales.

    Percentiles.- La dividen en cien partes iguales.

    MOMENTOS

    Son medidas que caracterizan a una distribución. Como operadores son muy útiles, porque permiten el cálculo simplificado de las medidas.

    Para variables unidimensionales, el momento de orden r respecto a un valor c se calcularía de la siguiente manera:

    Para hallar el momento respecto del origen, se calcula el momento con c = 0. El momento respecto del origen con r = 1 es la media.

    Si , se denominan momentos centrales, cuya expresión es:

    En este caso, si r = 1, m1 = 0; si r = 2, m2 = s2; si r = 3, m3 = g1.

    Existe una relación entre momentos muy útil:

    donde M2 es la media del cuadrado.

    TEMA 3

    MEDIDAS DE DISPERSIÓN Y FORMA

    Las medidas de dispersión y forma se utilizan para medir la variabilidad, esparcimiento ó concentración de los valores muestrales en torno a un valor central, pudiéndose interpretar como medidas de la representatividad de dicho valor. En unos casos la media aritmética es más representativa que en otros. Cuanto mayor sea la dispersión de los datos menos representativa será la media aritmética.

    MEDIDAS DE DISPERSIÓN

    Las medidas de dispersión cuantifican la representatividad de las medidas de posición. Se utilizan para medir la variabilidad o esparcimiento de los valores de la distribución en torno a un valor central. Se pueden clasificar en absolutas o relativas, según dependan o no de la dimensión de la variable. Las relativas tienen la importante ventaja de permitir comparaciones con otras variables.

    Recorrido o rango.- Es la diferencia entre los valores extremos (R= máx (x) - min. (x))

    Recorrido intercuartílico.- Es la diferencia entre el tercer y el primer cuartil. Contiene el 50% de los valores centrales (RI = Q75 - Q25)

    Desviación media ó Desviación respecto de la media.- Si la desviación media es grande, la representatividad de la muestra es pequeña, y viceversa.

    No se suele usar porque es muy poco tratable analíticamente.

    Desviación respecto de un parámetro p.-

    p puede ser la mediana, la moda o cualquier valor que se nos ocurra, aunque generalmente se usa únicamente la desviación respecto de la media.

    Varianza.- Es la más importante de todas las medidas de variación, y habitualmente es denotada por s2, S2n ó Var[x].- Si tenemos datos alejados (entre sí y con respecto a ), entonces la varianza será grande, y si tenemos datos cercanos (entre sí y con respecto a ), entonces la varianza será pequeña.

    Propiedades de la varianza:

    Var( a + X ) = Var ( X ), para todo a ∈ R, y para toda X variable estadística.

    Var( b · X ) = b2·Var( X ), para todo b ∈ R.

    De estas dos propiedades se deduce que Var (a + b·X) = b2·Var( X ). Para la media nos queda que E(a + b·X) = a + b·E( X ).

    El principal inconveniente de la varianza es que no se expresa en las unidades originales utilizadas, sino en éstas al cuadrado. Para resolver este problema, utilizamos su raíz cuadrada.

    EJEMPLO (Varianza):

    Tenemos los conjuntos e . Hallar sus varianzas, sabiendo que en ambos casos la media aritmética es igual a 500.

    Para el conjunto X,, y para el conjunto Y, , de donde se extrae que sx=408'2 y sy= 1, resultando que el conjunto X es más disperso que el conjunto Y.

    Desviación típica.- Se representa por s ó Sn.

    La información conjunta que proporcionan la media y la desviación típica puede expresarse mediante la desigualdad de Tchebyshev, que dice que entre la media y k veces la desviación típica se encuentra, como mínimo el de las observaciones.

    Cuasivarianza.- Un problema de la varianza es que no es insesgado, y es por eso que para substituirla se utiliza la cuasivarianza muestral, que se calcula a partir de la expresión

    Cuasidesviación típica.- Por la misma razón que es necesaria la cuasivarianza es necesario calcular la cuasidesviación típica.

    Propiedad de la Cuasivarianza y de la Cuasidesviación típica:

    N·S2n = (N-1)·S2

    Medidas de dispersión relativa.- La varianza ó la desviación respecto de la media son medidas de dispersión absolutas (usan las mismas unidades que la variable). Por el contrario las medidas de dispersión relativa no tienen unidades y pueden ser comparadas con otras variables. La más conocida es el Coeficiente de Variación de Pearson:

    Cuanto mayor es el CV, mayor es la dispersión.

    MEDIDAS DE FORMA

    Las medidas de forma “miden” la forma de la distribución (nos hablan de la forma de su gráfica: aplastamiento, simetrías, etc.).

    Simetría.- Una variable X es simétrica respecto de un valor p cuando los valores equidistantes de p tienen la misma frecuencia. Habitualmente se toma p=, aunque podría tomarse respecto a la moda o a cualquier otro parámetro.

    Asimetría.- Una distribución será asimétrica cuando no sea simétrica. Una distribución será asimétrica a la derecha (ó positiva) cuando la distribución es más larga a la derecha deque a su izquierda, y será asimétrica a la izquierda (ó negativa) cuando la distribución es más larga a la izquierda de que a su derecha.

    Coeficiente de asimetría de Pearson.- Se calcula según la siguiente expresión:

    Un grave inconveniente es que sólo se puede calcular si la distribución posee una moda.

    Coeficiente de asimetría de Fisher.-

    donde m3 es el momento de orden 3. Si CAF < 0 la distribución es asimétrica a la izquierda, verificándose usualmente que

    Si CAF = 0 la distribución es simétrica, verificándose usualmente que

    Si CAF > 0 la distribución es asimétrica a la derecha, verificándose usualmente que

    Curtosis ó aplastamiento.- Mide el grado de apuntamiento de una distribución respecto de la distribución normal, que se toma como patrón y que tiene una CK = 0.

    Cuando el valor CK >0, la gráfica tiene una forma como esta:

    Si por el contrario, CK < 0, entonces la gráfica será:

    Ambas gráficas coincidirán únicamente en el caso de que CK = 0:

    Tipificación.- Dada una variable estadística X se dice que está tipificada, estandarizada o reducida si su media es cero y su desviación típica uno. Para tipificar una variable hay que restar a la variable original su media y dividirla entre su desviación típica.

    Una variable tipificada se ajusta a una normal N(0, 1).

    Covarianza.- Si r = s = 1

    La covarianza mide la relación lineal entre X e Y. Es siempre positiva y tanto mayor cuanto mayor sea la relación entre las variables.

    Si la relación entre X e Y es inversa, entonces e tienen signos opuestos. En este caso, cuanto mayor sea la relación entre las variables tanto menor será la covarianza, que además será siempre negativa.

    Propiedad.- Se verifica que:

    Regresión.- Teoría que trata de expresar mediante una expresión matemática la relación que existe entre las variables. Dado un conjunto de puntos, el dibujo de su nube nos puede indicar si existe algún tipo de relación entre las variables.

    La idea de mejor recta, ó curva que mejor se ajusta es aquella curva más próxima a la nube de puntos, aquella que posee la menor distancia a los puntos de la nube.

    En las nubes de puntos a veces puede verse con mucha claridad el tipo de relación que se da entre las variables X e Y. Concretamente aquí puede verse un ejemplo de Relación de tipo parabólica, otro de una Relación de tipo lineal, y por último una nube de puntos en la que no se aprecia relación alguna y en la cual los puntos parecen distribuidos al azar.

    Método de los mínimos cuadrados.- Se utiliza para minimizar las distancias:

    donde y

    Del método de los mínimos cuadrados se obtiene la recta de regresión de X sobre Y:

    También se hallará el coeficiente de correlación lineal:

    donde siempre se verificará que siempre. Si , existe correlación lineal positiva entre las variables tanto mayor cuanto más se aproxime r a 1, y tanto menor cuanto más se aproxime r a cero. Si , existirá una correlación lineal negativa entre las variables tanto mayor cuanto más se aproxime r a -1, y tanto menor cuanto más se aproxime r a 0.

    Si r = 0, se dice que existe una correlación nula ó incorrelación.

    Coeficiente de determinación.- Nombre que recibe r2. R2·100 nos da el porcentaje de correlación lineal existente entre las variables.

    TEMA 4

    DISTRIBUCIONES BIDIMENSIONALES

    Para cada individuo de la población se analizarán dos características de interés. Se tendrán n observaciones del tipo (xi, yi).

    TEMA 3

    FUNDAMENTOS DE LA TEORÍA DE LA PROBABILIDAD

    Un experimento se dice que es aleatorio si cumple las siguientes condiciones:

    Todos los posibles resultados se conocen con antelación

    Ante una realización concreta del experimento, es imposible predecir el resultado

    Todas las realizaciones de un experimento se realizan bajo las mismas condiciones.

    El conjunto de posibles resultados de un experimento se denomina espacio muestral, y se denota con la letra Ω.

    Sucesos elementales.- Son los elementos de Ω.

    Sucesos.- Un suceso ocurre cuando se verifica uno de los sucesos de Ω.

    Suceso imposible.- Subconjunto de Ω que no contiene elementos. Se denota por ∅.

    Un suceso A está contenido en un suceso B cuando todo suceso elemental de A pertenece a B, o lo que es lo mismo, siempre que ocurre A ocurre B. El recíproco no se verifica.

    Para algunas de las siguientes definiciones se utilizará el Álgebra de Boole y su notación.

    Unión de sucesos.- A1 + A2 + A3 + ... + Ai. Se verifica cuando ocurre alguno de los Ai.

    Intersección de sucesos.- A1·A2·A3·...·Ai. Se verifica cuando ocurren todos los Ai.

    Suceso complementario.- ocurre siempre que no ocurre A.

    Sucesos incompatibles.- Aquellos cuya intersección da como resultado ∅.

    Diferencia de sucesos.- Se verifica cuando ocurre A y no ocurre B. Se denota por A - B y también por .

    La unión y la intersección de sucesos cumplen las propiedades conmutativa, asociativa, distributiva, existencia de elemento neutro (∅ para la unión y Ω para la intersección), y también cumple las Leyes de Morgan.

    Dado un conjunto Ω, se define partes de Ω , P(Ω), al conjunto definido por todos los subconjuntos de Ω.

    Consideremos un experimento aleatorio, con Ω su espacio muestral asociado y A un suceso. Repítase el experimento n veces. Se define la frecuencia absoluta del suceso A como el número de veces que se repite A (na) en las n repeticiones:

    Se verifica:

    , Ω ocurre siempre.

    , no ocurre nunca.

    Si A y B son sucesos incompatibles, A ∩ B = , y f (A ∪ B) = f (A) + f (B).

    PROBABILIDAD

    Consideremos un experimento aleatorio, y Ω su espacio muestral. Una probabilidad sobre Ω es una aplicación:

    P : P(Ω) R , verificando:

    A P(A) ∈ R

    PROPIEDADES:

    P(A) ≥ 0, ∀ A

    P(Ω) = 1

    Si A, B ∈ P(Ω) incompatibles, P(A ∪ B) = P(A) + P(B).

  • Consecuencias de la definición:

  • P(∅) = 0

  • a. Si A ⊂ B P(A) P(B)

  • b. Siempre se cumple que , ∀ A

  • Regla de la adición

  • P(A ∪ B) = P(A) + P(B) - P(A ∩ B).- No tienen por que ser incompatibles

    Regla de la adición generalizada:

    P(A ∪ B) = P(A) + P(B) - P(A ∩ B

    Estadística 1º E.T.I.S. Facultade de Informática da Coruña Curso 1.997-1.998

    11