Muestreo y estimación

Distribuciones asociadas a la normal. Inferencia estadística. Población. Estimación puntual. Estimadores

  • Enviado por: Maxim
  • Idioma: castellano
  • País: España España
  • 12 páginas
publicidad
publicidad

TEMA 7

MUESTREO Y ESTIMACIÓN

DISTRIBUCIONES ASOCIADAS A LA NORMAL

Estas distribuciones podrían haber sido tratadas en el tema anterior, pero dado que su aplicación está relacionada con la materia de este tema van a ser comentadas ahora.

I.- Distribución X2 de Pearson.- Sean X1 ,..., Xn , variables aleatorias independientes que siguen una N(0, 1). Entonces , donde n son los grados de libertad.

La media de esta distribución es y su varianza es σ 2 = 2·n.

II.- Distribución t de Student.- Sean X, Y1, ..., Yn variables aleatorias independientes que siguen una N(0, 1), entonces , con media μ = 0.

Propiedades:

Es simétrica en torno a la media, o lo que es lo mismo en este caso, con respecto al 0.

Para un n grande, tn es aproximable por una N(0, 1).

III.- Distribución F de Fisher - Snedecor.- Se consideran dos v.a., llamadas X e Y , tales que:

La media de esta distribución es .

Fórmula.- Se trata de una propiedad importante:

INFERENCIA ESTADÍSTICA

En este curso se han estudiado dos partes netamente diferenciadas: la Estadística descriptiva y los Modelos de probabilidad.

La Estadística descriptiva se caracterizaba porque partiendo de la realidad y utilizando rudimentarias herramientas matemáticas se obtenían conclusiones referidas a la misma realidad.

En cambio, en la segunda parte del curso, partiendo de modelos matemáticos abstractos, se concluía sobre la realidad.

Este esquema incompleto adquiere plenitud con la Estadística inferencial, también llamada Estocástica ó Estadística matemática. Aquí se parte de la realidad, a continuación se elaboran modelos matemáticos y por último se retorna a la realidad aportando conclusiones.

POBLACIÓN Y MUESTRAS

La Estadística se ocupa del estudio de las características de los individuos que componen una población. Puesto que el estudio exhaustivo de toda la población (censo) es generalmente inviable, se observará una muestra de la población, y a partir de ella se realizará el modelo de probabilidad que sigue toda la población. A este proceso es al que se llama inferencia estadística.

El tipo de muestreo más importante es el muestreo aleatorio simple, que se caracteriza porque todos los elementos de la muestra tienen la misma probabilidad de ser elegidos. La elección se realiza con independencia, y por tanto con reemplazamiento.

Si la característica a estudiar es una v.a. X con una cierta distribución, desconocida totalmente a través de sus parámetros y se obtiene una muestra aleatoria simple (m.a.s.) de tamaño n, se dirá que x1,....,xn son independientes e idénticamente distribuidos según X.

Asimismo se cumple por ser independientes las v.a., que su densidad conjunta es:

En la práctica se utilizan los siguientes tipos de muestreo, equivalentes al anterior:

Muestreo sistemático.- Con los elementos de la población ordenados en una lista se selecciona al azar un primer elemento (elemento de arranque), y los demás elementos de la muestra se cogen a intervalos regulares. Es como dividir la población en varios grupos, eligiendo siempre el elemento n de cada grupo. Este tipo de muestreo funciona bien cuando en el sistema no hay ciclos.

Muestreo estratificado.- Si la población no es homogénea, se divide en estratos en los cuales si haya homogeneidad. La muestra se toma asignando a cada estrato un número proporcional de miembros.

Muestreo por conglomerados.- Un conglomerado es un conjunto de elementos muy diversos entre si, pero cuyo funcionamiento es muy parecido al de otro conglomerado (Como las provincias de un país). Si la población está dividida en conglomerados, y es homogénea entre ellos, se escogen al azar algunos conglomerados, de los que se extrae una m.a.s.

Muestreo polietápico.- Es una combinación de los tipos anteriores. Es el que aparece en los sondeos de opinión de los periódicos.

ESTIMACIÓN PUNTUAL

En muchos casos, de una v.a. se conoce (o supone conocido) el tipo de distribución que sigue (binomial, normal...), pero se desconocen los parámetros de la distribución.

Estimación puntual.- Es la obtención, a partir de la muestra, de valores para los parámetros desconocidos de la distribución. Esto se hace utilizando una v.a. llamada estimador.

Sea X una v.a. cuya distribución depende de un parámetro θ, y se desea estimar el valor de θ a partir de una m.a.s. Se llamará estimador de θ a una función de la muestra que da el valor estimado de θ.

Si se tiene una muestra concreta, el valor del estimador será un número al que se llama estimación de θ. Es de destacar que es una v.a., y por tanto tendrá una distribución llamada distribución del estimador en el muestreo, no siempre fácil de calcular, que dependerá de la distribución de X y de n. Sin embargo, para muestras grandes (n 30), el teorema central del límite va a permitir aproximar en muchas ocasiones la distribución de por la distribución normal.

ESTIMADORES DE LA MEDIA, VARIANZA Y DE UNA PROPORCIÓN

Suponiendo que se da una m.a.s. x1,....,xn, de una v.a. X, que sigue una distribución cualquiera de

media μ, y varianza σ 2, se definirán los siguientes estimadores:

I.- Estimador para la media.- Se estima la media teórica de la población (μ) utilizando la media muestral ():

que es una v.a. con media:

y varianza:

Si X es normal, entonces . Aunque X no sea normal, para tamaños muestrales grandes (n 30), el teorema central del límite dice que la distribución es aproximable por una distribución normal.

II.- Estimador para la varianza.- Sea X una v.a. de media μ conocida, y varianza σ 2 desconocida. Entonces, se puede utilizar el estimador:

cuya esperanza es .

En el caso de que μ también sea desconocida, entonces la varianza muestral será:

que tiene una esperanza , de lo que se deduce que el estimador es sesgado.

Cuasivarianza muestral.- Se define para corregir el error anterior, y se calcula:

cuya esperanza es .

Si X es una v.a. normal, entonces .

III.- Estimador para una proporción­.- Si en una población hay individuos de dos clases (que serán denominadas A y B, en proporción q y p = 1 - q, respectivamente, un estimador de la proporción p a partir de una muestra es la proporción muestral , donde xn es el número de individuos de clase A en la muestra, y sigue una distribución binomial Bi( n, p).

Esperanza.-

Varianza.-

Si n es grande (n 30) se puede aproximar la distribución binomial por una normal , que deberá ser tipificada.

Tipificando el estimador se deduce que .

PROPIEDADES DESEABLES DE LOS ESTIMADORES

El sesgo de un estimador se calcula Sesgo() = θ -E(). Se considera que es un estimador insesgado de θ si E() = θ, cualquiera que sea el tamaño de la muestra.

Un estimador insesgado se dice eficiente si

En algunas situaciones es difícil la obtención de estimadores centrados de alta eficacia, pero es posible obtener muestras de tamaño grande. En tales situaciones el requisito mínimo que se le exige a un estimador es que sea consistente, lo que quiere decir que al aumentar el tamaño muestral el estimador se aproxima al parámetro.

Métodos de obtención de estimadores.- Históricamente, el primer método que se utiliza es el método de los momentos, que consiste en igualar los momentos teóricos con los muestrales. El método más importante de los utilizados es el método de máxima verosimilitud.

TEMA 8

ESTIMACIÓN CON INTERVALOS DE CONFIANZA

Determinación del tamaño muestral.- A diferencia de la estimación puntual, en la estimación por intervalos de confianza lo que interesa es la obtención de un intervalo aleatorio en el que, con una probabilidad prefijada, pueda garantizarse que se encuentra el verdadero valor del parámetro, esto es, se trata de encontrar dos v.a. θ1 y θ2 tales que P( θ1 θ θ2 ) = 1 - α, donde θ es el parámetro desconocido y θ1 y θ2 son v.a. que dependen de la muestra.

Cuando se disponga de una muestra concreta se podrá contener o no a θ . Se trata de garantizar que, si se realiza el experimento muchas veces, en el 100·( 1 - α )% de ellos θ estará en el intervalo. A α se le llama nivel de significación, y a 1 - α nivel de confianza. α es fijado de antemano, y en la práctica sus valores más habituales son 0.05, 0.01 y 0.005.

I.- Intervalo de confianza para la media de una población normal.

I.1) Con la varianza poblacional (σ2 ) conocida.

El estimador puntual de μ es , que sigue una ; tipificando se obtiene el estadístico pivote, que se caracteriza porque su distribución es totalmente conocida:

Para un nivel de confianza 1 - α se tiene que , donde el cuantil es un número que verifica:

fig 8.1.- Esquema de división de probabilidades para una N(0, 1).

Aunque la población no sea normal, para n30, la expresión anterior es aplicable por el teorema central del límite.

El intervalo de confianza se calcula con la expresión:

I.2) Con σ2 desconocida.

Puede calcularse w, aplicando

El intervalo de confianza se calculará:

Para n 30, el teorema central del límite garantiza que la aproximación por la normal será válida.

EJEMPLO (Estimación de una media):

Se estudia el contenido medio en grasa de 35 hamburguesas, obteniéndose una media de 30.2 gramos de grasa con una desviación típica de 3.8 gramos.

a) Hallar el contenido medio de grasa para un nivel de confianza del 95%.

Se pide hallar μ. Como el valor de la varianza poblacional (σ2) es desconocida, hay que aplicar la expresión . Se sabe ya que α = 0.05.

Hay que calcular el valor de :

Este valor no aparece en las tablas, y ha sido hallado mediante una regla de 3, ya que los valores de t30 y t40 sí están tabulados.

Ahora sólo falta hallar el valor Sn-1 . Para hallarlo utilizaremos la varianza muestral Sn:

Sólo resta aplicar la fórmula:

b) ¿Cuál es el tamaño muestral necesario para, con una confianza del 90%, estudiar el contenido medio de grasa con un error inferior a 0.1 gr.?

En este caso α = 0.1. El error viene dado por la inecuación

Previsiblemente n 30, por lo cual .

Sn-1 se aproxima por el valor hallado en el apartado anterior:

II.- Intervalo de confianza para la media de una población normal (μ1 - μ2 ).

Sean dos variables aleatorias X e Y. Entonces:

⇒ Estadístico pivote.

El intervalo de confianza se construye:

,

siendo .

Cuando los datos vienen dados en pares, que miden dos observaciones realizadas sobre un mismo individuo en el que ha variado una sola observación, se llaman datos apareados, y lo que se hace es trabajar con las diferencias de pares. De este modo puede ser calculado un intervalo de confianza para la media μD = μx -μy.

III.- Intervalo de confianza para la varianza en poblaciones normales.

El estadístico pivote utilizado es:

El intervalo de confianza para σ 2 es:

IV.- Intervalo de confianza para la razón de varianzas

Interesa calcular un intervalo de confianza para .

El estadístico pivote va a ser:

El intervalo se construirá con:

V.- Intervalo de confianza para una proporción.

Como estimador de la proporción será usado , siendo xn el “número de éxitos en una muestra de tamaño n”.

Se utilizará como estadístico pivote:

que para un n grande sigue una N(0,1).

El intervalo de confianza se calculará con:

Este intervalo de confianza es función del parámetro p desconocido (En la fórmula general no se emplea el estimador dentro de la raíz, sino simplemente p). Esto se soluciona con una aproximación, con lo que el intervalo de confianza será calculado como:

Esta aproximación puede ser por exceso o por defecto, debiendo procurarse que la aproximación sea por exceso, para lo cual hay que maximizar ( 1 - p). Por eso la aproximación da lugar a un intervalo más largo.

Como criterio general se utilizará la primera de las fórmulas para hallar los intervalos de confianza y la segunda para hallar los tamaños muestrales.

VI.- Intervalo de confianza para la diferencia de proporciones.

Es igual que en el caso anterior. Los intervalos de confianza serán:

y

TEMA 9

CONTRASTE DE HIPÓTESIS

Contraste de hipótesis.- Una técnica diferente de inferencia estadística es el contraste de hipótesis. Aquí se realiza alguna afirmación sobre la población base, sobre su forma o sobre el valor numérico de uno o más de sus parámetros, que se contrasta luego mediante una muestra aleatoria extraída de la población.

La esencia de probar una hipótesis estadística es decidir si la afirmación se encuentra apoyada por la evidencia experimental. En general, la información involucra algún parámetro o alguna forma funcional no conocida de la distribución de interés, de la que hemos obtenido una muestra aleatoria. La decisión de si los datos muestrales apoyan estadísticamente la afirmación se toma con base en la probabilidad, y si ésta es mínima será rechazada.

El planteamiento general de un problema de contraste es el siguiente: se formula una hipótesis acerca de la población y se trata de ver si como consecuencia de un conjunto de valores muestrales debemos aceptar o rechazar la hipótesis formulada con unos márgenes de error previamente fijados.

Si los valores muestrales difieren mucho de los teóricos que cabría esperar bajo la hipótesis formulada, podría pensarse en rechazar la hipótesis, pues podría decirse que las diferencias son significativas. Se considera una distribución teórica bajo la hipótesis formulada, una distribución de la muestra y por último una medida de la diferencia entre ambas mediante un estadístico y según el valor de esta medida se aceptara o rechazara la hipótesis propuesta.

Para realizar un contraste de hipótesis han de seguirse los siguientes pasos:

  • Formular la hipótesis.

  • Experimentar (obtener información)

  • Decir si los resultados del experimento apoyan estrictamente los resultados de partida.

Hipótesis estadística.- Es cualquier conjetura sobre las características de interés de un modelo de probabilidad. Se llama hipótesis paramétrica cuando es una afirmación sobre el valor de parámetros desconocidos. Las hipótesis paramétricas pueden ser simples o compuestas.

Se llaman hipótesis paramétricas simples si asignan valores únicos a los parámetros, y si asignan un rango de valores a los parámetros se denominan hipótesis paramétricas compuestas.

Para formular el contraste de hipótesis hay que determinar las llamadas hipótesis nula y alternativa.

La hipótesis nula (H0) es la hipótesis que el experimentador asume como correcta, y que por tanto no necesita ser probada. La aceptación de H0 no implica que sea correcta o que haya sido probada, sino que los datos no han proporcionado evidencia suficiente como para refutarla. De acuerdo con esto, si el experimentador quiere respaldar con contundencia un argumento, este nunca podrá ser la hipótesis nula. H0 ha de contener siempre el símbolo “=“. Rechazar H0 significa asumir como correcta una hipótesis complementaria denominada hipótesis alternativa.

Para comparar estas dos hipótesis se utilizara el llamado estadístico de contraste. El valor específico que toma el estadístico de contraste para una muestra dada recibe el nombre de valor crítico del contraste. Cuando el valor crítico haya sido obtenido y pertenezca a una parte de la distribución con probabilidad alta, no habrá razones para rechazar H0. Si por el contrario, pertenece a una zona de probabilidad baja, habremos obtenido un valor que no esperábamos, y por tanto rechazaremos H0.

Existen dos tipos de errores a la hora de realizar los contrastes de hipótesis:

  • Error de tipo I.- Se produce cuando H0 es cierta y resulta rechazada.

  • Error de tipo II.- Se produce cuando H0 es falsa y resulta aceptada.

Estos dos errores llevan asociados unas probabilidades.

Nivel de significación (α) de un contraste.- Probabilidad de cometer un error de tipo I.

Una forma de reducir ambos errrores a la vez es aumentando el tamaño muestral. Se acota el error de tipo I, asignando un valor pequeño para α y después se intenta que la probabilidad del error de tipo II sea lo más pequeña posible.

Un contraste de hipótesis puede ser bilateral (o de dos colas) o unilateral (o de una cola):

Contraste bilateral (o de dos colas):

  • fig 9.1.- Contraste bilateral.

  • En este caso

  • Es de dos colas porque se rechaza H0 cuando el valor del estadístico está en cualquiera de las dos colas.

  • Contraste unilateral (o de una cola):

  • Si la cola de rechazo es la de la derecha se cumple que

    fig 9.2.- Contraste unilateral con cola de rechazo a la derecha.

    Sólo se rechazará el estadístico si está en la cola de la derecha.

    Si la cola de rechazo es la de la izquierda se cumple que

    fig 9.3.- Contraste unilateral con cola de rechazo a la izquierda.

    Sólo se rechazará el estadístico si está en la cola de la izquierda.

    El nivel crítico (p) o p-valor es la probabilidad de obtener una discrepancia, medida en términos del estadístico pivote, entre la hipótesis nula y la evidencia muestral mayor o igual a la observada, supuesta H0 cierta. Por tanto p sólo puede calcularse una vez tomada la muestra.

    Un valor de p muy pequeño significa una elevada incompatibilidad entre la hipótesis nula y la muestra observada, y por tanto conducirá al rechazo de H0.

    Si previamente hemos fijado un valor para α, el cálculo de p no es imprescindible para tomar una decisión. La relación entre α y p es:

    si p < α se rechaza H0.

    si p > α se acepta H0.

    Si no se ha fijado un valor para α, el cálculo de p es imprescindible. En este caso:

    • Si p < 0.01, generalmente se rechaza H0

    • Si 0.01 < p < 0.05, se interpreta como una zona de incertidumbre , y se sugiere aumentar el tamaño muestral antes de tomar una decisión.

    • Si p > 0.05, generalmente se acepta H0

    EJEMPLO (Contraste de hipótesis):

    Un fármaco para dormir, por experiencias de años, garantiza 8 horas de sueño, con una desviación de dos horas. Se saca al mercado una nueva versión del fármaco, asegurando que produce más horas de sueño. En un hospital se quiere comprobar esta afirmación y se experimenta en 100 enfermos, obteniendo una media de 9 horas de sueño. Al nivel del 5%, ¿puede afirmarse que el segundo producto produce más sueño que el primero? Hallar el nivel crítico.

    Los datos disponibles son n = 100, σ = 2, α = 0.05.

    Lo primero es definir la hipótesis nula. Se tiene en cuenta que se desea demostrar que se aumentan las horas de sueño.:

    unilateral con rechazo por la derecha.

    Como es un contraste para la media , se utiliza el estadístico:

    Ahora se busca Z en la tabla de la normal, buscando el número que deje a la derecha un 5% (0.95), y se hallará Z = 1.64. El valor del estadístico pivote se encuentra en la zona de rechazo, puesto que 5 > 1.64, y por tanto se rechaza H0. Por lo tanto puede decirse que la empresa farmaceútica no mentía.

    Para hallar el nivel crítico habría que calcular el área que queda a la derecha de 5. En el gráfico puede verse que esta área va a ser muy próxima a cero, y en la tabla de la normal vemos que para 3.49, que es el mayor valor tabulado, el área ya es muy próxima a cero. El nivel crítico sería por tanto muy aproximadamente 0.

    Estadística 1º E.T.I.S. Facultade de Informática da Coruña Curso 1.997-1.998

    50