Estadística
Modelos probalísticos
modelos probabilisticos
-
DISTRIBUCIÓN GEOMÉTRICA
En el marco de repeticiones independientes de Pruebas de Bernoulli con parámetro
“P” se define otro tipo de experimento como el número de pruebas necesarias hasta
conseguir que ocurra el evento A por primera vez. Este experimento se denomina
experimento Geométrico y define una variable aleatoria
Geométrica.
El modelo Geométrico es una variable aleatoria que se define
como el número de repeticiones independientes de una Prueba de Bernoulli hasta
que ocurre el evento A.
Notas: - La variable aleatoria tomará cualquier valor entero mayor o
igual a uno.
- El modelo Geométrico se denotará como G(p), donde p es la
probabilidad de que ocurra el evento A en cada Prueba de
Bernoulli.
- La asignación de probabilidades de cada valor de la variable esta dada por la ecuación 1
Ecuación 1
Como consecuencia de la Ecuación 1, la función de distribución acumulativa de
probabilidades, la función de densidad de probabilidades y la función de
probabilidad vienen dadas por las ecuaciones 2, 3 y 4, respectivamente.
La Tabla 1 muestra los valores esperados más importantes correspondientes al
modelo Geométrico.
Tabla 1: Valores Esperados más Importantes para el Modelo Geométrico.
Para darse una idea se plantean los siguientes ejemplos:
Ejemplo 1:La probabilidad de que ocurra el evento A en una Prueba de
Bernoulli es 0.6. ¿Cuál es la probabilidad de que se necesiten exactamente 5 pruebas
para conseguir el resultado A por primera vez?.
La variable aleatoria así definida se corresponde con el modelo Geométrico con
parámetro p = 0.6. La probabilidad que se solicita viene dada por
Ejemplo 2:Considere una caja con R pelotas rojas y A pelotas amarillas. Se va a
realizar un muestreo con reposición hasta obtener una pelota amarilla. ¿Cuál es la
probabilidad de que realicen exactamente 3 extracciones para conseguir la
primera pelota amarilla?.
La variable aleatoria así definida se corresponde con el modelo Geométrico con
parámetro p =A/A+R
. La probabilidad que se solicita viene dada por
Ejemplo 3:Un estudiante tiene probabilidad de 0.8 de aprobar el curso de
probabilidades. De no aprobar el curso en este término lo inscribe de nuevo hasta
que lo apruebe. ¿Cuál es la probabilidad de que necesite inscribirse más de tres
veces para aprobar el curso?.
La variable aleatoria definida como el número de veces que se toma el curso de
probabilidades hasta aprobarlo se corresponde con el modelo Geométrico con
parámetro p = 0.8 (se supone aquí que el valor de p permanece constante de un
término a otro). La probabilidad que se solicita viene dada por
Nota:
La Texas Instrument (TI-89), con su aplicación flash del programa de Probabilidad y Estadística, en el caso de la distribución Geomertrica, se da por la opcion F5, seccion F.
-
DISTRIBUCIÓN exponencial
La Definición de un Modelo Poisson implica el número de veces que ocurre un
cierto resultado en un intervalo de tiempo dado. Asociado a este modelo se puede
estudiar el tiempo entre la ocurrencia de dos resultados consecutivos el cual, en
consecuencia, será un valor aleatorio. Uno de los modelos más sencillos que permite
estudiar esta variable es el Modelo Exponencial que debe su nombre a la forma de
su función de densidad de probabilidades.
Definición 6.3: El modelo Exponencial es una variable aleatoria donde la función
de densidad de probabilidades viene dada por la Ecuación 1.
Notas: - La variable aleatoria se define para valores reales mayores que
cero.
- El modelo Exponencial se denotará como EXPON(), donde
es un parámetro que representa el inverso del tiempo promedio
entre la ocurrencia de dos eventos consecutivos.
Ejemplo 1: Para una variable aleatoria exponencial con parámetro calcule la
función de distribución acumulativa de probabilidades.
Aplicando la Propiedad 3.5.2.2 se tiene
Ejemplo 2: Para una variable aleatoria exponencial con parámetro = 2, calcule
la probabilidad de que la variable tome valores mayores a su valor esperado.
Según la Tabla 6.3, el valor esperado será E{X} = 1/ = 0.5. Entonces, la
probabilidad solicitada será
Ejemplo 3: El tiempo de atención al cliente en la taquilla de un banco sigue una
variable aleatoria exponencial con un promedio de 5 minutos, calcule la
probabilidad de que ese tiempo sea mayor a su valor esperado.
Según la Tabla anterior, el parámetro será igual a 1/E{X} = 1/5 = 0.2. Entonces, la
probabilidad solicitada será
-
Distribución Hipergeometrica
El modelo Hipergeométrico es una variable aleatoria que se
define como el número de objetos del tipo A en un muestreo sin reposición de
tamaño n en una población de N objetos donde k de ellos son del tipo A.
Notas: - La variable aleatoria tomará cualquier valor entero entre cero y n
pero debe cumplir con las restricciones de ser menor o igual a k
y mayor o igual que (n + k - N).
- El modelo Hipergeométrico se denotará como H(N, k, n), donde
N es la cantidad de objetos en la población, k es el número de
objetos tipo A en la población y n es el tamaño de muestra sin
reposición.
- La asignación de probabilidades de cada valor de la variable está
dada por la ecuación 1.
Como consecuencia de la Ecuación 1, la función de distribución acumulativa de
probabilidades, la función de densidad de probabilidades y la función de
probabilidad vienen dadas por las ecuaciones 2, 3 y 4, respectivamente.
Ejemplo 1:Considere una caja con R pelotas rojas y A pelotas amarillas. Se va a
realizar un muestreo sin reposición de tamaño 3. ¿Cuál es la probabilidad de que se
extraigan exactamente 3 pelotas amarillas?.
La variable aleatoria definida como el número de pelotas amarillas en el MSR de
tamaño 3 de la caja mencionada se corresponde con el modelo Hipergeométrico con
parámetros N = R + A, k = A y n = 3. La probabilidad que se solicita viene dada por
Ejemplo 2:Considere una caja con R pelotas rojas y A pelotas amarillas. Se va a
realizar un muestreo sin reposición de tamaño 3. ¿Cuál es la probabilidad de que se
extraigan más pelotas amarillas que rojas?.
La variable aleatoria definida como el número de pelotas amarillas en el MSR de
tamaño 3 de la caja mencionada se corresponde con el modelo Hipergeométrico con
parámetros N = R + A, k = A y n = 3. La probabilidad que se solicita viene dada por
Note que los cálculos que involucra el modelo Hipergeométrico se pueden volver
muy engorrosos para valores grandes de sus parámetros.
-
Distribuciones Multinomial
La distribución multinomial es similar a la distribución binomial, con la diferencia de que en lugar de dos posibles resultados en cada ensayo, puede haber múltiples resultados:
Ejemplo de distribución binomial: a unas elecciones se presentaron 2 partidos políticos: el POPO obtuvo un 70% de los votos y el JEJE el 30% restante. ¿Cuál es la probabilidad de que al elegir 5 ciudadanos al azar, 4 de ellos hallan votado al JEJE?
Ejemplo de distribución multinomial: a esas elecciones se presentaron 4 partidos políticos: el POPO obtuvo un 40% de los votos, el JEJE el 30%, el MUMU el 20% y el LALA el 10% restante. ¿Cuál es la probabilidad de que al elegir 5 ciudadanos al azar, 3 hayan votado al POPO, 1 al MUMU y 1 al LALA?
La distribución multinomial sigue el siguiente modelo:
Donde:
X1 = x1: indica que el suceso X1 aparezca x1 veces (en el ejemplo, que el partido POPO lo hayan votado 3 personas)
n: indica el número de veces que se ha repetido el suceso (en el ejemplo, 5 veces)
n!: es factorial de n (en el ejemplo: 5 * 4 * 3 * 2 * 1)
p1: es la probabilidad del suceso X1 (en el ejemplo, el 40%)
Veamos el ejemplo:
Luego:
P = 0,0256
Es decir, que la probabilidad de que las 5 personas elegidas hayan votado de esta manera es tan sólo del 2,56%
Nota: 0 es igual a 1, y cualquier número elevado a 0 es también igual a 1
Veamos otro ejemplo:
En una fiesta, el 20% de los asistentes son españoles, el 30% franceses, el 40% italiano y el 10% portugueses. En un pequeño grupo se han reunido 4 invitados: ¿cual es la probabilidad de que 2 sean españoles y 2 italianos?
Aplicamos el modelo:
Luego
P = 0,0384
Por lo tanto, la probabilidad de que el grupo esté formado por personas de estos países es tan sólo del 3,84%.
-
MODELO GAMMA.
En el modelo Normal se puede apreciar la relación existente entre los posibles
valores que pueden tomar los parámetros µ y , y la forma que adquiere la curva de
densidad de probabilidades al observar las Figuras 6.6 y 6.7. Una de las principales
características que se desprenden de esas figuras es el carácter simétrico del
fenómeno normal alrededor del valor esperado. En aquellos casos en los cuales es
importante que los posibles valores de la variable sean asimétricos, el modelo
Gamma explica satisfactoriamente el fenómeno.
Definición 1: El modelo Gamma es una variable aleatoria donde la función de
densidad de probabilidades.
Notas: - La variable aleatoria se define para los reales positivos.
- El modelo Gamma se denotará como GA(, ), donde y son
constantes positivas.
- () es la función Gamma, definida por la ecuación 6.10.
- Como propiedades de la función Gamma se pueden destacar las
siguientes:
Asignándole distintos valores a los parámetros a y b se obtienen distintos miembros
de la familia Gamma que tienen sus nombres propios debido a la popularidad de los
mismos. Las Definiciones 6.8, 6.9 y 6.10 destacan los tres miembros más comunes.
Definición 2: El modelo Gamma Estándar es una variable aleatoria Gamma
donde = 1 y es variable por lo que su función de densidad de probabilidades
viene dada por la Ecuación 6.11.
-
Modelo Chi Cuadrado
Es una variable aleatoria Gamma donde = 2 y = v/2 (v entero positivo) por lo que su función de densidad de
probabilidades viene dada por la Ecuación 1.
Notas: - El modelo Chi Cuadrado se denotará como 2(v).
- El parámetro v en la 2 se denomina `grados de libertad'.
Las Figuras muestran la función de densidad para el modelo
Gamma general, Gamma Estándar y Chi-Cuadrado para distintos valores de y ,
en cada caso.
Ejemplo1:
Digamos que 900 estudiantes expresan su voluntad por celebrar el aniversario de la institución organizando uno de dos
eventos: una acto solemne en el templo universitario o una actividad deportiva en el estadio de fútbol. Una vez hecha la
encuesta se tiene que 495 alumnos prefieren la actividad deportiva y 405 se inclinan por el acto solemne. ¿Existe una
diferencia significativa entre los estudiantes en su preferencia por la actividad deportiva?
La prueba estadística para determinar la significatividad de la diferencia en las frecuencias observadas es la prueba
llamada Chi Cuadrada. Para el caso que nos ocupa, se supone que si no hay diferencia en la preferencia de los alumnos de
una manera perfecta, tendríamos 450 alumnos eligiendo el acto solemne y otros 450 eligiendo las actividades deportivas.
Esa es la frecuencia de respuestas esperadas en el caso de una igualdad absoluta. Pero tenemos frecuencias observadas un
poco diferentes en un caso son 495 y en el otro 405, lo que deseamos saber es si esa diferencia observada es significativa.
Lo que se hace al aplicar la fórmula de chi cuadrada es restar al número de frecuencias observadas, el número de
frecuencias esperadas; elevar esta diferencia al cuadrado, lo que hace que todos los valores asuman un valor positivo, y
luego se divide el cuadrado obtenido entre el las frecuencias esperadas. Esto se hace de manera independiente para cada
una de las categorías. Una vez terminado este paso, se suman los resultados obtenidos en cada categoría y ese valor
resultante de la suma es el valor Chi cuadrada observado, el cual deberá ser comparado con el valor Chi cuadrada crítico
según el nivel alpha de significatividad escogido y los grados de libertad correspondientes.
En el caso de nuestro ejemplo se trata de dos categorías, lo que conduce a un grado de libertad. A continuación el proceso
para calcular el valor Chi cuadrada
1-A favor del acto solemne:
Frecuencias observadas = 405
Frecuencias esperadas = 450
2. A favor del acto deportivo:
Frecuencias observadas = 495
Frecuencias esperadas = 450
3. Se suman los valores obtenidos en cada grupo para obtener el valor de chi cuadrada.
4.5 + 4.5 = 9.00
4. Se compara este valor con el valor correspondiente a un grado de libertan en la tabla de Chi cuadrado y se encuentra que
el valor crítico de ð2para un grado de libertad a un nivel alpha = .05 a dos colas es = 3.8941
Siendo que el valor Chi cuadrada (ð 2) obtenido es mayor que el valor crítico, se desacredita la hipótesis nula que afirma
que no existe diferencia significativa entre las frecuencias observadas y se concluye que la diferencia es significativa. Esto
quiere decir que en menos de 5 casos de cada cien, una diferencia como la del valor igual o mayor al observado de Chi
cuadrado en este caso (ð 2 =9), puede ser atribuida a la selección de la muestra (azar).
Ejemplo No. 2
Supongamos que en una escuela las estadísticas de años pasados muestran que, la comisión de admisión tiende a aceptar 4
alumnos por 1 que se rechaza. Y en el presente año una comisión constituida por un grupo diferentes de personas, aceptó
275 y rechazó 60. ¿Se puede decir que esta nueva comisión difiere de manera significativa con la razón de rechazo de la
anterior comisión?
Corresponde en este caso calcular ð 2 para esta razón de rechazo comparada con la tradicional. De manera que tratándose
de 330 casos en total, si la comisión anterior hubiera actuado se esperaría que aceptaran 264 alumnos y rechazaran 66. Así
pues tomamos estos números (razón 4:1) como las frecuencias esperadas en cada caso.
Al comparar el valor ð 2 obtenido con el valor crítico de un grado de libertad y .05 de significatividad a dos colas vemos
que el valor crítico (3.841) es mayor que el observado por lo que no se puede desacreditar la hipótesis nula y se concluye
que la nueva comisión no muestra una política diferente a la de la comisión anterior.
Prueba ð 2 para determinar la independencia de variables.
En los ejemplos anteriores se han limitado a tomar decisiones respecto a categorías en una variable a partir de un solo
grupo. Pero esta prueba puede ser utilizada para probar la significatividad de la diferencia entre dos o más grupos respecto
una o varias variables cuando el grupo o grupos están clasificados por categorías. Eso es lo que se denomina prueba de
independencia. Nótese que se puede utilizar para determinar independencia entre los grupos o entre las variables.
A manera de ejemplo se presenta a continuación datos obtenidos en una investigación realizada por Silvana Poblete de
Araya entre estudiantes universitarios, quienes evaluaron el desempeño de alguno de sus maestros. Se trata de un total de
780 estudiantes y para servir como nuestro ejemplo, se busca determinar si el sexo del estudiante y el sexo del maestro al
cual le tocó evaluar, son dependientes. Se puede calcular, a partir de los valores en las columnas y filas, que participaron
un total de 328 varones y 452 mujeres los cuales evaluaron a 544 profesores y a 236 profesoras.
Las cifras que aparecen el cada recuadro representa, la superior, el número de frecuencias observadas (f o) y la que aparece
abajo es el número de frecuencias esperadas (f e). Si procedemos a determinar la diferencia entre las frecuencias
observadas y las esperadas y luego las elevamos al cuadrado y dividimos el resultado entre las frecuencias esperadas en
cada recuadro estaremos listos para sumar estos valores resultantes y computar la chi cuadrada que en este caso es 40.37.
En lo que respecta a los grados de libertad, estos se calculan restando 1 al número de filas y de columnas y multiplicando
el resultado entre sí.
GL = (columnas - 1) (filas - 1) = (2 - 1) (2 - 1) = (1) (1) = 1
Al buscar el valor ð 2 para 1 grado de libertad y .05 de significatividad a dos colas, encontramos el valor 3.841 que es
menor que 40.37 por lo que se desacredita la hipótesis nula que afirma que el género del alumno y el género del maestro
evaluado son independientes, conduciendo a la conclusión de que en este estudio, el género del estudiante que hizo la
evaluación y el género del maestro evaluado, son variables dependientes (es decir que tiene cierto grado de asociación).
Siendo que un valor ð 2 como el obtenido o mayor sólo puede ser atribuido a factores aleatorios en 5 o menos de cada 100
casos.
Nótese que en este caso estamos probando una especie de relación entre la variable género del estudiante y género del
maestro evaluado, pero no utilizamos la terminología de las correlación. En ese caso en lugar de decir que las variables
están relacionadas, decimos que son dependientes. Esto se explica dado el "bajo" nivel de medición de las variables
(nominal). También el investigador debe cuidarse de no confundir este concepto de dependencia con la terminología
propia de estudios de causalidad donde hablamos de variables dependientes e independientes.
Nota:
La Texas Instrument (TI-89), con su aplicación flash del programa de Probabilidad y Estadística, en el caso de la distribución chi-square, se da por la opción F5, sección 8. Además en el modulo de Excel se puede desarrollar por medio de una tabla.
Ejemplo del metodo para calcular Chi-Square:
Intervalo | Marca Cl. | Fobs. Oi | F teorica | (oi-ni)2/ni | |
Li | Ls | Oi | ni | ||
0 | 1 | 0,5 | 11 | 13,45849 | 0,449098 |
1 | 2 | 1,5 | 8 | 10,43964 | 0,57012 |
2 | 3 | 2,5 | 9 | 8,097945 | 0,100483 |
3 | 4 | 3,5 | 7 | 6,281509 | 0,082182 |
4 | 5 | 4,5 | 6 | 4,872515 | 0,260896 |
5 | 6 | 5,5 | 5 | 3,77957 | 0,394079 |
6 | 7 | 6,5 | 4 | 2,931782 | 0,389214 |
7 | 8 | 7,5 | 2 | 2,274159 | 0,033051 |
8 | 9 | 8,5 | 3 | 1,764046 | 0,865953 |
9 | 10 | 9,5 | 3 | 1,368356 | 1,94559 |
10 | 11 | 10,5 | 1 | 1,061423 | 0,003554 |
11 | INFINITO | 12,5 | 1 | 3,670561 | 1,942999 |
INTERVALOS SELLECCIONADOS | |||||
Li | Ls | MARCA | Oi | ni | (oi-ni)**2/ni |
0 | 1 | 0,5 | 11 | 13,45849 | 0,449098 |
1 | 2 | 1,5 | 8 | 10,43964 | 0,57012 |
2 | 3 | 2,5 | 9 | 8,097945 | 0,100483 |
3 | 4 | 3,5 | 7 | 6,281509 | 0,082182 |
4 | INFINITO | 25 | 21,71 | 0,498577 | |
ji**2 | 1,70046 | ||||
Los O'is y Ni's para el intervalo 4-infinto se obtienen sumando | |||||
las correspondientes columnas desde el LI=4 hasta el 11 |
Descargar
Enviado por: | Luis Pablo |
Idioma: | castellano |
País: | Costa Rica |