Estadística


Datos cualitativos: Tablas de contingencia bidimensionales


TEMA 2º: TABLAS DE CONTINGENCIA BIDIMENSIONALES.

1º.- Distribución de frecuencias observadas.

El único aspecto cuantificable en el análisis cualitativo es el número de individuos que presenta una combinación los niveles de los factores. Estos valores se recogen en tablas de contingencia. (frecuencias observadas de cada combinación).

Ejemplo de tabla de contingencia:

Factores

Nivel 1º factor B

Nivel 2º factor B

Datos cualitativos: Tablas de contingencia bidimensionales

Nivel 1º factor A

Datos cualitativos: Tablas de contingencia bidimensionales

Datos cualitativos: Tablas de contingencia bidimensionales

Datos cualitativos: Tablas de contingencia bidimensionales

Nivel 2º factor A

Datos cualitativos: Tablas de contingencia bidimensionales

Datos cualitativos: Tablas de contingencia bidimensionales

Datos cualitativos: Tablas de contingencia bidimensionales

Datos cualitativos: Tablas de contingencia bidimensionales

Datos cualitativos: Tablas de contingencia bidimensionales

Datos cualitativos: Tablas de contingencia bidimensionales

Datos cualitativos: Tablas de contingencia bidimensionales

Los Datos cualitativos: Tablas de contingencia bidimensionales
representan el número de individuos observados en cada combinación de los niveles de los factores A, B y se consideran como la realización de una V.A. con valores enteros y positivos.

2º.- Modelos muestrales para las frecuencias observadas.

Nuestro objetivo principal es contrastar la independencia entre los factores en estudio. Para ello tendremos en cuenta los modelos de muestreo utilizados para diseñar el experimento que dependerán de la fijación o no de algunos de los totales marginales.

Modelos muestrales más utilizados:

a.- Poisson: los totales marginales y el total muestral varían libremente.

Una tabla generada por este tipo de muestreo está compuesta por V.A. Datos cualitativos: Tablas de contingencia bidimensionales
independientes asociadas a cada casilla y con distribución de Poisson Datos cualitativos: Tablas de contingencia bidimensionales

Distribución de probabilidad conjunta para toda la tabla:

Datos cualitativos: Tablas de contingencia bidimensionales
(producto de las IxJ distribuciones).

b.- Muestreo multinomial completo: se fija de antemano el tamaño de la muestra.

La distribución del vector asociado a la tabla es una multinomial Datos cualitativos: Tablas de contingencia bidimensionales

Datos cualitativos: Tablas de contingencia bidimensionales
Además Datos cualitativos: Tablas de contingencia bidimensionales

Nota: si la distribución de una tabla de tipo Poisson se condiciona a que Datos cualitativos: Tablas de contingencia bidimensionales
, el resultado es una tabla con distribución multinomial Datos cualitativos: Tablas de contingencia bidimensionales

c.- Muestreo multinomial independiente: fijados de antemano los totales marginales de uno de los factores.

Para generar una tabla de contingencia seleccionamos MAS de tamaños correspondientes a los tamaños asignados a los niveles de uno de los factores y se clasifican a los individuos en cada muestra según los niveles del otro factor.

Datos cualitativos: Tablas de contingencia bidimensionales
donde Datos cualitativos: Tablas de contingencia bidimensionales
es la probabilidad de clasificar a un individuo de la fila i-ésima en la columna j-ésima.

La función de probabilidad conjunta para la tabla de contingencia es:

Datos cualitativos: Tablas de contingencia bidimensionales
Datos cualitativos: Tablas de contingencia bidimensionales

nota: si la distribución de una tabla es Poisson con frecuencias esperadas Datos cualitativos: Tablas de contingencia bidimensionales
o multinomial con probabilidades Datos cualitativos: Tablas de contingencia bidimensionales
entonces la distribución condicionada del vector Datos cualitativos: Tablas de contingencia bidimensionales
a que Datos cualitativos: Tablas de contingencia bidimensionales
es multinomial con Datos cualitativos: Tablas de contingencia bidimensionales

d.- Muestreo hipergeométrico: fijados los totales marginales de ambos factores.

En este caso la distribución de la tabla seria una hipergeométrica multivariante.

e.- Muestreo binomial negativo: fijadas las frecuencias de las casillas de un nivel de uno de los factores.

Diseños muestrales apareado, longitudinal y de control único.

a.- Diseño apareado: consiste en seleccionar pares de individuos de características similares y clasificar a cada elemento del par según una característica.

b.- Diseño longitudinal: clasificamos un conjunto de individuos según un factor y en dos momentos diferentes de tiempo.

c.- Método d control único: se clasifican a los individuos según dos tratamientos diferentes del factor en estudio.

(tanto en b como en c se considera que el individuo más parecido a uno mismo es el propio individuo).

Independencia poblacional y muestral.

Consideremos una tabla de contingencia IxJ generada por MMC y sea Datos cualitativos: Tablas de contingencia bidimensionales
la prob. poblacional de que un individuo sea elegido en la casilla (i, j). El conjunto de todas estas probabilidades para toda la tabla de cómo resultado una tabla similar a la de contingencia con sus respectivas marginales definidas.

Para MMC la hipótesis de independencia entre factores es Datos cualitativos: Tablas de contingencia bidimensionales
.

En el caso de MMI estudiamos la homogeneidad de proporciones independientes.

Datos cualitativos: Tablas de contingencia bidimensionales

o Datos cualitativos: Tablas de contingencia bidimensionales

En el caso de tablas cuadradas generadas por datos dependientes, las hipótesis a contrastar son la de simetría de proporciones marginales y la de homogeneidad de proporciones marginales, es decir:

Datos cualitativos: Tablas de contingencia bidimensionales
respectivamente.

SIMETRÍA HOMOGENEIDAD.

5º.- Estimación máximo verosímil de las frecuencias esperadas para los modelos muestrales usuales.

Sea Datos cualitativos: Tablas de contingencia bidimensionales
el conjunto de frecuencias observadas.

Consideremos el modelo multinomial completo:

La función de máximoverosimilitud será: Datos cualitativos: Tablas de contingencia bidimensionales

Maximizando el segundo factor mediante el método de Lagrange obtenemos las estimaciones: Datos cualitativos: Tablas de contingencia bidimensionales

Datos cualitativos: Tablas de contingencia bidimensionales

TEMA 3º: INDEPENDENCIA EN TABLAS DE CONTINGENCIA BIDIMENSIONALES.

Contrastación de la hipótesis de independencia en una tabla de contingencia bidimensional.

1º.- Contrastes de independencia exactos.

En caso de muestras pequeñas.

Método:

1º Determinar el espacio muestral del diseño empleado en la tabla observada.(las tablas)

2º Seleccionar de todas las tablas del apartado anterior las que se alejan tanto o más de H0 que la tabla observada en la dirección de H1.

3º Calcular las probabilidades de ocurrencia bajo H0 de dichas tablas.

4º Calcular el p-valor del test. (sumar las probabilidades de dichas tablas)

5º Comparar el p-valor con el nivel de significación Datos cualitativos: Tablas de contingencia bidimensionales
prefijado.

Si p>Datos cualitativos: Tablas de contingencia bidimensionales
aceptamos H0.

Si pDatos cualitativos: Tablas de contingencia bidimensionales
rechazamos H0.

Inconvenientes: el cálculo de la probabilidad exacta de las tablas puede depender de parámetros desconocidos. Se soluciona estimando estos.

Cuando aumenta la muestra o los niveles de los factores el cálculo del p-valor es muy laborioso.

1.1.- Contraste de independencia en el modelo muestral hipergeométrico.

a.-Test exacto de Fisher a una cola de asociación positiva.

Las hipótesis a contrastar son: Datos cualitativos: Tablas de contingencia bidimensionales

Se calcula el p-valor del test sumando las probabilidades de las tablas cuyo Datos cualitativos: Tablas de contingencia bidimensionales
sea mayor o igual que el de la tabla observada. Comparamos con Datos cualitativos: Tablas de contingencia bidimensionales

b.- Test exacto de Fisher a una cola de asociación negativa.

Las hipótesis a contrastar son: Datos cualitativos: Tablas de contingencia bidimensionales

Se calcula el p-valor del test sumando las probabilidades de las tablas cuyo Datos cualitativos: Tablas de contingencia bidimensionales
sea menor que el de la tabla observada. Comparamos con Datos cualitativos: Tablas de contingencia bidimensionales

c.- Test exacto de Fisher a dos colas.

Las hipótesis a contrastar son: Datos cualitativos: Tablas de contingencia bidimensionales

Las tablas que se alejan de Datos cualitativos: Tablas de contingencia bidimensionales
son las que verifican que Datos cualitativos: Tablas de contingencia bidimensionales

Donde Datos cualitativos: Tablas de contingencia bidimensionales

La probabilidad de ocurrencia de una tabla es:

Datos cualitativos: Tablas de contingencia bidimensionales

1.2.-Contraste exacto en el modelo muestral multinomial independiente.

a.- Test de homogeneidad de proporciones.

Las hipótesis a contrastar son: Datos cualitativos: Tablas de contingencia bidimensionales

La probabilidad de ocurrencia de una tabla cualquiera es:

Datos cualitativos: Tablas de contingencia bidimensionales

2º.- Contrastes de independencia asintóticos.

2.1.- Contraste Datos cualitativos: Tablas de contingencia bidimensionales
de bondad de ajuste a una multinomial de parámetros conocidos.

Las hipótesis a contrastar son: Datos cualitativos: Tablas de contingencia bidimensionales

Pearson propone el siguiente estadístico Datos cualitativos: Tablas de contingencia bidimensionales
el cual se distribuye según una Datos cualitativos: Tablas de contingencia bidimensionales
con I-1 grados de libertad y a nivel de confianza Datos cualitativos: Tablas de contingencia bidimensionales
. Se rechazará la hipótesis si el valor observado es mayor que el valor esperado.

2.2.- Contraste para una multinomial de parámetros estimados.

Las hipótesis a contrastar son: Datos cualitativos: Tablas de contingencia bidimensionales

Se propone el siguiente estadístico Datos cualitativos: Tablas de contingencia bidimensionales
el cual se distribuye según una Datos cualitativos: Tablas de contingencia bidimensionales
con I-p-1 grados de libertad. Se rechazará la hipótesis nula si el valor observado es mayor que el valor esperado.

2.3.- Contraste X2 de independencia.

Las hipótesis a contrastar son: Datos cualitativos: Tablas de contingencia bidimensionales

El estadístico propuesto para realizar este contraste es el siguiente:

Datos cualitativos: Tablas de contingencia bidimensionales
teniendo en cuenta que bajo Datos cualitativos: Tablas de contingencia bidimensionales
tenemos Datos cualitativos: Tablas de contingencia bidimensionales
.

Dicho estadístico se distribuye según una Datos cualitativos: Tablas de contingencia bidimensionales
con (I-1)(J-1) grados de libertad. Además si el valor observado supera al esperado, rechazaremos Datos cualitativos: Tablas de contingencia bidimensionales
.

2.4.- Contraste X2 de homogeneidad de proporciones.

Las hipótesis a contrastar son:Datos cualitativos: Tablas de contingencia bidimensionales
teniendo en cuenta que bajo

hipótesis nula se verifica: Datos cualitativos: Tablas de contingencia bidimensionales
.

El estadístico es el mismo utilizado en el contraste anterior.

2.5.- Contrate de independencia de razón de verosimilitudes

Las hipótesis a contrastar son: Datos cualitativos: Tablas de contingencia bidimensionales
.

El estadístico utilizado en este test es el siguiente: Datos cualitativos: Tablas de contingencia bidimensionales
.

Wiks demostró que Datos cualitativos: Tablas de contingencia bidimensionales
se distribuye según una Datos cualitativos: Tablas de contingencia bidimensionales
con (I-1)(J-1) grados de libertad bajo hipótesis nula. (Datos cualitativos: Tablas de contingencia bidimensionales
.

La hipótesis nula se rechaza si el valor observado del estadístico es mayor que el esperado para un nivel de significación Datos cualitativos: Tablas de contingencia bidimensionales
prefijado.

Corrección por continuidad.

Corrección de Yates.

El estadístico corregido tiene la siguiente expresión: Datos cualitativos: Tablas de contingencia bidimensionales
y se distribuye según una Datos cualitativos: Tablas de contingencia bidimensionales
con (I-1)(J-1) grados de libertad.

3º.- Partición de los estadísticos para detectar fuentes de asociación.

3.1.- Partición de tablas IxJ en tablas 2x2 independientes.

( Nota: aprovechando la reproductividad de la Datos cualitativos: Tablas de contingencia bidimensionales
, cualquier V.A. con dicha distribución y v grados de libertad se puede poner como suma de V.A. Datos cualitativos: Tablas de contingencia bidimensionales
independientes cuyos grados de libertad sumen v).

Landcaster e Irving propusieron el siguiente método para descomponer una tabla en subtablas independientes 2x2:

  • 1ª subtabla: dos primeras columnas.

  • 2ª subtabla: suma de las dos primeras columnas y la 3ª columna.

  • 3ª subtabla: suma de las tres primeras columnas y la 4ª columna.

  • ...

La forma general de dichas tablas es:

Datos cualitativos: Tablas de contingencia bidimensionales

Datos cualitativos: Tablas de contingencia bidimensionales
Datos cualitativos: Tablas de contingencia bidimensionales

Datos cualitativos: Tablas de contingencia bidimensionales
Datos cualitativos: Tablas de contingencia bidimensionales

Datos cualitativos: Tablas de contingencia bidimensionales

Datos cualitativos: Tablas de contingencia bidimensionales

Datos cualitativos: Tablas de contingencia bidimensionales
Datos cualitativos: Tablas de contingencia bidimensionales

Datos cualitativos: Tablas de contingencia bidimensionales

El Datos cualitativos: Tablas de contingencia bidimensionales
de la tabla original se descompone como suma de los estadísticos de razón de verosimilitudes asociados a cada una de las subtablas construidas, cosa que no ocurre con el Datos cualitativos: Tablas de contingencia bidimensionales
de Pearson.

Kimball propone el siguiente estadístico para la tabla j-ésima:

Datos cualitativos: Tablas de contingencia bidimensionales

El contraste se realiza en cada un de las subtablas y en cualquier caso se realiza a un nivel de significación Datos cualitativos: Tablas de contingencia bidimensionales
.

Esta descomposición en tablas independientes no es única. Para comprobar que una partición da lugar a componentes independientes basta con sumar los estadísticos de razón de verosimilitudes de cada subtabla y comprobar que coincide con el asociado a la tabla completa.

Condiciones para obtener tablas independientes:

  • suma de grados de libertad de las subt. = grados de la tabla completa.

  • cada frecuencia obs. de la tabla original aparece en una sola subtabla.

  • los totales marginales en la tabla original aparecen en una sola subtabla.

3.2.- Partición en tablas dependientes.

Suponiendo que haya asociación queremos comprobar si fijado un nivel de un factor hay dependencia con los restantes niveles. En este caso no se verifica que la suma de los Datos cualitativos: Tablas de contingencia bidimensionales
y Kimball de las subtablas sea igual al Pearson de la tabla original. La contrastación se realiza a un nivel de significación Datos cualitativos: Tablas de contingencia bidimensionales

4º.- Análisis de residuos.

Si en una tabla de contingencia la hipótesis de independencia se ha visto rechazada, mediante el análisis de residuos podemos detectar los niveles de los factores que pueden ser los causantes de tal asociación.

Residuos estandarizados: Datos cualitativos: Tablas de contingencia bidimensionales

La varianza estimada de los residuos: Datos cualitativos: Tablas de contingencia bidimensionales

Residuos ajustados: Datos cualitativos: Tablas de contingencia bidimensionales

Se consideran significativos a un nivel de significación Datos cualitativos: Tablas de contingencia bidimensionales
aquellos que en valor absoluto superen el cuantil correspondiente a una N(0,1).

5º.- Contraste de independencia para variables ordinales.

En variables ordinales es aconsejable aprovechar la información que podamos obtener del orden de los niveles de los factores.

5.1.- Test de linealidad para una tabla IxJ.

Consiste en descomponer el Datos cualitativos: Tablas de contingencia bidimensionales
en dos componentes independientes que permiten contrastar si existe relación lineal significativa entre dos variables ordinales que han sido codificadas.

Consideramos:

Datos cualitativos: Tablas de contingencia bidimensionales

Estimamos los parámetros de la recta de regresión de una variable sobre la otra por mínimos cuadrados, designando una variable como explicativa y la otra como la explicada. El estimador de la pendiente de la recta de regresión, b , nos proporciona la tendencia o tipo de relación entre x e y.

Una vez estimado el parámetro b, se contrasta su significatividad:

Datos cualitativos: Tablas de contingencia bidimensionales

Fijado un nivel de significación Datos cualitativos: Tablas de contingencia bidimensionales
, rechazamos la hipótesis nula si: Datos cualitativos: Tablas de contingencia bidimensionales
es mayor que el valor observado de una Datos cualitativos: Tablas de contingencia bidimensionales
.

6º.- Análisis de tablas cuadradas generadas por datos dependientes.

Este tipo de tablas están generadas por diseño apareado, longitudinal o de control único.

Se clasifica a los individuos según una característica en dos instantes de tiempo diferentes, bajo dos tratamientos distintos, ...

Se trata de ver si hay cambios significativos en la variable de interés bajo tratamientos distintos o en dos instantes de tiempo determinados.

Las hipótesis de interés son las de simetría y la de homogeneidad.

6.1.- Test de McNemar.

Consideramos una tabla generada según los diseños anteriores.

Las hipótesis a contrastar son: Datos cualitativos: Tablas de contingencia bidimensionales

Este test se basa en el estadístico Datos cualitativos: Tablas de contingencia bidimensionales
. Bajo Datos cualitativos: Tablas de contingencia bidimensionales
y suponiendo MMC los estimadores máximo verosímiles de las frecuencias esperadas son:

Datos cualitativos: Tablas de contingencia bidimensionales
Sustituyéndolos en el estadístico obtenemos:

Datos cualitativos: Tablas de contingencia bidimensionales
el cual se distribuye según una Datos cualitativos: Tablas de contingencia bidimensionales

Se rechaza si el valor observado es mayor que el valor esperado.

La corrección de Yates también se puede aplicar a dicho estadístico.

6.2.- Test binomial exacto.

a.- A dos colas: las hipótesis a contrastar son: Datos cualitativos: Tablas de contingencia bidimensionales

Siendo Datos cualitativos: Tablas de contingencia bidimensionales
, la probabilidad de ocurrencia de una tabla cualquiera es:Datos cualitativos: Tablas de contingencia bidimensionales
. El p-valor del test es Datos cualitativos: Tablas de contingencia bidimensionales

b.- A una cola de asociación positiva: Datos cualitativos: Tablas de contingencia bidimensionales

El p-valor del test es Datos cualitativos: Tablas de contingencia bidimensionales

c.- A una cola de asociación negativa: Datos cualitativos: Tablas de contingencia bidimensionales

El p-valor del test es Datos cualitativos: Tablas de contingencia bidimensionales

6.3.- Extensión de Bower al test de McNemar para contrastar simetría en una tabla cuadrada.

Contrastamos la hipótesis de simetría Datos cualitativos: Tablas de contingencia bidimensionales

Bajo Datos cualitativos: Tablas de contingencia bidimensionales
y suponiendo MMC, los estimadores máximo verosímiles de las frecuencias esperadas son:

Datos cualitativos: Tablas de contingencia bidimensionales

Sustituyendo estos estimadores en el estadístico Datos cualitativos: Tablas de contingencia bidimensionales
se obtiene el siguiente estadístico:

Datos cualitativos: Tablas de contingencia bidimensionales
con i<j.

Bajo la hipótesis nula se distribuye según Datos cualitativos: Tablas de contingencia bidimensionales
. Se rechazará dicha hipótesis si el valor observado es mayor que el valor esperado.

6.4.- Extensión de Stwart y Maxwell para contrastar la hipótesis de homogeneidad de proporciones marginales en una tabla IxI generada por datos dependientes.

Es interesante cuando la hipótesis de simetría es rechazada.

Se propone el siguiente estadístico:Datos cualitativos: Tablas de contingencia bidimensionales
. Donde d es u vector columna formado por cualquiera de las diferencias Datos cualitativos: Tablas de contingencia bidimensionales
y v es la matriz cuyos elementos son Datos cualitativos: Tablas de contingencia bidimensionales
,Datos cualitativos: Tablas de contingencia bidimensionales
de forma que bajo Datos cualitativos: Tablas de contingencia bidimensionales
tiene distribución asintótica con (I-1) grados de libertad.

TEMA 4º: MEDIDAS DE ASOCIACIÓN EN TABLAS IxJ

1º.- Introducción.

Cuando la hipótesis de independencia es rechazada podemos plantearnos cual es el grado de asociación y la dirección en que se produce tal.

Las medidas de asociación son parámetros poblacionales que dependen de las probabilidades poblacionales Datos cualitativos: Tablas de contingencia bidimensionales
. Éstas deben ser fácilmente interpretables y deben estar acotadas de manera que los factores indiquen asociación perfecta o falta de asociación. Suelen estar normalizadas tomando valores entre 0 y 1 ó entre -1 y 1, lo cual permite la comparaciones entre tablas de diferentes tamaños.

A veces los valores extremos no se alcanzan aún cuando hay asociación perfecta.

Distinguimos dos tipos de asociación:

  • Estricta perfecta, cada nivel de uno de los factores está asociado a un único nivel del otro factor.(en cada columna hay una única prob. poblacional no nula).

  • Implícita :

  • Asociación perfecta implícita de tipo I: en cada fila habrá una sola prob. No nula pero en alguna columna habrá más de una prob. no nula.

  • Asociación perfecta implícita de tipo II: algún nivel del factor 1º está relacionado con más de un nivel del factor 2º o viceversa.

  • Otra propiedades deseables son la simetría y la invarianza.

    Podemos clasificarlas según varios criterios:

  • Medidas parciales y globales.

  • Medidas nominales y ordinales.

  • Medidas simétricas o asimétricas.

  • 2º .- Medidas de asociación en tablas 2x2.

    2.1.- Funciones del cociente de probabilidad.

    Supongamos una tabla generada por MMC con prob. poblacionales Datos cualitativos: Tablas de contingencia bidimensionales

    • Cociente de probabilidad o razón de productos cruzados.

    Ventaja de un suceso:Datos cualitativos: Tablas de contingencia bidimensionales

    Se define el cociente de probabilidad como:

    Datos cualitativos: Tablas de contingencia bidimensionales

    Propiedades:

  • Datos cualitativos: Tablas de contingencia bidimensionales

  • no definido si Datos cualitativos: Tablas de contingencia bidimensionales
    oDatos cualitativos: Tablas de contingencia bidimensionales
    son 0. Si las dos son cero hay asociación perfecta estricta positiva. Si alguno es nulo hay asociación perfecta implícita de tipo II.

  • Datos cualitativos: Tablas de contingencia bidimensionales
    cuando Datos cualitativos: Tablas de contingencia bidimensionales
    y/oDatos cualitativos: Tablas de contingencia bidimensionales
    son nulas. Si las dos son nulas hay APEN. Si una de ellas es nula hay AIT II.

  • Datos cualitativos: Tablas de contingencia bidimensionales
    dependencia entre los factores.

  • Datos cualitativos: Tablas de contingencia bidimensionales
    asociación positiva.

  • Datos cualitativos: Tablas de contingencia bidimensionales
    asociación negativa.

  • Invariante frente a cambios de escala en filas y/o columnas.

  • El cambio de orden en filas o columnas: mismo grado de asociación pero en dirección opuesta.

  • El estimador de Datos cualitativos: Tablas de contingencia bidimensionales
    es: Datos cualitativos: Tablas de contingencia bidimensionales
    con similar interpretación.

    Una medida simétrica es Datos cualitativos: Tablas de contingencia bidimensionales
    que toma valores entre Datos cualitativos: Tablas de contingencia bidimensionales

    Datos cualitativos: Tablas de contingencia bidimensionales
    hay independencia.

    Datos cualitativos: Tablas de contingencia bidimensionales
    asociación negativa.

    Datos cualitativos: Tablas de contingencia bidimensionales
    asociación positiva.

    En caso de haber ceros muestrales se propone el siguiente estimador:Datos cualitativos: Tablas de contingencia bidimensionales

    • Q de Yule.

    Datos cualitativos: Tablas de contingencia bidimensionales
    Datos cualitativos: Tablas de contingencia bidimensionales

    valor muestral: Datos cualitativos: Tablas de contingencia bidimensionales

    2.2.- Medidas que son función del coeficiente de correlación.

    Codificando con 0 y 1 las variables de una tabla de contingencia podemos utilizar el cuadrado del coeficiente de correlación de Pearson como medida de asociación.

    Datos cualitativos: Tablas de contingencia bidimensionales
    Datos cualitativos: Tablas de contingencia bidimensionales
    pero no permite determinar la dirección

    de la asociación. Para ello consideramos el coeficiente de correlación:

    Datos cualitativos: Tablas de contingencia bidimensionales
    Datos cualitativos: Tablas de contingencia bidimensionales

    Si vale 0 hay independencia. Si vale -1, asociación perfecta estricta negativa. Si vale 1, asociación perfecta estricta positiva.

    Asociación implícita de tipo II no implica que tome valores extremos.

    Invariante frente a cambios en orden de filas o columnas.

    Cambia de signo si cambiamos el orden de las filas o columnas.

    La estimación muestral es: Datos cualitativos: Tablas de contingencia bidimensionales
    con la misma interpretación.

    2.3.- Medidas para comparar proporciones.

    Suponiendo dos factores, uno explicativo y otro explicado, definimos las siguientes medidas asimétricas:

    • Diferencia de proporciones: Datos cualitativos: Tablas de contingencia bidimensionales

    Vale 0 si hay independencia.

    Vale 1 si asociación perfecta estricta +

    Vale -1 si “ “ “ -

    Entre 0 y 1 asociación +

    Entre -1 y 0 asociación -

    • Riesgo relativo: Datos cualitativos: Tablas de contingencia bidimensionales

    Datos cualitativos: Tablas de contingencia bidimensionales

    Estimación muestral de riesgo relativo:

    Datos cualitativos: Tablas de contingencia bidimensionales

    Podemos utilizar una transformación del riesgo relativo como medida de asociación:

    Datos cualitativos: Tablas de contingencia bidimensionales

    3º .- Medidas de asociación en tablas IxJ.

    3.1.- Medidas basadas en Datos cualitativos: Tablas de contingencia bidimensionales
    de Pearson.

    • Medida Datos cualitativos: Tablas de contingencia bidimensionales
      de Pearson.

    Valor poblacional: Datos cualitativos: Tablas de contingencia bidimensionales

    Valor estimado: Datos cualitativos: Tablas de contingencia bidimensionales

    Vale 0 sii independencia.

    Asociación perfecta estricta : vale 1

    En tablas 2x2 su valor coincide con Datos cualitativos: Tablas de contingencia bidimensionales
    . Es simétrica y fácil de calcular.

    • Coeficiente de contingencia.

    Valor poblacional: Datos cualitativos: Tablas de contingencia bidimensionales

    Valor estimado: Datos cualitativos: Tablas de contingencia bidimensionales

    Si vale cero hay independencia.

    No alcanza su valor máximo aún cuando hay asociación perfecta. Este depende del tamaño de la tabla. Para tablas cuadradas el valor máximo que puede tomar es el siguiente:Datos cualitativos: Tablas de contingencia bidimensionales
    . En la práctica se utiliza el ajustado: Datos cualitativos: Tablas de contingencia bidimensionales

    • Medida T de Tschuprov.

    Valor poblacional: Datos cualitativos: Tablas de contingencia bidimensionales

    Valor estimado: Datos cualitativos: Tablas de contingencia bidimensionales
    ç

    Vale 0 cuando hay independencia.

    Vale 1 en caso de asociación perfecta estricta en tablas 2x2.

    • V de Cramer.

    Valor poblacional: Datos cualitativos: Tablas de contingencia bidimensionales

    Valor estimado: Datos cualitativos: Tablas de contingencia bidimensionales

    Vale 0 sii independencia.

    En asociación perfecta alcanza su valor máximo.

    En tablas cuadradas su valor coincide con T

    En tablas 2x2 Datos cualitativos: Tablas de contingencia bidimensionales

    3.2.- Medidas de reducción proporcional del error.

    Consideremos los factores A y B. Quiero determinar en qué nivel del factor B clasificar a un individuo elegido al azar. Esta predicción se puede hacer de dos formas:

    - Arbitrariamente, si consideramos el nivel del factor A en que se clasifica el individuo. (P1 = prob. de cometer error prediciendo arbitrariamente)

    - Predecir el nivel de B, teniendo en cuenta el nivel de A en que está clasificado. ( P2 = prob. de cometer error prediciendo de esta forma).

    Si A y B son independientes entonces P1 = P2.

    Si existe asociación, P1 > P2.

    Definimos la medida de la siguiente forma: Datos cualitativos: Tablas de contingencia bidimensionales

    Interpretación de estas medidas.

    - Están entre [0,1]

    • Si los factores son independientes P1=P2 y la medida vale 0.

    • Si la medida vale 0 puede existir asociación entre los factores.

    • Si los factores están asociados, P1>P2 y la medida está entre 0 y 1.

    • Si los factores están perfectamente asociados vale 1.

    • Son medidas asimétricas y se definen simétricas de la misma forma.

    • Medida Lambda de Goodman y Kruskal.

    Poblacionalmente toma el valor: Datos cualitativos: Tablas de contingencia bidimensionales
    donde Datos cualitativos: Tablas de contingencia bidimensionales

    Propiedades:

    • Indeterminado si P.m=1.

    • Está entre 0 y 1.

    • Si A y B son independientes entonces vale 0.

    • Si vale 0: ausencia de capacidad predictiva de A para B.

    • Si vale 1: asociación perfecta estricta o implícita de tipo I.

    • Invariante frente a permutación de filas o columnas.

    Valor muestral: Datos cualitativos: Tablas de contingencia bidimensionales

    Hay una simétrica para cuando no sea posible determinar qué factor es el explicativo y cual es el explicado.

    Datos cualitativos: Tablas de contingencia bidimensionales

    3.3.- Medidas de asociación en tablas IxJ de tipo ordinal-ordinal basadas en concordancia discordancia.

    Un par de individuos se dice concordante si el individuo que se encuentra clasificado en un nivel superior de uno de los factores, es clasificado también en un nivel superior para el segundo factor.

    Un par se dice discordante si el individuo que se clasifica en el nivel superior de un factor, está clasificado en un nivel inferior para el segundo factor.

    Un par se dice ligado si ambos tienen igual clasificación en ambos factores.

    Dado un par elegido aleatoriamente la probabilidad de concordancia es: Datos cualitativos: Tablas de contingencia bidimensionales
    .

    La probabilidad de discordancia es: Datos cualitativos: Tablas de contingencia bidimensionales
    .

    En una tabla de contingencia se definen dichas probabilidades como:

    Concordancia: Datos cualitativos: Tablas de contingencia bidimensionales
    =PD

    Discordancia: Datos cualitativos: Tablas de contingencia bidimensionales
    =PD

    Número de pares concordantes: Datos cualitativos: Tablas de contingencia bidimensionales
    =C

    Número de pares discordantes: Datos cualitativos: Tablas de contingencia bidimensionales
    =D

    Número de pares ligados por el factor A: Datos cualitativos: Tablas de contingencia bidimensionales
    =TA

    Número de pares ligados por el factor B: Datos cualitativos: Tablas de contingencia bidimensionales
    =TB

    TAB=Datos cualitativos: Tablas de contingencia bidimensionales
    El total de pares es C+D+TA+TB-TAB

    Gamma de Goodman y Kruskal.

    Datos cualitativos: Tablas de contingencia bidimensionales

    Está entre -1 y 1.

    Vale 0 en caso de independencia.

    Si hay asociación perfecta negativa vale -1.

    Si hay asociación perfecta + vale 1.

    Es simétrica.

    Cuanto más cercano sea el valor a 1 mayor asociación +.

    En tablas 2x2 coincide con Q de Yule.

    D de Somers.

    Es asimétrica. Considerando el factor B como respuesta: Datos cualitativos: Tablas de contingencia bidimensionales
    B0= nº pares ligados por B.

    Interpretación igual que el anterior.

    Versión simétrica: Datos cualitativos: Tablas de contingencia bidimensionales

    Medida Datos cualitativos: Tablas de contingencia bidimensionales
    de Wilson.

    Datos cualitativos: Tablas de contingencia bidimensionales

    Si A0=0 coincide con Datos cualitativos: Tablas de contingencia bidimensionales

    Si B0=0 coincide con Datos cualitativos: Tablas de contingencia bidimensionales

    Si ambos son cero coincide con Gamma.

    3.4.- Medidas basadas en correlación por rangos.

    Para variables de tipo ordinal, el rango es el lugar que ocupa el valor de la variable entre todos ordenados de menor a mayor.

    • Coeficiente de correlación por rangos de Spearman.

    Ai , Bi son las modalidades de las variables y xi , yi son los rangos asociados.

    Datos cualitativos: Tablas de contingencia bidimensionales

    varia entre -1 y 1.

    Si hay concordancia perfecta entonces vale 1.

    Si hay discordancia vale -1.

    • Coeficiente de correlación por rangos de Kendall.

    Hay dos grupos:

    Datos cualitativos: Tablas de contingencia bidimensionales
    de Kendall:

    Ambos factores tienen el mismo número de categorías y los mismos totales marginales.

    Datos cualitativos: Tablas de contingencia bidimensionales

    Su valor está entre -1 y 1.

    Si hay independencia su valor es 0.

    Si asociación perfecta + vale 1.

    Si asociación perfecta - vale -1.

    Datos cualitativos: Tablas de contingencia bidimensionales

    Datos cualitativos: Tablas de contingencia bidimensionales
    con m = min (I, J).

    • Kappa de Cohen.

    Se utiliza en tablas cuadradas generadas por datos dependientes. Mide el grado de acuerdo entre los casos 1 y 2.

    Sea Pii la probabilidad de acuerdo. Datos cualitativos: Tablas de contingencia bidimensionales
    proporción de casos en los que hay acuerdo. Si hubiese independencia: Datos cualitativos: Tablas de contingencia bidimensionales
    (proporción de casos en que el acuerdo es casual).

    Datos cualitativos: Tablas de contingencia bidimensionales
    Su valor muestral es: Datos cualitativos: Tablas de contingencia bidimensionales

    4º.- Inferencia en las medidas de asociación.

    A partir de las medidas muestrales vamos a intentar establecer el valor de las medidas poblacionales mediante inferencia.

    Una medida de asociación es una función f sobre un espacio de vectores asociados a una tabla de contingencia IxJ.

    Nuestro objetivo es proporcionar, basándonos en la información muestral, un intervalo de confianza para el valor poblacional de la medida. Mediante el Th. Central del límite, bajo muestreo multinomial completo, el vector de proporciones muestrales tiene distribución asintótica normal multivar.

    con vector de medidas P. Aunque nos interesa f(p). Utilizamos el método delta.

    Datos cualitativos: Tablas de contingencia bidimensionales
    donde Datos cualitativos: Tablas de contingencia bidimensionales
    es el vector formado por las derivadas parciales de f respecto a cada Pij.

    El intervalo de confianza es: Datos cualitativos: Tablas de contingencia bidimensionales

    18

    Datos Cualitativos.




    Descargar
    Enviado por:Edc
    Idioma: castellano
    País: España

    Te va a interesar