Estadística


Tablas de contingencia


TEMA 2º: TABLAS DE CONTINGENCIA BIDIMENSIONALES.

1º.- Distribución de frecuencias observadas.

El único aspecto cuantificable en el análisis cualitativo es el número de individuos que presenta una combinación los niveles de los factores. Estos valores se recogen en tablas de contingencia. (frecuencias observadas de cada combinación).

Ejemplo de tabla de contingencia:

Factores

Nivel 1º factor B

Nivel 2º factor B

'Tablas de contingencia'

Nivel 1º factor A

'Tablas de contingencia'

'Tablas de contingencia'

'Tablas de contingencia'

Nivel 2º factor A

'Tablas de contingencia'

'Tablas de contingencia'

'Tablas de contingencia'

'Tablas de contingencia'

'Tablas de contingencia'

'Tablas de contingencia'

'Tablas de contingencia'

Los 'Tablas de contingencia'
representan el número de individuos observados en cada combinación de los niveles de los factores A, B y se consideran como la realización de una V.A. con valores enteros y positivos.

2º.- Modelos muestrales para las frecuencias observadas.

Nuestro objetivo principal es contrastar la independencia entre los factores en estudio. Para ello tendremos en cuenta los modelos de muestreo utilizados para diseñar el experimento que dependerán de la fijación o no de algunos de los totales marginales.

Modelos muestrales más utilizados:

a.- Poisson: los totales marginales y el total muestral varían libremente.

Una tabla generada por este tipo de muestreo está compuesta por V.A. 'Tablas de contingencia'
independientes asociadas a cada casilla y con distribución de Poisson 'Tablas de contingencia'

Distribución de probabilidad conjunta para toda la tabla:

'Tablas de contingencia'
(producto de las IxJ distribuciones).

b.- Muestreo multinomial completo: se fija de antemano el tamaño de la muestra.

La distribución del vector asociado a la tabla es una multinomial 'Tablas de contingencia'

'Tablas de contingencia'
Además 'Tablas de contingencia'

Nota: si la distribución de una tabla de tipo Poisson se condiciona a que 'Tablas de contingencia'
, el resultado es una tabla con distribución multinomial 'Tablas de contingencia'

c.- Muestreo multinomial independiente: fijados de antemano los totales marginales de uno de los factores.

Para generar una tabla de contingencia seleccionamos MAS de tamaños correspondientes a los tamaños asignados a los niveles de uno de los factores y se clasifican a los individuos en cada muestra según los niveles del otro factor.

'Tablas de contingencia'
donde 'Tablas de contingencia'
es la probabilidad de clasificar a un individuo de la fila i-ésima en la columna j-ésima.

La función de probabilidad conjunta para la tabla de contingencia es:

'Tablas de contingencia'
'Tablas de contingencia'

nota: si la distribución de una tabla es Poisson con frecuencias esperadas 'Tablas de contingencia'
o multinomial con probabilidades 'Tablas de contingencia'
entonces la distribución condicionada del vector 'Tablas de contingencia'
a que 'Tablas de contingencia'
es multinomial con 'Tablas de contingencia'

d.- Muestreo hipergeométrico: fijados los totales marginales de ambos factores.

En este caso la distribución de la tabla seria una hipergeométrica multivariante.

e.- Muestreo binomial negativo: fijadas las frecuencias de las casillas de un nivel de uno de los factores.

Diseños muestrales apareado, longitudinal y de control único.

a.- Diseño apareado: consiste en seleccionar pares de individuos de características similares y clasificar a cada elemento del par según una característica.

b.- Diseño longitudinal: clasificamos un conjunto de individuos según un factor y en dos momentos diferentes de tiempo.

c.- Método d control único: se clasifican a los individuos según dos tratamientos diferentes del factor en estudio.

(tanto en b como en c se considera que el individuo más parecido a uno mismo es el propio individuo).

Independencia poblacional y muestral.

Consideremos una tabla de contingencia IxJ generada por MMC y sea 'Tablas de contingencia'
la prob. poblacional de que un individuo sea elegido en la casilla (i, j). El conjunto de todas estas probabilidades para toda la tabla de cómo resultado una tabla similar a la de contingencia con sus respectivas marginales definidas.

Para MMC la hipótesis de independencia entre factores es 'Tablas de contingencia'
.

En el caso de MMI estudiamos la homogeneidad de proporciones independientes.

'Tablas de contingencia'

o 'Tablas de contingencia'

En el caso de tablas cuadradas generadas por datos dependientes, las hipótesis a contrastar son la de simetría de proporciones marginales y la de homogeneidad de proporciones marginales, es decir:

'Tablas de contingencia'
respectivamente.

SIMETRÍA HOMOGENEIDAD.

5º.- Estimación máximo verosímil de las frecuencias esperadas para los modelos muestrales usuales.

Sea 'Tablas de contingencia'
el conjunto de frecuencias observadas.

Consideremos el modelo multinomial completo:

La función de máximoverosimilitud será: 'Tablas de contingencia'

Maximizando el segundo factor mediante el método de Lagrange obtenemos las estimaciones: 'Tablas de contingencia'

'Tablas de contingencia'

TEMA 3º: INDEPENDENCIA EN TABLAS DE CONTINGENCIA BIDIMENSIONALES.

Contrastación de la hipótesis de independencia en una tabla de contingencia bidimensional.

1º.- Contrastes de independencia exactos.

En caso de muestras pequeñas.

Método:

1º Determinar el espacio muestral del diseño empleado en la tabla observada.(las tablas)

2º Seleccionar de todas las tablas del apartado anterior las que se alejan tanto o más de H0 que la tabla observada en la dirección de H1.

3º Calcular las probabilidades de ocurrencia bajo H0 de dichas tablas.

4º Calcular el p-valor del test. (sumar las probabilidades de dichas tablas)

5º Comparar el p-valor con el nivel de significación 'Tablas de contingencia'
prefijado.

Si p>'Tablas de contingencia'
aceptamos H0.

Si p'Tablas de contingencia'
rechazamos H0.

Inconvenientes: el cálculo de la probabilidad exacta de las tablas puede depender de parámetros desconocidos. Se soluciona estimando estos.

Cuando aumenta la muestra o los niveles de los factores el cálculo del p-valor es muy laborioso.

1.1.- Contraste de independencia en el modelo muestral hipergeométrico.

a.-Test exacto de Fisher a una cola de asociación positiva.

Las hipótesis a contrastar son: 'Tablas de contingencia'

Se calcula el p-valor del test sumando las probabilidades de las tablas cuyo 'Tablas de contingencia'
sea mayor o igual que el de la tabla observada. Comparamos con 'Tablas de contingencia'

b.- Test exacto de Fisher a una cola de asociación negativa.

Las hipótesis a contrastar son: 'Tablas de contingencia'

Se calcula el p-valor del test sumando las probabilidades de las tablas cuyo 'Tablas de contingencia'
sea menor que el de la tabla observada. Comparamos con 'Tablas de contingencia'

c.- Test exacto de Fisher a dos colas.

Las hipótesis a contrastar son: 'Tablas de contingencia'

Las tablas que se alejan de 'Tablas de contingencia'
son las que verifican que 'Tablas de contingencia'

Donde 'Tablas de contingencia'

La probabilidad de ocurrencia de una tabla es:

'Tablas de contingencia'

1.2.-Contraste exacto en el modelo muestral multinomial independiente.

a.- Test de homogeneidad de proporciones.

Las hipótesis a contrastar son: 'Tablas de contingencia'

La probabilidad de ocurrencia de una tabla cualquiera es:

'Tablas de contingencia'

2º.- Contrastes de independencia asintóticos.

2.1.- Contraste 'Tablas de contingencia'
de bondad de ajuste a una multinomial de parámetros conocidos.

Las hipótesis a contrastar son: 'Tablas de contingencia'

Pearson propone el siguiente estadístico 'Tablas de contingencia'
el cual se distribuye según una 'Tablas de contingencia'
con I-1 grados de libertad y a nivel de confianza 'Tablas de contingencia'
. Se rechazará la hipótesis si el valor observado es mayor que el valor esperado.

2.2.- Contraste para una multinomial de parámetros estimados.

Las hipótesis a contrastar son: 'Tablas de contingencia'

Se propone el siguiente estadístico 'Tablas de contingencia'
el cual se distribuye según una 'Tablas de contingencia'
con I-p-1 grados de libertad. Se rechazará la hipótesis nula si el valor observado es mayor que el valor esperado.

2.3.- Contraste X2 de independencia.

Las hipótesis a contrastar son: 'Tablas de contingencia'

El estadístico propuesto para realizar este contraste es el siguiente:

'Tablas de contingencia'
teniendo en cuenta que bajo 'Tablas de contingencia'
tenemos 'Tablas de contingencia'
.

Dicho estadístico se distribuye según una 'Tablas de contingencia'
con (I-1)(J-1) grados de libertad. Además si el valor observado supera al esperado, rechazaremos 'Tablas de contingencia'
.

2.4.- Contraste X2 de homogeneidad de proporciones.

Las hipótesis a contrastar son:'Tablas de contingencia'
teniendo en cuenta que bajo

hipótesis nula se verifica: 'Tablas de contingencia'
.

El estadístico es el mismo utilizado en el contraste anterior.

2.5.- Contrate de independencia de razón de verosimilitudes

Las hipótesis a contrastar son: 'Tablas de contingencia'
.

El estadístico utilizado en este test es el siguiente: 'Tablas de contingencia'
.

Wiks demostró que 'Tablas de contingencia'
se distribuye según una 'Tablas de contingencia'
con (I-1)(J-1) grados de libertad bajo hipótesis nula. ('Tablas de contingencia'
.

La hipótesis nula se rechaza si el valor observado del estadístico es mayor que el esperado para un nivel de significación 'Tablas de contingencia'
prefijado.

Corrección por continuidad.

Corrección de Yates.

El estadístico corregido tiene la siguiente expresión: 'Tablas de contingencia'
y se distribuye según una 'Tablas de contingencia'
con (I-1)(J-1) grados de libertad.

3º.- Partición de los estadísticos para detectar fuentes de asociación.

3.1.- Partición de tablas IxJ en tablas 2x2 independientes.

( Nota: aprovechando la reproductividad de la 'Tablas de contingencia'
, cualquier V.A. con dicha distribución y v grados de libertad se puede poner como suma de V.A. 'Tablas de contingencia'
independientes cuyos grados de libertad sumen v).

Landcaster e Irving propusieron el siguiente método para descomponer una tabla en subtablas independientes 2x2:

  • 1ª subtabla: dos primeras columnas.

  • 2ª subtabla: suma de las dos primeras columnas y la 3ª columna.

  • 3ª subtabla: suma de las tres primeras columnas y la 4ª columna.

  • ...

La forma general de dichas tablas es:

'Tablas de contingencia'

'Tablas de contingencia'
'Tablas de contingencia'

'Tablas de contingencia'
'Tablas de contingencia'

'Tablas de contingencia'

'Tablas de contingencia'

'Tablas de contingencia'
'Tablas de contingencia'

'Tablas de contingencia'

El 'Tablas de contingencia'
de la tabla original se descompone como suma de los estadísticos de razón de verosimilitudes asociados a cada una de las subtablas construidas, cosa que no ocurre con el 'Tablas de contingencia'
de Pearson.

Kimball propone el siguiente estadístico para la tabla j-ésima:

'Tablas de contingencia'

El contraste se realiza en cada un de las subtablas y en cualquier caso se realiza a un nivel de significación 'Tablas de contingencia'
.

Esta descomposición en tablas independientes no es única. Para comprobar que una partición da lugar a componentes independientes basta con sumar los estadísticos de razón de verosimilitudes de cada subtabla y comprobar que coincide con el asociado a la tabla completa.

Condiciones para obtener tablas independientes:

  • suma de grados de libertad de las subt. = grados de la tabla completa.

  • cada frecuencia obs. de la tabla original aparece en una sola subtabla.

  • los totales marginales en la tabla original aparecen en una sola subtabla.

3.2.- Partición en tablas dependientes.

Suponiendo que haya asociación queremos comprobar si fijado un nivel de un factor hay dependencia con los restantes niveles. En este caso no se verifica que la suma de los 'Tablas de contingencia'
y Kimball de las subtablas sea igual al Pearson de la tabla original. La contrastación se realiza a un nivel de significación 'Tablas de contingencia'

4º.- Análisis de residuos.

Si en una tabla de contingencia la hipótesis de independencia se ha visto rechazada, mediante el análisis de residuos podemos detectar los niveles de los factores que pueden ser los causantes de tal asociación.

Residuos estandarizados: 'Tablas de contingencia'

La varianza estimada de los residuos: 'Tablas de contingencia'

Residuos ajustados: 'Tablas de contingencia'

Se consideran significativos a un nivel de significación 'Tablas de contingencia'
aquellos que en valor absoluto superen el cuantil correspondiente a una N(0,1).

5º.- Contraste de independencia para variables ordinales.

En variables ordinales es aconsejable aprovechar la información que podamos obtener del orden de los niveles de los factores.

5.1.- Test de linealidad para una tabla IxJ.

Consiste en descomponer el 'Tablas de contingencia'
en dos componentes independientes que permiten contrastar si existe relación lineal significativa entre dos variables ordinales que han sido codificadas.

Consideramos:

'Tablas de contingencia'

Estimamos los parámetros de la recta de regresión de una variable sobre la otra por mínimos cuadrados, designando una variable como explicativa y la otra como la explicada. El estimador de la pendiente de la recta de regresión, b , nos proporciona la tendencia o tipo de relación entre x e y.

Una vez estimado el parámetro b, se contrasta su significatividad:

'Tablas de contingencia'

Fijado un nivel de significación 'Tablas de contingencia'
, rechazamos la hipótesis nula si: 'Tablas de contingencia'
es mayor que el valor observado de una 'Tablas de contingencia'
.

6º.- Análisis de tablas cuadradas generadas por datos dependientes.

Este tipo de tablas están generadas por diseño apareado, longitudinal o de control único.

Se clasifica a los individuos según una característica en dos instantes de tiempo diferentes, bajo dos tratamientos distintos, ...

Se trata de ver si hay cambios significativos en la variable de interés bajo tratamientos distintos o en dos instantes de tiempo determinados.

Las hipótesis de interés son las de simetría y la de homogeneidad.

6.1.- Test de McNemar.

Consideramos una tabla generada según los diseños anteriores.

Las hipótesis a contrastar son: 'Tablas de contingencia'

Este test se basa en el estadístico 'Tablas de contingencia'
. Bajo 'Tablas de contingencia'
y suponiendo MMC los estimadores máximo verosímiles de las frecuencias esperadas son:

'Tablas de contingencia'
Sustituyéndolos en el estadístico obtenemos:

'Tablas de contingencia'
el cual se distribuye según una 'Tablas de contingencia'

Se rechaza si el valor observado es mayor que el valor esperado.

La corrección de Yates también se puede aplicar a dicho estadístico.

6.2.- Test binomial exacto.

a.- A dos colas: las hipótesis a contrastar son: 'Tablas de contingencia'

Siendo 'Tablas de contingencia'
, la probabilidad de ocurrencia de una tabla cualquiera es:'Tablas de contingencia'
. El p-valor del test es 'Tablas de contingencia'

b.- A una cola de asociación positiva: 'Tablas de contingencia'

El p-valor del test es 'Tablas de contingencia'

c.- A una cola de asociación negativa: 'Tablas de contingencia'

El p-valor del test es 'Tablas de contingencia'

6.3.- Extensión de Bower al test de McNemar para contrastar simetría en una tabla cuadrada.

Contrastamos la hipótesis de simetría 'Tablas de contingencia'

Bajo 'Tablas de contingencia'
y suponiendo MMC, los estimadores máximo verosímiles de las frecuencias esperadas son:

'Tablas de contingencia'

Sustituyendo estos estimadores en el estadístico 'Tablas de contingencia'
se obtiene el siguiente estadístico:

'Tablas de contingencia'
con i<j.

Bajo la hipótesis nula se distribuye según 'Tablas de contingencia'
. Se rechazará dicha hipótesis si el valor observado es mayor que el valor esperado.

6.4.- Extensión de Stwart y Maxwell para contrastar la hipótesis de homogeneidad de proporciones marginales en una tabla IxI generada por datos dependientes.

Es interesante cuando la hipótesis de simetría es rechazada.

Se propone el siguiente estadístico:'Tablas de contingencia'
. Donde d es u vector columna formado por cualquiera de las diferencias 'Tablas de contingencia'
y v es la matriz cuyos elementos son 'Tablas de contingencia'
,'Tablas de contingencia'
de forma que bajo 'Tablas de contingencia'
tiene distribución asintótica con (I-1) grados de libertad.

TEMA 4º: MEDIDAS DE ASOCIACIÓN EN TABLAS IxJ

1º.- Introducción.

Cuando la hipótesis de independencia es rechazada podemos plantearnos cual es el grado de asociación y la dirección en que se produce tal.

Las medidas de asociación son parámetros poblacionales que dependen de las probabilidades poblacionales 'Tablas de contingencia'
. Éstas deben ser fácilmente interpretables y deben estar acotadas de manera que los factores indiquen asociación perfecta o falta de asociación. Suelen estar normalizadas tomando valores entre 0 y 1 ó entre -1 y 1, lo cual permite la comparaciones entre tablas de diferentes tamaños.

A veces los valores extremos no se alcanzan aún cuando hay asociación perfecta.

Distinguimos dos tipos de asociación:

  • Estricta perfecta, cada nivel de uno de los factores está asociado a un único nivel del otro factor.(en cada columna hay una única prob. poblacional no nula).

  • Implícita :

  • Asociación perfecta implícita de tipo I: en cada fila habrá una sola prob. No nula pero en alguna columna habrá más de una prob. no nula.

  • Asociación perfecta implícita de tipo II: algún nivel del factor 1º está relacionado con más de un nivel del factor 2º o viceversa.

  • Otra propiedades deseables son la simetría y la invarianza.

    Podemos clasificarlas según varios criterios:

  • Medidas parciales y globales.

  • Medidas nominales y ordinales.

  • Medidas simétricas o asimétricas.

  • 2º .- Medidas de asociación en tablas 2x2.

    2.1.- Funciones del cociente de probabilidad.

    Supongamos una tabla generada por MMC con prob. poblacionales 'Tablas de contingencia'

    • Cociente de probabilidad o razón de productos cruzados.

    Ventaja de un suceso:'Tablas de contingencia'

    Se define el cociente de probabilidad como:

    'Tablas de contingencia'

    Propiedades:

  • 'Tablas de contingencia'

  • no definido si 'Tablas de contingencia'
    o'Tablas de contingencia'
    son 0. Si las dos son cero hay asociación perfecta estricta positiva. Si alguno es nulo hay asociación perfecta implícita de tipo II.

  • 'Tablas de contingencia'
    cuando 'Tablas de contingencia'
    y/o'Tablas de contingencia'
    son nulas. Si las dos son nulas hay APEN. Si una de ellas es nula hay AIT II.

  • 'Tablas de contingencia'
    dependencia entre los factores.

  • 'Tablas de contingencia'
    asociación positiva.

  • 'Tablas de contingencia'
    asociación negativa.

  • Invariante frente a cambios de escala en filas y/o columnas.

  • El cambio de orden en filas o columnas: mismo grado de asociación pero en dirección opuesta.

  • El estimador de 'Tablas de contingencia'
    es: 'Tablas de contingencia'
    con similar interpretación.

    Una medida simétrica es 'Tablas de contingencia'
    que toma valores entre 'Tablas de contingencia'

    'Tablas de contingencia'
    hay independencia.

    'Tablas de contingencia'
    asociación negativa.

    'Tablas de contingencia'
    asociación positiva.

    En caso de haber ceros muestrales se propone el siguiente estimador:'Tablas de contingencia'

    • Q de Yule.

    'Tablas de contingencia'
    'Tablas de contingencia'

    valor muestral: 'Tablas de contingencia'

    2.2.- Medidas que son función del coeficiente de correlación.

    Codificando con 0 y 1 las variables de una tabla de contingencia podemos utilizar el cuadrado del coeficiente de correlación de Pearson como medida de asociación.

    'Tablas de contingencia'
    'Tablas de contingencia'
    pero no permite determinar la dirección

    de la asociación. Para ello consideramos el coeficiente de correlación:

    'Tablas de contingencia'
    'Tablas de contingencia'

    Si vale 0 hay independencia. Si vale -1, asociación perfecta estricta negativa. Si vale 1, asociación perfecta estricta positiva.

    Asociación implícita de tipo II no implica que tome valores extremos.

    Invariante frente a cambios en orden de filas o columnas.

    Cambia de signo si cambiamos el orden de las filas o columnas.

    La estimación muestral es: 'Tablas de contingencia'
    con la misma interpretación.

    2.3.- Medidas para comparar proporciones.

    Suponiendo dos factores, uno explicativo y otro explicado, definimos las siguientes medidas asimétricas:

    • Diferencia de proporciones: 'Tablas de contingencia'

    Vale 0 si hay independencia.

    Vale 1 si asociación perfecta estricta +

    Vale -1 si “ “ “ -

    Entre 0 y 1 asociación +

    Entre -1 y 0 asociación -

    • Riesgo relativo: 'Tablas de contingencia'

    'Tablas de contingencia'

    Estimación muestral de riesgo relativo:

    'Tablas de contingencia'

    Podemos utilizar una transformación del riesgo relativo como medida de asociación:

    'Tablas de contingencia'

    3º .- Medidas de asociación en tablas IxJ.

    3.1.- Medidas basadas en 'Tablas de contingencia'
    de Pearson.

    • Medida 'Tablas de contingencia'
      de Pearson.

    Valor poblacional: 'Tablas de contingencia'

    Valor estimado: 'Tablas de contingencia'

    Vale 0 sii independencia.

    Asociación perfecta estricta : vale 1

    En tablas 2x2 su valor coincide con 'Tablas de contingencia'
    . Es simétrica y fácil de calcular.

    • Coeficiente de contingencia.

    Valor poblacional: 'Tablas de contingencia'

    Valor estimado: 'Tablas de contingencia'

    Si vale cero hay independencia.

    No alcanza su valor máximo aún cuando hay asociación perfecta. Este depende del tamaño de la tabla. Para tablas cuadradas el valor máximo que puede tomar es el siguiente:'Tablas de contingencia'
    . En la práctica se utiliza el ajustado: 'Tablas de contingencia'

    • Medida T de Tschuprov.

    Valor poblacional: 'Tablas de contingencia'

    Valor estimado: 'Tablas de contingencia'
    ç

    Vale 0 cuando hay independencia.

    Vale 1 en caso de asociación perfecta estricta en tablas 2x2.

    • V de Cramer.

    Valor poblacional: 'Tablas de contingencia'

    Valor estimado: 'Tablas de contingencia'

    Vale 0 sii independencia.

    En asociación perfecta alcanza su valor máximo.

    En tablas cuadradas su valor coincide con T

    En tablas 2x2 'Tablas de contingencia'

    3.2.- Medidas de reducción proporcional del error.

    Consideremos los factores A y B. Quiero determinar en qué nivel del factor B clasificar a un individuo elegido al azar. Esta predicción se puede hacer de dos formas:

    - Arbitrariamente, si consideramos el nivel del factor A en que se clasifica el individuo. (P1 = prob. de cometer error prediciendo arbitrariamente)

    - Predecir el nivel de B, teniendo en cuenta el nivel de A en que está clasificado. ( P2 = prob. de cometer error prediciendo de esta forma).

    Si A y B son independientes entonces P1 = P2.

    Si existe asociación, P1 > P2.

    Definimos la medida de la siguiente forma: 'Tablas de contingencia'

    Interpretación de estas medidas.

    - Están entre [0,1]

    • Si los factores son independientes P1=P2 y la medida vale 0.

    • Si la medida vale 0 puede existir asociación entre los factores.

    • Si los factores están asociados, P1>P2 y la medida está entre 0 y 1.

    • Si los factores están perfectamente asociados vale 1.

    • Son medidas asimétricas y se definen simétricas de la misma forma.

    • Medida Lambda de Goodman y Kruskal.

    Poblacionalmente toma el valor: 'Tablas de contingencia'
    donde 'Tablas de contingencia'

    Propiedades:

    • Indeterminado si P.m=1.

    • Está entre 0 y 1.

    • Si A y B son independientes entonces vale 0.

    • Si vale 0: ausencia de capacidad predictiva de A para B.

    • Si vale 1: asociación perfecta estricta o implícita de tipo I.

    • Invariante frente a permutación de filas o columnas.

    Valor muestral: 'Tablas de contingencia'

    Hay una simétrica para cuando no sea posible determinar qué factor es el explicativo y cual es el explicado.

    'Tablas de contingencia'

    3.3.- Medidas de asociación en tablas IxJ de tipo ordinal-ordinal basadas en concordancia discordancia.

    Un par de individuos se dice concordante si el individuo que se encuentra clasificado en un nivel superior de uno de los factores, es clasificado también en un nivel superior para el segundo factor.

    Un par se dice discordante si el individuo que se clasifica en el nivel superior de un factor, está clasificado en un nivel inferior para el segundo factor.

    Un par se dice ligado si ambos tienen igual clasificación en ambos factores.

    Dado un par elegido aleatoriamente la probabilidad de concordancia es: 'Tablas de contingencia'
    .

    La probabilidad de discordancia es: 'Tablas de contingencia'
    .

    En una tabla de contingencia se definen dichas probabilidades como:

    Concordancia: 'Tablas de contingencia'
    =PD

    Discordancia: 'Tablas de contingencia'
    =PD

    Número de pares concordantes: 'Tablas de contingencia'
    =C

    Número de pares discordantes: 'Tablas de contingencia'
    =D

    Número de pares ligados por el factor A: 'Tablas de contingencia'
    =TA

    Número de pares ligados por el factor B: 'Tablas de contingencia'
    =TB

    TAB='Tablas de contingencia'
    El total de pares es C+D+TA+TB-TAB

    Gamma de Goodman y Kruskal.

    'Tablas de contingencia'

    Está entre -1 y 1.

    Vale 0 en caso de independencia.

    Si hay asociación perfecta negativa vale -1.

    Si hay asociación perfecta + vale 1.

    Es simétrica.

    Cuanto más cercano sea el valor a 1 mayor asociación +.

    En tablas 2x2 coincide con Q de Yule.

    D de Somers.

    Es asimétrica. Considerando el factor B como respuesta: 'Tablas de contingencia'
    B0= nº pares ligados por B.

    Interpretación igual que el anterior.

    Versión simétrica: 'Tablas de contingencia'

    Medida 'Tablas de contingencia'
    de Wilson.

    'Tablas de contingencia'

    Si A0=0 coincide con 'Tablas de contingencia'

    Si B0=0 coincide con 'Tablas de contingencia'

    Si ambos son cero coincide con Gamma.

    3.4.- Medidas basadas en correlación por rangos.

    Para variables de tipo ordinal, el rango es el lugar que ocupa el valor de la variable entre todos ordenados de menor a mayor.

    • Coeficiente de correlación por rangos de Spearman.

    Ai , Bi son las modalidades de las variables y xi , yi son los rangos asociados.

    'Tablas de contingencia'

    varia entre -1 y 1.

    Si hay concordancia perfecta entonces vale 1.

    Si hay discordancia vale -1.

    • Coeficiente de correlación por rangos de Kendall.

    Hay dos grupos:

    'Tablas de contingencia'
    de Kendall:

    Ambos factores tienen el mismo número de categorías y los mismos totales marginales.

    'Tablas de contingencia'

    Su valor está entre -1 y 1.

    Si hay independencia su valor es 0.

    Si asociación perfecta + vale 1.

    Si asociación perfecta - vale -1.

    'Tablas de contingencia'

    'Tablas de contingencia'
    con m = min (I, J).

    • Kappa de Cohen.

    Se utiliza en tablas cuadradas generadas por datos dependientes. Mide el grado de acuerdo entre los casos 1 y 2.

    Sea Pii la probabilidad de acuerdo. 'Tablas de contingencia'
    proporción de casos en los que hay acuerdo. Si hubiese independencia: 'Tablas de contingencia'
    (proporción de casos en que el acuerdo es casual).

    'Tablas de contingencia'
    Su valor muestral es: 'Tablas de contingencia'

    4º.- Inferencia en las medidas de asociación.

    A partir de las medidas muestrales vamos a intentar establecer el valor de las medidas poblacionales mediante inferencia.

    Una medida de asociación es una función f sobre un espacio de vectores asociados a una tabla de contingencia IxJ.

    Nuestro objetivo es proporcionar, basándonos en la información muestral, un intervalo de confianza para el valor poblacional de la medida. Mediante el Th. Central del límite, bajo muestreo multinomial completo, el vector de proporciones muestrales tiene distribución asintótica normal multivar.

    con vector de medidas P. Aunque nos interesa f(p). Utilizamos el método delta.

    'Tablas de contingencia'
    donde 'Tablas de contingencia'
    es el vector formado por las derivadas parciales de f respecto a cada Pij.

    El intervalo de confianza es: 'Tablas de contingencia'

    17




    Descargar
    Enviado por:Edc
    Idioma: castellano
    País: España

    Te va a interesar