Estadística


Estadística no paramétrica


INTRODUCCIÓN

Partiendo de la base de que algunos contrastes de hipótesis dependen del supuesto de normalidad, muchos de estos contrastes siguen siendo aproximadamente válidos cuando se aplican a muestras muy grandes, incluso si la distribución de la población no es normal. Sin embargo, muchas veces se da también el caso de que, en aplicaciones prácticas, dicho supuesto de normalidad no sea sostenible. Lo deseable entonces será buscar la inferncia en contrastes que sean válidos bajo un amplio rango de distribuciones de la población. Tales contrastes se denominan no paramétricos.

En este tema intentaré describir contrastes no paramétricos que son apropiados para analizar algunos de los problemas que hubiera podido encontrar antes. Los contrastes no paramétricos son generalmente, válidos cualquiera que sea la distribución de la población. Es decir, dichos contrastes pueden ser desarrollados de manera que tengan el nivel de significación requerido, sin importar la distribución de los miembros de la población.

Mi objetivo, es dar una idea general de aquellos métodos que son mas utilizados. Así, en el presente tema trataré procedimientos no paramétricos para contrastar la igualdad de los parámetros de centralización de dos distribuciones poblacionales.

La mayor parte de las técnicas estudiadas hacen suposiciones sobre la composición de los datos de la población. Las suposiciones comunes son que la población sigue una distribución normal, que varias poblaciones tienen varianzas iguales y que los datos se miden en una escala de intervalos o en una escala de razón. Este tema presentará un grupo de técnicas llamadas no páramétricas que son útiles cuando estas suposiciones no se cumplen.

¿Porqué los administradores deben tener conocimientos sobre estadística no paramétrica?

La respuesta a esta pregunta es muy sencilla; las pruebas de ji cuadrada son pruebas no paramétricas. Tanto la prueba de la tabla de contingencia como la de bondad de ajuste analizan datos nominales u ordinales. Estas pruebas, se usan ampliamente en las aplicaciones de negocios, lo que demuestra la importancia de la habilidad para manejar datos categóricos o jerarquizados además de los cuantitativos.

Existen otras muchas pruebas estadísticas diseñadas para situaciones en las que no se cumplen las suposiciones críticas o que involucran datos cuantitativos o categóricos. Los analistas que manejan estos datos deben familiarizarse con libros que abordan tales pruebas, conocidas comúnmente como pruebas estadísticas no paramétricas. Se presentarán aquí unas cuantas de las pruebas no paramétricas que mas se usan.

¿Qué ocurre con las pruebas no paramétricas frente a las que si lo son?

Las pruebas no paramétricas nonecesitan suposiciones respecto a la composición de los datos poblacionales. Las pruebas no paramétricas son de uso común:

1.- Cuando no se cumplen las suposiciones requeridas por otras técnicas usadas, por lo general llamadas pruebas paramétricas.

2.- Cuando es necesario usar un tamaño de muestra pequeño y no es posible verificar que se cumplan ciertas suposiciones clave.

3.- Cuando se necesita convertir datos cualitativos a información útil para la toma de decisiones.

Existen muchos casos en los que se recogen datos medidos en una escala nominal u ordinal. Muchas aplicaciones de negocios involucran opiniones o sentimientos y esos datos se usan de manera cualitativa.

Las pruebas no paramétricas tienen varias ventajas sobre las pruebas paramétricas:

1.- Por lo general, son fáciles de usar y entender.

2.- Eliminan la necesidad de suposiciones restrictivas de las pruebas paramétricas.

3.- Se pueden usar con muestras pequeñas.

4.- Se pueden usar con datos cualitativos.

También las pruebas no paramétricas tienen desventajas:

1.- A veces, ignoran, desperdician o pierden información.

2.- No son tan eficientes como las paramétricas.

3.- Llevan a una mayor probabilidad de no rechazar una hipótesis nula falsa (incurriendo en un error de tipo II).

Las pruebas no paramétricas son pruebas estadísticas que no hacen suposiciones sobre la constitución de los datos de la población.

Por lo general, las pruebas paramétricas son mas poderosas que las pruebas no paramétricas y deben usarse siempre que sea posible. Es importante observar, que aunque las pruebas no paramétricas no hacen suposiciones sobre la distribución de la población que se muestrea, muchas veces se apoyan en distribuciones muestrales como la normal o la ji cuadrada.

EL CONTRASTE DE SIGNOS

La prueba de los signos es quizá la prueba no paramétrica mas antigua. En ella está, basadas muchas otras. Se utiliza para contrastar hipótesis sobre el parámetro de centralización y es usado fundamentalmente en el análisis de comparación de datos pareados. Consideremos una muestra aleatoria de tamaño n tal que sus observaciones estén o puedan estar clasificadas en dos categorías: 0 y 1, + y -, ... etc.

Podemos establecer hipótesis acerca de la mediana, los centiles, cuartiles, etc. Sabemos que la mediana deja por encima de sí tantos valores como por debajo; Considerando que Xi - Mdn > 0 , darán signos positivos (+) y Xi - Mdn < 0 signos negativos (-) , en la población original tendremos tantos (+) como (-). Se tratara de ver hasta que punto el numero de signos (+) esta dentro de lo que cabe esperar que ocurra por azar si el valor propuesto como mediana es verdadero. Lo mismo se puede decir respecto a los cuartiles, centiles, o deciles.

Teniendo en cuenta que se trabaja con dos clases de valores, los que están por encima y los que están por debajo, es decir, los (+) y los (-) , los estadísiticos de contraste seguirán la distribución binomial, si se supone independencia y constancia de probabilidad en el muestreo.

La mejor forma de entender este apartado es mediante un ejemplo practico; De modo que en la tabla que pondremos a continuación se pueden ver los resultados de un experimento sobre comparación de sabores. Un fabricante de alubias esta considerando una nueva receta para la salsa utilizada en su producto. Eligio una muestra aleatoria de ocho individuos y a cada uno de ellos le pedio que valorara en una escala de 1 a 10 el sabor del producto original y el nuevo producto. Los resultados se muestran en la tabla, donde también aparecen las diferencias en las valoraciones para cada sabor y los signos de estas diferencias. Es decir, tendremos un signo + cuando el producto preferido sea el original, un signo - cuando el preferido sea el nuevo producto y un 0 si los dos productos son valorados por igual. En particular en este experimento, dos individuos han preferido el producto original y cinco el nuevo; Uno los valoro con la misma puntuación.

La hipótesis nula es que ninguno de los dos productos es preferido sobre el otro. Comparamos las valoraciones que indican la preferencia por cada producto, descartando aquellos casos en los que los dos productos fueron valorados con la misma puntuación. Así el tamaño muestral efectivo se reduce a siete, y la única información muestral en que se basara nuestro contraste será la de los dos individuos de los siete que prefirieron el producto original.

La hipótesis nula puede ser vista como aquella en la que la media poblacional de las diferencias sea 0. Si esta hipótesis fuese cierta, nuestra sucesión de diferencias + y - podría ser considerada como una muestra aleatoria de una población en la que las probabilidades de + y - fueran cada una 0,5. En este caso, las observaciones constituirían una muestra aleatoria de una población con una distribución binomial, con probabilidad de + 0,5. Es decir, si p representa la verdadera proporción en la población de +,la hipótesis nula será:

H0: p = 0,5

Podemos querer contrastar esta hipótesis bien frente alternativas unilaterales, bien frente a alternativas bilaterales. Supongamos que en el ejemplo de preferencias por los sabores la hipótesis alternativa es que en la población, la mayoría de las preferencias son por el nuevo producto. Esta alternativa se expresa como:

H1: p < 0,5

Tabla:

INDIVIDUO

VALORACION

DIFERENCIA

SIGNO DE LA DIFERENCIA

PRODUCTO ORIGINAL

PRODUCTO NUEVO

A

6

8

-2

-

B

4

9

-5

-

C

5

4

1

+

D

8

7

1

+

E

3

9

-6

-

F

6

9

-3

-

G

7

7

0

0

H

5

9

-4

-

Al contrastar la hipótesis nula frente a esta alternativa, nos preguntamos, ¿Cuál es la probabilidad de observar en la muestra un resultado similar a aquel que se observaría si la hipótesis nula fuese, de hecho, cierta? Si representamos por P(x) la probabilidad de observar x “Exitos” (+) en una binomial de tamaño 7 con probabilidad de éxito 0,5, la probabilidad de observar dos o menos + es:

P(0)+P(1)+P(2) = 0,0078 + 0,0547 + 0,1641 = 0,2266

Por tanto, si adoptamos la regla de decisión “rechazar H0 si en la muestra tenemos dos o menos +” , la probabilidad de rechazar la hipótesis nula cuando en realidad de cierta será de 0,2266. Dicho contraste tiene un nivel de significación del 22,66 % y , en nuestro ejemplo, la hipótesis nula podrá ser rechazada a dicho nivel. Es importante también preguntarse a que nivel dejaremos de rechazar la hipótesis nula. Si hubiésemos tenido la regla de decisión “ningún + o un +” para rechazar, H0 no hubiera sido rechazada. El nivel de significación de este nuevo test es:

P(0)+P(1) = 0,0625

La hipótesis nula no será rechazada a un nivel de significación del contraste del 6,25 %. La hipótesis nula de que en la población las preferencias por un producto u otro son iguales es rechazada contra la hipótesis alternativa de que la mayoría de la población prefiere el nuevo producto utilizando un test con nivel de significación del 22,66% . Si embargo la hipótesis nula no puede ser rechazada utilizando el test con nivel de significación del 6,25%.

Por tanto, estos datos muestran una modesta evidencia contra la hipótesis nula de que la población tenga preferencias iguales por un producto u otro, aunque dicha evidencia no es muy grande. En nuestro caso, esto puede ser una consecuencia del pequeño tamaño muestral. Tenemos que considerar el caso en el que la hipótesis alternativa sea bilateral, es decir:

H1: p " 0,5

En nuestro ejemplo, esta hipótesis significa que la población puede preferir uno u otro producto. Si las alternativas a cada valor postulado por la hipótesis nula son tratados de forma simétrica, una regla de decisión que nos conduciría a rechazar la hipótesis nula para estos datos seria “rechazas Ho si la muestra contiene dos o menos, o cinco o mas +”. El nivel de significación para este contraste es:

P(0) + P(1) + P(2) + P(5) + P(6) + P(7) = 2 [P(0) + P(1) + P(2)] = 0.4532

Ya que la función de probabilidad de la distribución binomial es simétrica para p = 0,5. La hipótesis nula no será rechazada si no tomamos como regla de decisión “rechazar H0 si la muestra contiene dos o menos o seis o mas +s”.Este contraste tiene nivel de significación:

P(0) + P(1) + P(6) + P(7) = 2 [ P(0) + P(1)] = 0,1250

Por tanto, a un nivel de significación del contraste del 12,5 %, la hipótesis nula de que la mitad de los miembros de la población con alguna preferencia prefieren el nuevo producto no será rechazado frente a la hipótesis alternativa bilateral.

El contraste de signos puede ser utilizado para contrastarla hipótesis nula de que la mediana de una población es 0. Supongamos que tomamos una muestra aleatoria de una población y eliminamos aquellas observaciones iguales a 0, quedando en total n observaciones. La hipótesis nula a contrastar será que la proporción p de observaciones positivas en la población es 0,5 es decir:

H0 : p = 0,5

En este caso, el contraste estará basado en el hecho de que el numero de observaciones positivas en la muestra tiene una distribución binomial ( p = 0,5 bajo la hipótesis nula).

Si el tamaño muestral es grande, se podrá utilizar la aproximación de la distribución binomial a la normal para realizar el contraste de signos. Esta es una consecuencia del teorema central del límite.

Si el numero de observaciones no iguales a 0 es grande, el contraste de signos esta basado en la aproximación de la binomial a la normal. El contraste es:

H0 : p = 0,5

EJEMPLO

A una muestra aleatoria de cien niños se les pidió que comparasen dos nuevos sabores de helados: vainilla y fresa. 56 de los niños prefirieron el sabor a vainilla, 40 prefirieron el sabor a fresa, y a 4 de ellos les daba igual. Se quiere contrastar frente a una alternativa bilateral la hipótesis nula de que no existe en la población una preferencia por un sabor u otro.

Si p es la proporción de niños en la población que prefieren el sabor a vainilla, lo que queremos contrastar es H0: p=0,5 frente a H1: p"0,5.

Como cuatro de los niños no han preferido un sabor a otro, tenemos un tamaño muestral de 96 niños. La proporción de niños que han preferido el sabor a vainilla es:

Px = 56 / 96 = 0,583

Para un nivel de significación , la regla de decisión es:

Px - 0,5

Rechazar H0 si -------------------- < -Z/2

"(0,5)(0,5) / n

ó

Px - 0,5

-------------------- > -Z/2

"(0,5)(0,5) / n

En nuestro caso

Px - 0,5 0,583 - 0,5

-------------------- = ------------------------ = 1,63

"(0,5)(0,5) / n "(0,5)(0,5) / 96

Vemos, que si Z/2 = 1,63, /2 = 0,0516, de manera que  = 0,1032. Por tanto, la hipótesis nula podrá ser rechazada para todos los niveles de significación superiores al 10,32%. Si la hipótesis nula de que el mismo número de niños prefieren el sabor a vainilla que el sabor a fresa fuese cierta, la probabilidad de observar unos resultados maestrales tan extremos, o mas extremos que los actualmente obtenidos, será ligeramente superior a uno sobre diez. En nuestro caso, los datos muestran una modesta evidencia en contra de dicha hipótesis.

La figura muestra las probabilidades de las colas de una distribución normal correspondientes al 5,16% inferior y superior del área total bajo la función de densidad.

'Estadística no paramétrica'

EJEMPLO 2

Como parte de un estudio sobre transferencia del aprendizaje entre tareas simples y complejas, se diseña un experimento en el que cada sujeto se le presentan 5 tareas simples y a continuación 1 tarea compleja. Al finalizar ésta se le pregunta a cada sujeto si le ha parecido mas fácil o mas difícil que las 5 anteriores. Si algún sujeto contestaba “ igualmente difícil”, se le seguía preguntando hasta decidirse por “ mas fácil “ o “ mas difícil “. Las respuestas dadas por los 10 sujetos fueron:

SUJETO

1

2

3

4

5

6

7

8

9

10

RESPUESTA

D

F

F

D

F

F

F

D

F

F

¿ Podemos concluir que ha habido transferencia, a un nivel de significación de 0,01 ?

Siendo D (Mas difícil = - ) y F = +

  • H0: P (-) "½ (No ha habido transferencia)

  • H1: P (-) <½ (Ha habido transferencia)

  • Suponemos que las observaciones son independientes y que bajo H0 p (-) es constante por cada sujeto.

  • Estadístico de contraste t1 = 7, t2 = 3, t = 3.

  • (3 + 0,5) - (10 / 2)

    Z = ---------------------------- = -0,949

    " 10 / 4

  • Dado que  = 0,01 y Z0,01 = -2,33:

  • P (T " 3) = 0,172 > 0,01, mantenemos H0.

  • -0,949 > -2,33, mantenemos H0.

  • No hay evidencia suficiente para concluir que ha habido transferencia. Sólo si T hubiera tomado valor 0, podríamos haber llegado a tal conclusión ya que P (T " 0) " 0,001 < 0,01.

    PRUEBA DE WILCOXON

    Sea X una variable aleatoria continua. Podemos plantear cierta hipótesis sobre la mediana de dicha variable en la población, por ejemplo, M=M0. Extraigamos una muestra de tamaño m y averigüemos las diferencias Di = X - M0. Consideremos únicamente las n diferencias no nulas (n " m). Atribuyamos un rango u orden (0i) a cada diferencia según su magnitud sin tener en cuenta el signo.

    Sumemos por un lado los 0+i , rangos correspondientes a diferencias positivas y por otro lado los 0-i , rangos correspondientes a diferencias negativas.

    La suma de los órdenes de diferencias positivas sería igual a la suma de los órdenes de diferencias negativas, caso que la mediana fuera el valor propuesto M0. En las muestras, siendo M0 el valor de la verdadera mediana, aparecerán por azar ciertas discrepancias, pero si la suma de los rangos de un ciclo es considerablemente mayor que la suma de los rangos de otro signo, nos hará concebir serias dudas sobre la veracidad de M0.

    La prueba de Wilcoxon va a permitir contrastar la hipótesis de que una muestra aleatoria procede de una población con mediana M0. Además, bajo el supuesto de simetría este contraste se puede referir a la media, E(X). Esta prueba es mucho mas sensible y poderosa que la prueba de los signos; como se puede apreciar utiliza mas información, pues no solo tiene en cuenta si las diferencias son positivas o negativas, sino también su magnitud.

    El contraste de Wilcoxon puede ser utilizado para comparar datos por parejas. Supongamos que la distribución de las diferencias es simétrica, y nuestro propósito es contrastar la hipótesis nula de que dicha distribución está centrada en 0. Eliminando aquellos pares para los cuales la diferencia es 0 se calculan los rangos en orden creciente de magnitud de los valores absolutos de las restantes diferencias. Se calculan las sumas de los rangos positivos y negativos, y la menor de estas sumas es el estadístico de Wilcoxon. La hipótesis nula será rechazada si T es menor o igual que el valor correspondiente.

    Si el número n de diferencias no nulas es grande y T es el valor observado del estadístico de Wilcoxon los siguientes contrastes tienen nivel de significación .

  • Si la hipótesis alternativa es unilateral, rechazaremos la hipótesis nula si

  • T - µT

    --------- < -Z

    T

  • Si la hipótesis alternativa es bilateral, rechazaremos la hipótesis nula si

  • T - µT

    --------- < -Z/2

    T

    EJEMPLO

    La salud mental de la población activa de sujetos de 60 años tiene

    una mediana de 80 en una prueba de desajuste emocional (X). Un psicólogo cree que tras el retiro (jubilación) esta población sufre desajustes emocionales. Con el fin de verificarlo, selecciona al azar una muestra de sujetos retirados, les pasa la prueba de desajuste y se obtienen los siguientes resultados:

    X: 69,70,75,79,83,86,88,89,90,93,96,97,98,99

    ¿Se puede concluir, con un nivel de significación de 0,05, que tras el retiro aumenta el promedio de desajuste emocional?

    1.-

    H0: M " 80 La población no incrementa su promedio de desajuste.

    H1: M > 80 La población aumenta su nivel de desajuste tras el retiro.

    2.- Suponemos que la muestra es aleatoria, la variable es continua y el nivel de medida de intervalo.

    3.- Aunque la muestra es pequeña usemos los dos estadísticos:

  • Averigüemos Di = X - 80 y ordenemos las | Di |:

  • Di = -11, -10, -5, -1, +3, +6, +8, +9, +10, +13, +16, +17, +18, +19

    Oi = 9, 7,5, 3 , 1, 2, 5, 6, 7,5, 10, 11, 12, 13, 14

    W= "Oi = 9+7,5+3+1 = 20,5

    (20,5 + 0,5) - (14)(15)/4 21 - 52,5

  • Z = ---------------------------------- = --------------- = -1,98

  • "(14)(15)(28 + 1)/24 15,93

    4.- Puesto que  = 0,05:

  • W14,0,05 = 26 > 20,5, por lo que rechazamos H0.

  • Z0.05 = -1,64 > -1,98, por lo que se rechaza H0.

  • Hay evidencia suficiente para concluir que tras el retiro, aumenta el nivel de desajuste, medido por X.

    EJEMPLO 2

    Un estudio comparó empresas que utilizaban o no procedimientos sofisticados de post-auditoría. Se examinó una muestra de 31 pares de firmas. Para cada empresa se utilizó una función determinada como medida de su rendimiento. En cada uno de los pares, una empresa utilizó procedimientos sofisticados post-auditoría y la otra no. Se calcularon las diferencias en los 31 casos y los rangos de las diferencias en valor absoluto. La mas pequeña de la suma de rangos, 189, fue la correspondiente a aquellas empresas que no utilizaron procedimientos sofisticados post-auditoría. Contrastamos la hipótesis nula de que la distribución de las diferencias está centrada en 0 frente a la alternativa de que el rendimiento de las empresas es menor cuando no utilizan procedimientos sofisticados post-auditoría.

    Dada una muestra de n=31 pares de datos, la media del estadístico del Wilcoxon bajo la hipótesis nula es:

    n (n + 1) (31)(32)

    µT = ---------------- = -------------- = 248

    • 4

    T - µT

    La distribución de Z = ---------- cuando la hipótesis nula de que la distribución

    T

    de las diferencias está centrada en 0 es cierta y la alternativa es unilateral, a nivel de significación 0,123.

    'Estadística no paramétrica'

    'Estadística no paramétrica'

    Y varianza

    n (n + 1)(2n + 1) (31)(32)(63)

    T2 = ------------------------- = ------------------ = 2.064

    • 24

    De manera que la desviación típica es

    T = 51,03

    Si T es el valor observado del estadístico, la hipótesis nula frente a la alternativa unilateral será rechazada si:

    T - µT

    --------- < -Z

    T

    Aquí, T = 198, y

    T - µT 189 - 248

    --------- = ---------------- = -1,16

    T 51,03

    El valor de  correspondiente a Z = 1,16 es (1 - 0, 8760) = 0,123. Por tanto, la hipótesis nula será rechazada a niveles de significación superiores al 12,3%. Los datos sugieren una modesta evidencia de que las empresas sin un procedimiento sofisticado de post-auditoría tienen mejor rendimiento.

    PRUEBA U DE MANN - WHITNEY

    La prueba U de Mann-Whitney esta diseñada para determinar si dos muestras se han obtenido de la misma población. Esta prueba se usa como alternativa para la prueba t para medias con muestras pequeñas. La prueba U de Mann-Whitney se usa para encontrar si dos muestras independientes proceden de poblaciones simétricas que tienen la misma media o mediana. La prueba se usa cuando no se puede verificar la suposición de 2 poblaciones normales con varianzas iguales. Los datos deben estar medidos al menos en una escala ordinal, haciendo que esta prueba sea útil para datos ordinales o categóricos.

    El procedimiento da rangos a los datos como si los valores en ambas muestras pertenecieran todos a un solo grupo. El valor mas pequeño se asigna al rango 1 , el siguiente valor mas pequeño al rango 2 …, sin importar a que muestra pertenece el elemento. Si las medias de dos poblaciones son iguales, los rangos altos y bajos deben tener una distribución bastante pareja en las 2 muestras. Si las medias no son iguales, una muestra tendera a tener rangos mas altos o mas bajos que la otra. El análisis se concentra en la suma de los rangos de una de las muestras y la compara con la suma que se esperaría si las medias de la población fueran iguales.

    Para una muestra combinada de 20 o menos, se usan tablas especiales para probar la hipótesis nula de los dos grupos; estas tablas se encuentran en libros especializados en métodos no parametritos. Si la muesta combinada es mayor que 20, se ha demostrado que la curva normal es una buena aproximación de la distribución muestral. Esta curva normal tiene parámetros que se encuentran en las ecuaciones que se presentaran a continuación. El estadístico U de Mann-Whitney:

    n(n1+1)

    U = n1 n2 + ------------------ - R1

    2

    Donde :

    U = Estadístico de Mann Whitney

    n1 = Numero de elementos en la muestra 1

    n2 = Numero de elementos en la muestra 2

    R1 = Suma de rangos en la muestra 1

    Si las dos muestras son de diferentes tamaños, la muestra 1 debe respetar la que tiene menor numero de observaciones.

    Los procedimientos de la curva normal estándar que se emplean para determinar si es razonable si el estadístico U se haya obtenido de una distribución normal con los parámetros específicos. Si así es, la hipótesis nula devengan de esta distribución, la hipótesis nula se rechaza.

    Si la hipótesis nula es cierta, el estadístico U tiene una distribución muestral con la siguiente media y desviación estándar:

    n1n2

    µu = ----------------------

    2

    " n1n2 (n1+n2+1)

    u = ---------------------------

    "12

    Donde:

    n1 = Numero de elementos en la muestra 1

    n2 = Numero de elementos en la muestra 2

    El valor Z es :

    U - µu

    Z= --------------

    u

    EJEMPLO

    Dos dependientes, A y B , trabajan en el departamento de niños de una tienda. El gerente de la tienda piensa ampliar su negocio a otros locales desde que leyó un articulo en una revista sobre la creciente popularidad de las tiendas sobre niños. La comparación entre las ventas de los 2 dependientes parece ser una buena manera de determinar si uno de ellos puede dirigir la nueva tienda. La hipótesis nula y alternativa son :

    H0: µ1 - µ2 = 0

    H1: µ1 - µ2 " 0

    Si se usa un nivel de significancia de 0,05 , la regla de decisión para esta prueba de hipótesis es: Si el valor Z calculado es menor que -1,96 o mayor que 1,96 se rechaza la hipótesis nula.

    El gerente registra las ventas semanales de los 2 dependientes para una muestra de varias semanas y quiere saber si ellos pueden considerarse iguales como vendedores. Se usara la prueba U de Mann-Whitney para probar esta hipótesis de que los 2 dependientes son iguales en este sentido, ya que el tamaño de la muestra es pequeño y hay evidencia de que la población de las ventas no es normal. En la siguiente tabla se numeran las ventas de cada dependiente junto con sus rangos.

    El estadístico U se calcula con la ecuación antes expuesta, en esta ecuación, n1 es igual a 16 , n2 igual a 25 y R1 = 241. Este ultimo valor se calculo sumando todos los rangos para el dependiente a , el calculo de U es:

    n1 (n1 + 1) 16(16+1)

    U = n1 n2 + ----------------- - R1 = (16)(25)+ ---------------- - 241 = 295

    2 2

    TABLA Ventas por rangos para la prueba U de Mann Whitney

    DEPENDIENTE A

    DEPENDIENTE B

    VENTAS

    RANGO

    VENTAS

    RANGO

    197

    1

    190

    3

    194

    2

    180

    7

    188

    4

    175

    8

    185

    5

    172

    10

    182

    6

    167

    13

    173

    9

    166

    14

    169

    11

    160

    17

    169

    12

    157

    18

    TABLA Ventas por Rangos para la prueba U de Mann - Whitney

    DEPENDIENTE A

    DEPENDIENTE B

    VENTAS

    RANGO

    VENTAS

    RANGO

    164

    15

    155

    19

    166

    16

    150

    21

    154

    20

    146

    23

    149

    22

    145

    24

    142

    26

    143

    25

    139

    28

    140

    27

    137

    29

    135

    30

    130

    35

    135

    31

    134

    32

    133

    33

    131

    34

    122

    36

    120

    37

    118

    38

    109

    39

    98

    40

    95

    41

    Los parámetros de la distribución muestral normal deben determinarse para ver si el valor U de 295 se puede considerar poco usual. La media y la desviación estándar de la distribución muestral normal se calculan a continuación.

    n1n2 (16)(25)

    µu = --------- = ------------- = 200

    2 2

    "n1n2 (n1+n2+1) "(16)(25) (16+25+1)

    u = --------------------------------- = ----------------------------- = 37,4

    "12 "12

    El valor z del estadístico muestral se calcula:

    U - µu 295 - 200

    z = --------------------- = ---------------- = 2,54

    u 37,4

    El estadístico muestral (295) esta a los 2,54 desviaciones estándar a la derecha de la media (200) de la curva si la hipótesis nula de poblaciones iguales es cierta. Este es un valor poco probable para esta curva, ya que este valor z cubre 0,4945 del área bajo la curva, dejando solo 0,0055 en la cola superior. Se justifica que el gerente de la tienda rechace la hipótesis nula de que los dos dependientes son iguales en su habilidad para general ventas. El riego de un error tipo I al rechazar es solo 0,011 ( 2 * 0.0055).

    RESUMEN

    Este tema presentó cuatro métodos estadísticos de uso común para extraer información útil de datos nominales u ordinales. Estos métodos también se usan cuando no se satisfacen la suposiciones fundamentales o cuando no se pueden usar métodos paramétricos mas poderosos. Los métodos no parametritos se estudian con mas profundidad en libros que se dedican exclusivamente a este tema. Tales libros contienen muchas técnicas estadísticas diseñadas para datos cualitativos.

    La prueba del signo de una muestra se presento primero como una forma no paramétrica de probar una media poblacional supuesta. Después se analizo la prueba U de Mann - Whitney. Esta técnica esta diseñada para detectar si dos medidas hechas en una escala ordinal están sacadas de la misma población.

    APLICACIONES DE CONCEPTOS ESTADISTICOS AL MUNDO DE LOS NEGOCIOS.

    Los métodos no parametritos no se usan tanto quizás como debieran en las aplicaciones de negocios. Es cierto que muchos de los datos de negocios son cuantitativos y el análisis adecuado se hace con los métodos que constituyen la mayor parte de este libro. Pero en muchos casos, los datos se recogen en categorías o rangos. En especial , los estudios de mercado contienen este tipo de datos , ya que suelen medir aptitudes.

    Se presentan ahora varias preguntas que pueden surgir en el contesto de los negocios. Para cada una es probable que los datos recogidos estén en categorías.

    ¿Cómo califican los compradores a los tres grandes almacenes principales de la zona del centro?

    Como paso preliminar para pintar las áreas de oficinas, ¿Cuáles son los colores favoritos de nuestros empleados?

    ¿Depende la elección del color de la edad, el sexo o el departamento?

    ¿Cómo clasifican nuestros clientes los precios, el servicio, la conveniencia y la calidad de nuestra tienda?

    Se mide la cantidad en la que la longitud de una parte fabricada se sale de las especificaciones ¿Existe alguna diferencia entre los turnos 1 y 2 en cuanto a estas cantidades?

    ¿Cambiaron los rangos de ventas de nuestros vendedores durante el año pasado?

    ¿Cuál es la similitud entre la clasificación de nuestros empleados que proporciona el comité de personal del sindicato y la que proporcionan los supervisores de la tienda?

    ¿Cuál es la relación entre la variable hombre / mujer y la calificación otorgada a la calidad de la administración de la compañía , a la justicia en el nivel de salarios, y a la oportunidad de superación en un estudio reciente sobre los empleados?.

    EJERCICIOS

    Numero 1.- Prueba del signo de una muestra

    Se llega a cabo una prueba de sabor para determinar si la gente prefiere refrescos dietéticos de coca cola con sabor a cereza o a uva. Se pide a un panel de 40 contadores que califiquen cada bebida en una escala del 1 al 5. La siguiente tabla muestra los resultados. Utiliza un nivel de significacia de 0.10 para determinar si los contadores indican una diferencia significativa entre los dos tipos de refresco.

    Calificación

    Calificación

    Catador

    Cereza

    Uva

    Signo de la diferencia

    Catador

    Cereza

    Uva

    Signo de la diferencia

    1

    4

    2

    +

    21

    3

    5

    -

    2

    1

    3

    -

    22

    4

    4

    0

    3

    2

    2

    0

    23

    1

    5

    -

    4

    5

    3

    +

    24

    1

    3

    -

    5

    3

    1

    +

    25

    4

    3

    +

    6

    3

    2

    +

    26

    5

    2

    +

    7

    4

    4

    0

    27

    3

    5

    -

    8

    1

    5

    -

    28

    3

    1

    +

    9

    5

    4

    +

    29

    2

    2

    0

    10

    4

    2

    +

    30

    2

    5

    -

    11

    3

    2

    +

    31

    5

    4

    +

    12

    4

    1

    +

    32

    5

    4

    +

    13

    2

    3

    -

    33

    4

    3

    +

    14

    1

    4

    -

    34

    3

    3

    0

    15

    5

    4

    +

    35

    1

    5

    -

    16

    4

    3

    +

    36

    2

    5

    -

    17

    5

    3

    +

    37

    3

    2

    +

    18

    2

    4

    -

    38

    4

    4

    0

    19

    4

    2

    +

    39

    4

    2

    +

    20

    5

    5

    0

    40

    5

    3

    +

    La hipótesis nula y alternativa son:

    H0: p = 50

    H1: p " 50

    El primer paso es determinar el número de signos mas y menos. Se les da un signo mas a cada catador que califica mas alto al refresco de sabor cereza que el de uva. Se asigna un signo menos al catador que calificó mas alto el de uva que el de cereza.

    El siguiente paso es contar los signos mas y menos. Hay 21 signos mas y 12 menos (se observa que se ignoraron 7 valores de los catadores que dieron la misma calificación a los dos refrescos.

    Se usa la aproximación de la curva normal a la distribución binomial. En términos de proporciones, la media y la desviación estándar de la distribución muestral son:

    µp = p = 0,5

    " p (1 - p) " 0,5 (0,5)

    p = ------------------ = ----------------- = " 0,0076 = 0,087

    " n " 33

    Las reglas de decisión para esta muestra de hipótesis es:

    Si el valor z calculado es menor que -1,645 o mayor que 1,645, se rechaza la hipótesis nula.

    La proporción observada de signos mas es:

    x 21

    p = ------ = -------- = 0,676

    n 33

    El valor z es:

    p - p 0,636 - 0,5

    z = ----------- = ------------------- = 1,56

    p 0,087

    Como la z calculada (1,56) es menor que la z crítica (1,647), la hipóteis nula no se rechaza. No existe una diferencia significativa en el número de catadores que prefirieron una bebida en lugar de otra.

    Número 2.- Prueba U de Mann-Whitney.

    El doctor Antonio del hospital Virgen de las Nieves quiere probar la efectividad de una nueva medicina para tratar la locura. Registra el tiempo que pasan en el hospital los pacientes locos con la medicina anterior y los pacientes similares tratados con la medicina nueva. Asigna un rango de 1 a la estancia mas corta. EL Dr. Antonio obtiene los siguientes rangos para las estancias de 25 pacientes.

    MEDICINA ANTERIOR

    MEDICINA NUEVA

    5

    1

    9

    2

    12

    3

    14

    4

    15

    6

    16

    7

    17

    8

    20

    10

    21

    11

    22

    13

    23

    18

    24

    19

    25

    ¿Es mas efectiva la nueva medicina?. Realice una prueba con un nivel de significancia de 0,01.

    La hipótesis nula y alternativa son:

    H0: µ1 - µ2 " 0

    H1: µ1 - µ2 > 0

    El estadístico U se calcula usando la ecuación anteriormente expuesta en esta ecuación, n1 = 12 (número de pacientes que usa medicina nueva), n2 = 13 (número de pacientes que usa medicina anterior) y R1 = 102. Este último valor se calcula sumando todos los rangos para la medicina nueva. El cálculo de U es:

    n1 (n1 + 1) 12 (12 + 1)

    U = n1n2 + ---------------- - R1 = (12)(13) + ---------------- - 102 = 132

    2 2

    El estadístico U calculado a partir de los datos de la muestra es 132.

    Al usar las ecuaciones anteriormente definidas, la media y desviación estándar de la distribución muestral normal son:

    n1n2 (13)(13)

    µU = ---------- = ------------- = 78

    • 2

    " n1n2 (n1 + n2 + 1) " (12)(13)(12 + 13 + 1)

    U = ----------------------------- = --------------------------------- = 18,4

    " 12 " 12

    La regla de decisión para esta prueba de hipótesis es:

    Si el valor z calculado es mayor que 2,33 se rechaza la hipótesis nula.

    El valor z para el estadístico muestral es:

    U - µU 132 - 78

    z = ------------ = -------------- = 2,93

    U 18,4

    El valor z (2,93) es mayor que el valor crítico z (2,33); por tanto, la hipótesis nula se rechaza. El Dr. Antonio concluye que los pacientes que usan la medicina nueva tuvieron una estancia mas corta en el hospital que los que usaron la medicina anterior.




    Descargar
    Enviado por:Hereas
    Idioma: castellano
    País: España

    Te va a interesar