Estadística descriptiva

Media aritmética ponderada. Mediana. Moda. Desviación estándar. Varianza. Correlación lineal. Tipos de probabilidad. Variables aleatorias. Distribución binomial. Hipergeométrica. Poisson. Continuas. Prueba de hipótesis. Regresión

  • Enviado por: Jazzel
  • Idioma: castellano
  • País: México México
  • 35 páginas
publicidad
cursos destacados
Programa Superior en Dirección y Gestión Hotelera
Universidad Francisco de Vitoria-CESAE
Si alguna vez has pensado en dirigir y gestionar tu propio hotel quizás ha llegado el momento de hacer realidad ese...
Solicita InformaciÓn

Dirección y Gestión de Hoteles
Fomento Profesional
El turismo es el sector que mayor aportación realiza al PIB de la economía y, dentro de él, el subsector hotelero...
Solicita InformaciÓn

publicidad

MEDIA ARITMÉTICA

Es la suma de los valores de una variable dividida por, él numero de ellos. La media aritmética, que se representa con 'Estadística descriptiva'
.

La fórmula de la media aritmética es:

'Estadística descriptiva'

Ejemplo:

se obtiene con los siguientes pasos

1. Se suman todos los datos 'Estadística descriptiva'

10 + 3 + 5 + 9 + 6 + 8 + 8 + 7 + 9 + 6 + 8 + 7 =

2. La suma ('Estadística descriptiva'
) se divide entre el número de datos (n) :

'Estadística descriptiva'

La media aritmética o promedio de las evaluaciones es 7.16, que es el valor representativo de todos los datos.

MEDIA ARITMÉTICA PONDERADA'Estadística descriptiva'

A veces se asocia a los números x1, x2,...,xn que se quieren promediar, ciertos factores o pesos w1, w2,...,wn que dependen de la significación o importancia de cada uno de los números. Entonces se genera una media aritmética ponderada, que también se representa con equis testada.

'Estadística descriptiva'

Ejemplo

Supongamos que un alumno quiere encontrar el promedio ponderado de sus cinco calificaciones. La segunda calificación vale el doble de al primera, la tercera el triple de la primera, la cuarta vale cuatro veces la primera y la quinta cinco veces. ¿Cuál es su promedio si sus calificaciones son 8.5, 7.3, 8.3, 6.4 y 9.2?

X1 = 8.5 ; W1 = 1

X2 = 7.3 ; W2 = 2

X3 = 8.3 ; W3 = 3

X4 = 6.4 ; W4 = 4

X5 = 9.2 ; W5 = 5

(8.5*1+7.3*2+8.3*3+6.4*4+9.2*5)

(1+2+3+4+5)

= 119.6/15 = 7.97 es el promedio ponderado de las calificaciones de este alumno

LA MEDIANA

Es la observación que se encuentra en el centro cuando los datos están ordenados, divide a los datos en dos partes iguales.

- Si n es impar:

la mediana es la observación que está en el lugar (n+1)/2, esto es

'Estadística descriptiva'

- Si n es par:

la mediana es el promedio de las observaciones n/2 y n/2+1, esto es

'Estadística descriptiva'

Ejemplo

Encuentra la mediana para el siguiente conjunto de datos

9

12

5

16

8

3

11

  • Primero se ordenan los datos

  • 3

    5

    8

    9

    11

    12

    16

    Una vez ordenados, como el número de datos es impar (7), se busca el que tiene la posición (n+1)2, o sea (7+1)2 = 4. Este número es el 9 y representa la mediana.

    Ejemplo

    Calcula la mediana para el siguiente conjunto de datos

    8.3

    5.7

    9.2

    3.9

    7.4

    11.8

    10.6

    4.3

    Nuevamente se ordenan los datos

    3.9

    4.3

    5.7

    7.4

    8.3

    9.2

    10.6

    11.8

    Una vez ordenados, como el númeo de datos es par (8), se busca el número que tiene la posición n/2 y el que tiene la posición n/2+1, o sea 8/2 = 4 y 8/2+1 = 5. Los números que tienen la posición cuarta y quinta son 7.4 y 8.3. Estos números se promedian y el resultado será la mediana.

    (7.4+8.3)/2 = 7.85. Este resultado 7.85 representa la mediana para este conjunto de datos

    LA MODA

    La moda es el dato que aparece con mayor frecuencia en una colección.

    Ejemplo

    Si se observa cual es el dato que más se repite en las evaluaciones, se tiene:

    3, 5, 6, 6, 7, 7, 8, 8, 8, 9, 9, 10

    Que es el ocho. Este valor representa la moda de esta colección, por lo tanto, la moda se refiere al dato que tiene mayor frecuencia.

    Nota: Si ninguna observación se repite, se dice que esos datos no tienen moda. Si todos los datos se repiten el mismo número de veces, los datos serán multimodales.

    Ejemplo

    Encuentra la moda de los siguientes datos

    4

    9

    5

    6

    7

    Como los datos sólo existen una vez, este conjunto de datos no tienen moda.

    Ejemplo

    Encuentra la moda del siguiente conjunto de datos

    9

    3

    6

    7

    9

    8

    5

    9

    7

    3

    El 3 se repite dos veces, el 7 se repite también dos veces, pero como el 9 se repite tres veces, este último número es la moda para este conjunto de datos.

    Ejemplo

    Calcula la moda para los datos que se presentan a continuación

    6

    7

    8

    6

    9

    7

    8

    5

    6

    8

    El máximo número de veces que se repiten los datos son tres, y hay dos datos que se repiten tres veces, el 6 y el 8. El conjunto de datos es bimodal y sus modas son el 6 y el 8.

    Ejemplo

    Calcula la moda para estos datos

    8

    6

    5

    5

    9

    6

    8

    6

    5

    9

    8

    9

    En este conjunto de datos, todos se repiten tres veces. El 5, 6, 8 y el 9 son moda. No hay ninguno que no lo sea, es un caso multimodal

    DESVIACIÓN ESTÁNDAR

    La desviación estándar es la medida de dispersión mas usada en estadística, tanto en aspectos descriptivos como analíticos. En su forma conceptual, la desviación estándar se define así:

    'Estadística descriptiva'

    Fórmula de trabajo para la población

    'Estadística descriptiva'

    Fórmula de trabajo para la muestra:

    'Estadística descriptiva'

    Ejemplo:

    x

    x2

    3

    9

    2

    4

    3

    9

    5

    25

    4

    16

    3

    9

    20

    72

     

    'Estadística descriptiva'

     

     

    Cuando se trata de datos agrupados la formula es:

    'Estadística descriptiva'

    Ejemplo :

    x

    f

    fx

    x2

    fx2

    32

    1

    32

    1024

    1024

    37

    3

    111

    1369

    4107

    42

    8

    336

    1764

    14112

    47

    9

    423

    2209

    19881

    52

    7

    364

    2704

    18928

    57

    4

    228

    3249

    12996

    62

    3

    186

    3844

    11532

    67

    3

    201

    4489

    13467

    72

    2

    144

    5184

    10368

    Sumas

    40

    2025

     

    106415

    'Estadística descriptiva'

    Conociendo la desviación estándar, se puede calcular otros estimadores derivados que son de gran utilidad para describir y/o interpretar el comportamiento de los datos

    VARIANZA (VARIANCIA) S2

    La varianza, 'Estadística descriptiva'
    , se define como la media de las diferencias cuadráticas de n puntuaciones con respecto a su media aritmética, es decir:

    'Estadística descriptiva'

    Para datos agrupados en tablas, usando las notaciones establecidas en los capítulos anteriores, la varianza se puede escribir como

    'Estadística descriptiva'

    Una fórmula equivalente para el cálculo de la varianza está basada en lo siguiente:

    'Estadística descriptiva'


    Con lo cual se tiene

    'Estadística descriptiva'

    Si los datos están agrupados en tablas, es evidente que

    'Estadística descriptiva'


    La varianza no tiene la misma magnitud que las observaciones (ej. si las observaciones se miden en metros, la varianza lo hace en metros2). Si queremos que la medida de dispersión sea de la misma dimensionalidad que las observaciones bastará con tomar su raíz cuadrada.

    Por ello se define la desviación típica, 'Estadística descriptiva'
    , como:

    'Estadística descriptiva'


    Ejemplo

    Calcular la varianza y desviación típica de las siguientes cantidades medidas en metros:

    3,3,4,4,5


    Para calcular dichas medidas de dispersión es necesario calcular previamente el valor con respecto al cual vamos a medir las diferencias. Éste es la media:

    'Estadística descriptiva'


    La varianza es:

    'Estadística descriptiva'


    Siendo la desviación típica su raíz cuadrada:

    'Estadística descriptiva'


    Las siguientes propiedades de la varianza (respectivamente, desviación típica) son importantes a la hora de hacer un cambio de origen y escala a una variable. En primer lugar, la varianza (resp. Desviación típica) no se ve afectada si al conjunto de valores de la variable se le añade una constante. Si además cada observación es multiplicada por otra constante, en este caso la varianza cambia en relación al cuadrado de la constante (resp. La desviación típica cambia en relación al valor absoluto de la constante). Esto queda precisado en la siguiente proposición

    TASA INTERNA DE RENTABILIDAD O DE RETORNO

    Generalmente conocido por su acrónimo TIR, es el tipo de descuento que hace que el VAN (valor actual o presente neto) sea igual a cero, es decir, el tipo de descuento que iguala el valor actual de los flujos de entrada (positivos) con el flujo de salida inicial y otros flujos negativos actualizados de un proyecto de inversión. En el análisis de inversiones, para que un proyecto se considere rentable, su TIR debe ser superior al coste del capital empleado.

    El Valor Actual Neto es un criterio financiero para el análisis de proyectos de inversión que consiste en determinar el valor actual de los flujos de caja que se esperan en el transcurso de la inversión, tanto de los flujos positivos como de las salidas de capital (incluida la inversión inicial), donde éstas se representan con signo negativo, mediante su descuento a una tasa o coste de capital adecuado al valor temporal del dinero y al riesgo de la inversión. Según este criterio, se recomienda realizar aquellas inversiones cuyo valor actual neto sea positivo.

    El Valor Actual o Valor presente, es calculado mediante la aplicación de una tasa de descuento, de uno o varios flujos de tesorería que se espera recibir en el futuro; es decir, es la cantidad de dinero que sería necesaria invertir hoy para que, a un tipo de interés dado, se obtuvieran los flujos de caja previstos.

    CORRELACIÓN LINEAL

    Objetivo principal del análisis de correlación lineal es medir la intensidad de una relación lineal entre dos variables. A continuación se estudian algunos diagramas de dispersión que indi­can diferentes relaciones entre las variables independientes x y las variables dependientes y. Si Y dependientes no existe un cambio definido en los valores de y conforme aumentan los valores de x, se dice que no hay correlación o que no existe relación entre x y y. En cambio, si al aumentar x hay una modificación definida en los valores de y, entonces existe correlación.

    En este último caso la correlación es positiva cuando y tiende a aumentar, y negativa cuando y decrece. Si tanto los correlación lineal valores de x como los de y tienden a seguir una dirección recta, existe una correlación lineal.

    La precisión del cambio en y conforme x incrementa su valor, determina la solidez de la correla­ción lineal. Los diagramas de dispersión de la Figura 3-2 ilustran estas nociones.

    'Estadística descriptiva'
    Hay una correlación lineal perfecta cuando todos los puntos están situados a lo largo de una recta en forma exacta, como se muestra en la Figura. Esta correlación puede ser positi­va o negativa, dependiendo de que y aumente o disminuya conforme x aumenta. Si los datos forman una recta vertical u horizontal no existe correlación, pues una variable no tiene efecto sobre la otra.

    'Estadística descriptiva'

    PROBABILIDAD Y

    TIPOS DE PROBABILIDAD

    Históricamente se han desarrollado tres diferentes enfoques conceptuales para definir la probabilidad y para determinar valores de probabilidad:

    el clásico,

    el de frecuencia relativa y

    el subjetivo.

    De acuerdo con el enfoque clásico de la probabilidad, si N(A) resultados elementales posibles son favorables en el evento A, y existe N(S) posibles resultados en el espacio muestral y todos los resultados elementales son igualmente probables y mutuamente excluyentes; entonces, la probabilidad de que ocurra el evento A es

    N(A)

    P(A) = -------------

    N(S)

    Obsérvese que el enfoque clásico de la probabilidad se basa en la suposición de que cada uno de los resultados es igualmente probable. Debido a que este enfoque (cuando es aplicable) permite determinar los valores de probabilidad antes de observar cualesquiera eventos muestrales, también se le denomina enfoque a priori.

    EJEMPLO

    En un mazo de cartas bien barajadas que contiene 4 ases y 48 cartas de otro tipo, la probabilidad de obtener un as (A) en una sola extracción es

    N(A) 4 1

    P(A) = ---------- = ----- = ----

    N(S) 52 13

    A través del enfoque de frecuencia relativa, se determina la probabilidad con base en la proporción de veces que ocurre un resultado favorable en un determinado número de observaciones o experimentos. No hay implícita ninguna suposición previa de igualdad de probabilidades. Debido a que para determinar los valores de probabilidad se requiere de la observación y de la recopilación de datos, a este enfoque se le denomina también enfoque empírico. La probabilidad de que ocurra un evento A, de acuerdo con el enfoque de frecuencia relativa es

    Número de observaciones de A n(A)

    P(A) = -------------------------------------- = -------

    Tamaño de la muestra n

    EJEMPLO.

    Antes de incluir la cobertura para ciertos tipos de problemas dentales en pólizas de seguros médicos para adultos con empleo, una compañía de seguros desea determinar la probabilidad de ocurrencia de esa clase de problemas, para que pueda fijarse la prima de seguros de acuerdo con esas cifras. Por ello, un especialista en estadística recopila datos para 10,000 adultos que se encuentran en las categorías de edad apropiadas y encuentra que 100 de ellos han experimentado el problema dental específico durante el año anterior.

    Por ello, la probabilidad de ocurrencia es:

    n(A) 100

    P(A) = ------- = --------- = 0.01, o 1%

    n 10,000

    Tanto el enfoque clásico como el de frecuencia relativa producen valores de probabilidad objetivos, en el sentido de que señalan la tasa relativa de ocurrencia del evento a largo plazo.

    Por el contrario, el enfoque subjetivo a la probabilidad es particularmente apropiado cuando sólo existe una probabilidad de que el evento ocurra, y se da el caso de que ocurra o no esa única vez. De acuerdo con el enfoque subjetivo, la probabilidad de un evento es el grado de confianza que una persona tiene en que el evento ocurra, con base en toda la evidencia que tiene disponible. Debido a que el valor de la probabilidad es un juicio personal, al enfoque subjetivo se le denomina también enfoque personalista.

    EJEMPLO

    Debido a los impuestos y a los posibles usos alternativos de sus fondos, un inversionista ha determinado que la compra de terrenos vale la pena sólo si existe una probabilidad de cuando menos 0.90 de que el terreno obtenga plusvalía por 50% o más en los próximos 4 años. Al evaluar un determinado terreno, el inversionista estudia los cambios en los precios en el área en años recientes, considera los niveles corrientes de precios, estudia el estado corriente y futuro probable de los proyectos de desarrollo inmobiliarios y revisa las estadísticas referentes al desarrollo económico del área geográfica global. Con base en esta revisión, concluye que existe una probabilidad de aproximadamente 0.75% de que se dé la plusvalía que requiere. Como esta probabilidad es menor que la mínima que requiere, (0.90), no debe llevarse a cabo la inversión

    DISTRIBUCIONES DE PROBABILIDAD PARA VARIABLES ALEATORIAS DISCRETAS:

    BINOMIAL, HIPERGEOMÉTRICA Y POISSON.

    DISTRIBUCIONES DE PROBABILIDAD PARA VARIABLES ALEATORIAS

    En contraste con un evento, una variable aleatoria es un evento numérico cuyo valor se determina mediante un proceso al azar. Cuando se asignan valores de probabilidad a todos los valores numéricos posibles de una variable aleatoria X, ya sea mediante un listado o a través de una función matemática, se obtiene como resultado una distribución de probabilidad. La suma de las probabilidades para todos los resultados numéricos posibles debe ser igual 1.0. Pueden denotarse los valores de probabilidad individuales mediante el símbolo f(x), lo cual implica que hay implícita una función matemática; mediante P(x=X), el cual implica que la variable aleatoria puede asumir diversos valores específicos, o simplemente mediante P(X).

    Para una variable aleatoria discreta, se pueden enlistar todos los valores numéricos posibles de la variable en una tabla con las probabilidades correspondientes. Existen diversas distribuciones estándar de probabilidad que pueden utilizarse como modelos para una amplia gama de variables aleatorias discretas en aplicaciones de negocios. Los modelos estándar que se describiremos son las distribuciones de probabilidad binomial, hipergeométrica y Poisson.

    Para una variable aleatoria continua no es posible enlistar todos los posibles valores fraccionarios de la variable y, por lo tanto, las probabilidades que se determinan a través de una función matemática se ilustran en forma gráfica mediante una función de densidad de probabilidad o curva de probabilidad. Más adelante se describen diversas distribuciones estándar de probabilidad que pueden servir como modelos para variables aleatorias continuas.

    EJEMPLO

    En la siguiente tabla se muestra el número de camionetas que se han solicitado para renta en una arrendadora de automóviles, en un periodo de 50 días. En la última columna de la Tabla se incluyen las frecuencias observadas en este periodo de 50 días, convertidas en probabilidades. Así, puede observarse que la probabilidad de que se hayan solicitado exactamente siete camionetas en un día elegido al azar en ese periodo es de 0.20, y que la probabilidad de que se hayan solicitado seis o más es de 0.20 + 0.20 + 0.08 = 0.56.

    Demanda diaria de arrendamiento de camionetas

    durante un periodo de 50 días

    Demanda posible X

    Número de días

    Probabilidad [P (X)]

    3

    3

    0.06

    4

    7

    0.14

    5

    12

    0.24

    6

    14

    0.28

    7

    10

    0.20

    8

    4

    0.08

    50

    1.00

    EL VALOR ESPERADO Y LA VARIANZA DE UNA VARIABLE ALEATORIA DISCRETA

    De la misma manera en que se hace para conjuntos de datos muestrales y poblacionales, con frecuencia resulta útil describir una variable aleatoria en términos de su media y su varianza. La media (a largo plazo) de una variable aleatoria X se denomina valor esperado y se denota mediante E(X). Para una variable aleatoria discreta, resulta ser el promedio ponderado de todos los valores numéricos posibles de la variable, utilizando las probabilidades correspondientes como pesos. Como la suma de los pesos (probabilidades) es 1.0, puede simplificarse la fórmula de la media ponderada de manera que el valor esperado de una variable aleatoria discreta es

    E(X) = ðXP(X)

    EJEMPLO

    Con base en los datos de la Tabla anterior, se presentan en la Tabla siguiente los cálculos que conducen al valor esperado de la variable aleatoria. El valor esperado es 5.66 camionetas. Observe que el valor esperado de la variable discreta puede ser un valor fraccionario porque representa el valor promedio a largo plazo y no el valor específico de determinada observación.

    Cálculo del valor esperado para la demanda de camionetas

    Demanda posible X

    Probabilidad [ P (X) ]

    Valor ponderado [ X P (X) ]

    3

    0.06

    0.18

    4

    0.14

    0.56

    5

    0.24

    1.20

    6

    0.28

    1.68

    7

    0.20

    1.40

    8

    0.08

    0.64

    1.00

    E(X) = 5.66

    La varianza de una variable aleatoria X se denota mediante V(X); se calcula con respecto a E(X) como la media de la distribución de probabilidad. La forma general de desviaciones para la fórmula de la varianza de una variable aleatoria discreta es

    V(X) = ð[X-E(X)-E(X)]2 P(X)

    La forma abreviada para la fórmula de la varianza de una variable aleatoria discreta, que no requiere el cálculo de las desviaciones con respecto a la media, es

    V(X) = ð X2 P(X) - [ð XP(X)]2 = E(X2) - [E(X)]2

    EJEMPLO

    En la siguiente Tabla se presenta la hoja de trabajo utilizada para el cálculo de la varianza de la demanda de renta de camionetas, utilizando la versión abreviada de la fórmula. Tal como se señala enseguida, el valor de la varianza es de 1.74.

    V(X) = E(X2}-[E(X)]2 = 33.78-(5.66)2 = 33.78-32.04 = 1.74

    Hoja de trabajo para el cálculo de la varianza para la demanda de camionetas

    Demanda posible

    X

    Probabilidad [P(X)]

    Valor ponderado [XP(X)]

    Demanda al cuadrado

    (X2)

    Valor ponderado al cuadrado [X2P(X)]

    3

    0.06

    0.18

    9

    0.54

    4

    0.14

    0.56

    16

    2.24

    5

    0.24

    1.20

    25

    6.00

    6

    0.28

    1.68

    36

    10.08

    7

    0.20

    1.40

    49

    9.80

    8

    0.08

    0.64

    64

    5.12

    E(X) = 5.66

    E(X2) = 33.78

    LA DISTRIBUCIÓN BINOMIAL

    La distribución binomial es una distribución discreta de probabilidad aplicable como modelo a diversas situaciones de toma de decisiones, siempre y cuando pueda suponerse que el proceso de muestreo se ajusta a un proceso Bernoulli. Un proceso Bernoulli es un proceso de muestreo en el que:

    (1) Sólo son posibles dos resultados mutuamente excluyentes en cada ensayo u observación. Por conveniencia, a estos resultados se les denomina éxito y fracaso.

    (2) Los resultados del conjunto de ensayos u observaciones, constituyen eventos independientes.

    (3) La probabilidad de éxito, que se denota mediante p, permanece constante de un ensayo a otro. Es decir, el proceso es estacionario.

    Puede utilizarse la distribución binomial para determinar la probabilidad de obtener un número determinado de éxitos en un proceso Bernoulli. Se requieren tres valores: el número específico de éxitos (X), el número de ensayos u observaciones (n) y la probabilidad de éxito en cada uno de los ensayos (p). La fórmula para determinar la probabilidad de un número determinado de éxitos X para una distribución binomial, en donde q = (1-p) es:

    P(Xðn, p) = nCXpXqn-X

    n!

    = ----------- px q n-x

    X! (n-X)!

    EJEMPLO

    La probabilidad de que un prospecto de ventas elegido al azar realice una compra es de 0.20. Si un vendedor visita a seis prospectos, la probabilidad de que realice exactamente cuatro ventas se determina de la siguiente manera:

    P(X = 4ðn = 6, p = 0.20) = 6C4(0.20)4(0.80)2 = 6! (0.20)4(0.80)2

    4!2!

    6x5x4x3x2

    = ------------- (0.0016)(0.64) = 0.01536 ð 0.015

    (4x3x2)(2)

    Con frecuencia existe interés en la probabilidad acumulada de "X o más" éxitos o "X o menos" éxitos en n ensayos. En este caso, debe determinarse la probabilidad de cada uno de los resultados incluidos dentro del intervalo designado, y entonces sumar esas probabilidades.

    EJEMPLO

    En relación con el ejemplo anterior la probabilidad de que el vendedor logre 4 o más ventas se determina de la siguiente manera:

    P(X ≥ 4ðn=6, p=0.20) = P(X=4) + P(X=5) + P(X=6)

    = 0.01536 + 0.001536 + 0.000064 = 0.016960 ð 0.017

    en donde P(X=4) = 0.1536 (del ejemplo anterior

    P(X=5) = 6C5(0.20)5(0.80)1 = 6! (0.20)5(0.80) = 6(0.00032)(080) = 0.001536

    5! 1!

    P(X=6) = 6C6(0.20)6(0.80)0 = 6! (0.000064)(1) = (1)(0.000064) = 0.00064

    6! 0!

    (Nota: recuérdese que cualquier valor elevado a la potencia 0 es igual a 1).

    Como el uso de la fórmula binomial implica una cantidad considerable de cálculos cuando la muestra es relativamente grande, con frecuencia se utilizan tablas de probabilidades binomiales.

    LA DISTRIBUCIÓN HIPERGEOMÉTRICA

    Cuando el muestreo se realiza sin reemplazo para cada uno de los elementos que se toman de una población finita de elementos, no se puede aplicar el proceso Bernoulli debido a que existe un cambio sistemático en la probabilidad de éxitos al ir extrayendo elementos de la población. Cuando se utiliza el muestreo sin reemplazo en alguna situación en la que, de no ser por el no reemplazo, se le pudiera calificar como proceso de Bernoulli, la distribución discreta de probabilidad apropiada resulta ser la distribución hipergeométrica.

    Si X es el número designado de éxitos, N es el número de elementos de la población, T es el número total de "éxitos" incluidos en la población y n es el número de elementos de la muestra, la fórmula para determinar las probabilidades hipergeométricas es

    N - T T

    n - X X

    P(XðN, Tn) = ----------------

    N

    n

    EJEMPLO

    De seis empleados, tres han estado con la compañía durante cinco o más años, si se eligen cuatro empleados al azar de ese grupo la probabilidad de que exactamente dos de ellos tengan una antigüedad de cinco años o más es:

    6-3 3 3 3 3 ! 3 !

    4-2 2 2 2 2!1! 2!1! (3) (3)

    P(X=2ðN=6, T=3 n=4) = ------------- = ------------ = ------------- = ----------

    6 6 6! 15

    4 4 4!2!

    = 0.60

    Nótese que en el ejemplo anterior, el valor que se requiere de la probabilidad se calcula determinando el número de combinaciones diferentes que incluirían a dos empleados con antigüedad suficiente y dos con menor antigüedad como cociente del número total de combinaciones de cuatro empleados, tomados de entre los seis. Por ello, la fórmula hipergeométrica es una aplicación directa de las reglas de análisis combinatorio.

    Cuando la población es grande y la muestra es relativamente pequeña, el hecho de que se realice el muestreo sin reemplazo tiene poco efecto sobre la probabilidad de éxito en cada ensayo. Una regla práctica conveniente consiste en utilizar la distribución binomial como aproximación a la hipergeométrica cuando n<0.05N. Es decir, el tamaño de la muestra debe ser cuando menos del 5% del tamaño de la población. En diferentes textos pueden encontrarse reglas un tanto distintas para determinar los casos en los que una aproximación como ésta es apropiada.

    LA DISTRIBUCIÓN DE POISSON.

    Puede utilizarse la distribución de Poisson para determinar la probabilidad de que ocurra un número designado de eventos, cuando esto ocurre en un continuo de tiempo o espacio. A un proceso como este se le denomina proceso Poisson; es similar al proceso Bernoulli excepto en que los eventos ocurren en un continuo (por ejemplo en un intervalo de tiempo) en vez de ocurrir en ensayos u observaciones fijas. Un ejemplo es la entrada de llamadas en un conmutador telefónico. Al igual que en el caso del proceso Bernoulli, se supone que los eventos son independientes y que el proceso es estacionario.

    Sólo se requiere un valor para determinar la probabilidad de que ocurra un número designado de eventos en un proceso de Poisson: el número promedio a largo plazo de eventos para el tiempo o dimensión específico de interés. Por lo general, esta media se representa mediante ð (la letra griega "lambda") o, es posible, mediante ð. La fórmula para determinar la probabilidad de un número determinado de éxitos N en una distribución Poisson es

    ðxe-ð

    P(Xðð) = --------

    X!

    Aquí, e es la constante 2.7183 que es la base de los logaritmos naturales.

    EJEMPLO

    Un departamento de reparación de maquinaria recibe un promedio de cinco solicitudes de servicio por hora. La probabilidad de que se reciban exactamente tres solicitudes en una hora seleccionada al azar es

    (5)3e-5 (125)(0.00674)

    P(X =3ðð=5.0) = -------- = ------------------- = 0.1404

    3! 6

    DISTRIBUCIONES DE PROBABILIDAD PARA VARIABLES ALEATORIAS CONTINUAS:

    NORMAL Y EXPONENCIAL

    VARIABLES ALEATORIAS CONTINUAS

    A diferencia de una variable aleatoria discreta, una variable aleatoria continua es la que puede tomar cualquier valor fraccionario en un rango determinado de valores. Como existe un número infinito de posibles mediciones fraccionarias, no pueden enlistarse todos los valores posibles con una probabilidad correspondiente. Más bien, se define una función de densidad de probabilidad. Esta expresión matemática da la función de X, y se representa mediante el símbolo f(X), para cualquier valor designado de la variable aleatoria X. A la gráfica de una función de este tipo se le denomina curva de probabilidad y el área entre dos puntos cualesquiera bajo la curva de la probabilidad de la ocurrencia aleatoria de un valor entre esos dos puntos.

    EJEMPLO

    Para la distribución continua de probabilidad de la figura siguiente, la probabilidad de que un embarque seleccionado al azar tenga un peso neto entre 3,000 y 4,000 kilogramos es igual a la proporción del área total bajo la curva que se encuentra en el área sombreada. Es decir, se define que el área total bajo la función de densidad de probabilidad es igual a 1, y puede determinarse la proporción de esta área que se encuentra entre dos puntos determinados aplicando el método de la integración (del cálculo diferencial e integral) junto con la función matemática de densidad de probabilidad para esa curva de probabilidad.

    'Estadística descriptiva'

    Existen diversas distribuciones continuas de probabilidad comunes que son aplicables como modelos a una amplia gama de variables continuas en determinadas circunstancias. Existen tablas de probabilidades para esas distribuciones estándar, haciendo que resulte innecesario el método de la integración para determinar las áreas bajo la curva de probabilidad para estas distribuciones. Los modelos comunes de distribuciones de probabilidad continua que se describen son las distribuciones normal y la exponencial.

    LA DISTRIBUCIÓN NORMAL DE PROBABILIDAD

    La distribución normal de probabilidad es una distribución continua de probabilidad que es, al mismo tiempo, simétrica y mesokúrtica (que no es plana ni puntiaguda). Con frecuencia se describe a la curva de probabilidad que representa la distribución normal como una campana como se muestra.

    'Estadística descriptiva'

    La distribución normal de probabilidad es muy importante en inferencia estadística por tres razones principales:

  • Se sabe que las mediciones que se obtienen en muchos procesos aleatorios tienen esta clase de distribución.

  • Con frecuencia pueden utilizarse las probabilidades normales para aproximar otras distribuciones de probabilidad tales como las distribuciones binomial y Poisson.

  • Las distribuciones de estadísticas como la media muestral y la proporción muestral tienen distribución normal cuando el tamaño de la muestra es grande, sin importar la forma de la distribución de la población de origen.

  • Como se mencionó antes, en el caso de las distribuciones continuas de probabilidad sólo es posible determinar un valor de probabilidad para un intervalo de valores. La altura de la función de densidad, o curva de probabilidad, para un variable con distribución normal está dada por

    1 -[(X-ð)2/2σ2]

    f(X) = -------- e

    2ðσð

    en donde ð es la constante 3.1416, e es la constante 2.7183, ð es la media de la distribución y σ es la desviación estándar de la distribución. Como cualquier combinación distinta de ð y σ genera una distribución normal de probabilidad distinta (todas ellas simétricas y mesokúrticas), las tablas de las probabilidades normales se basan en una distribución específica:

    La distribución normal estándar. Ésta es una distribución normal en la que ð=0 y σ=1. Cualquier valor X de una población con distribución normal puede convertirse a su valor normal estándar equivalente, z, mediante la fórmula

    X-ð

    z = -----

    σ

    PUNTOS PERCENTILES PARA VARIABLES CON DISTRIBUCIÓN NORMAL

    Puede recordarse que el punto percentil 90 es el punto de la distribución tal que el 90% de los valores se encuentran por debajo de él y el 10% por encima. Para la distribución normal estándar, es el valor de z tal que la proporción total de área a la izquierda de ese valor, bajo la curva normal, es 0.90.

    EJEMPLO

    En la siguiente figura se ilustra la posición del punto percentil 90 para la distribución normal estándar. Para determinar el valor requerido de z, se utiliza la tabla correspondiente en el sentido contrario al común, porque, en este caso, el área bajo la curva entre la media y el punto de interés es 0.40, tal como se ha especificado, y se desea determinar el valor correspondiente de z. Se busca en el cuerpo de la tabla el valor más cercano a 0.4000. Este valor resulta ser 0.3997. Determinando los encabezados del renglón y de la columna, se encuentra que el valor de z asociado con esta área es 1.28, y por lo tanto, z 0.90 = + 1.28.

    'Estadística descriptiva'

    Dado el procedimiento de este ejemplo, que permite determinar un punto percentil para la distribución normal estándar, puede determinarse un punto percentil para una variable aleatoria con distribución normal convirtiendo el valor pertinente de z al valor que se requiere de X, mediante la fórmula

    X= ð+zσ

    APROXIMACIÓN NORMAL A PROBABILIDADES BINOMIALES

    Cuando el número de observaciones o ensayos n es relativamente grande, puede utilizarse la distribución normal de probabilidad para aproximar las posibilidades binomiales. Una regla conveniente consiste en afirmar que esas aproximaciones son aceptables cuando n ≥ ðð, y tanto np ≥ 5 como nq ≥ 5. Esta regla, en combinación con la que se proporciona con respecto a la aproximación de Poisson a las probabilidades binomiales, significa que en los casos en que n ≥ 30, las probabilidades binomiales pueden aproximarse, ya sea mediante la distribución normal o la de Poisson, dependiendo de los valores np y nq. Algunos otros textos pueden utilizar reglas un tanto distintas para determinar los casos en los que esas aproximaciones son apropiadas.

    Cuando se utiliza la distribución normal de probabilidad como base para aproximar un valor binomial de probabilidad, la media y la desviación estándar se basan en un valor esperado y la varianza del número de éxitos de la distribución binomial, el número promedio de “éxitos” es

    ð = np

    La desviación estándar del número de “éxitos” es

    σ = npq

    APROXIMACIÓN NORMAL A PROBABILIDADES DE POISSON

    Cuando la media ð de una distribución Poisson es relativamente grande, puede utilizarse la distribución normal de probabilidad para aproximar probabilidades tipo Poisson. Una regla práctica consiste en afirmar que esa aproximación es aceptable cuando ð ≥10.0.

    La media y la desviación están dar de la distribución normal de probabilidad se basan en el valor esperado y la varianza del número de eventos de un proceso Poisson. Esta media es

    ð = ð

    La desviación estándar es

    σ = ð

    PRUEBA DE HIPÓTESIS SOBRE LA MEDIA DE UNA POBLACIÓN.

    ETAPAS BÁSICAS EN PRUEBAS DE HIPÓTESIS

    Al realizar pruebas de hipótesis. se parte de un valor supuesto (hipotético) de un parámetro poblacional. Después de recolectar una muestra aleatoria, se compara la estadística muestral, así como la media (X), con el parámetro hipotético, se compara con una supuesta media poblacional (ð). Después. se acepta o se rechaza el valor hipotético, según proceda, se rechaza el valor hipotético sólo si el resultado muestral resulta muy poco probable cuando la hipótesis es cierta.

    Etapa 1: Plantear la hipótesis nula y la hipótesis alternativa. La hipótesis nula (H0) es el valor hipotético del parámetro que se compara con el resultado muestral. Se rechaza sólo si el resultado muestral es muy poco probable en el caso de que la hipótesis sea cierta. Se acepta la hipótesis alternativa (H1) sólo si se rechaza la hipótesis nula.

    EJEMPLO.

    Un auditor desea probar el supuesto de que el valor promedio de todas las cuentas por cobrar en un empresa determinada es $260,000, tomando una muestra de n=36 y calculando la media muestral. Desea rechazar el valor del supuesto de $260,000 sólo si la media muestral lo contradice en forma clara, por lo que debe “darse el beneficio de la duda” al valor hipotético en el procedimiento de prueba. Las hipótesis nula y alternativa para esta prueba son H0: ð = $ 260,000 H1: ðð260,000.

    Etapa 2: Especificar el nivel de significancia que se va a utilizar. El nivel de significancia es el estándar estadístico que se especifica para rechazar la hipótesis nula. Si se especifica un nivel de significancia del 5%, entonces se rechaza la hipótesis nula solamente si el resultado muestral es tan diferente del valor hipotético que una diferencia de esa magnitud o mayor, pudiera ocurrir aleatoriamente con una probabilidad de 0.05 o menos.

    Debe observarse que si se utiliza el nivel de significancia del 5%, existe una probabilidad del 0.05 de rechazar la hipótesis nula cuando, de hecho, es cierta. A esto se le denomina error tipo I. La probabilidad del error tipo I es siempre igual al nivel de significancia que se utiliza como criterio para rechazar la hipótesis nula; se le designa mediante la letra griega ð ("alfa") Y, por ello, ð designa el nivel de significancia. Los niveles de significancia que se utilizan con mayor frecuencia en las pruebas de hipótesis son el 5 y el 1%.

    Ocurre un error tipo II si se acepta la hipótesis nula cuando, de hecho, es falsa. En la siguiente Tabla se resumen los tipos de decisiones y las consecuencias posibles, al realizar pruebas de hipótesis.

    Decisiones posibles

    Situaciones posibles

    La hipótesis nula es verdadera

    La hipótesis nula es

    falsa

    Aceptar la hipótesis nula

    Se acepta correctamente

    Error

    tipo II

    Rechazar la hipótesis nula

    Error

    tipo I

    Se rechaza correctamente

    Etapa 3: Elegir la estadística de prueba. La estadística de prueba puede ser la estadística muestral (el estimador no sesgado del parámetro que se prueba) o una versión transformada de esa estadística muestral. Por ejemplo, para probar el valor hipotético de una media poblacional, se toma la media de una muestra aleatoria de esa población para utilizarla como estadística de prueba. Sin embargo, si la distribución de muestreo de la media tiene distribución normal, entonces es común que se transforme la media muestral en un valor z el cual. a su vez, sirve como estadística de prueba.

    Etapa 4: Establecer el valor o valores críticos de la estadística de prueba. Habiendo especificado la hipótesis nula, el nivel de significancia y la estadística de prueba que se van a utilizar, se procede a establecer el o los valores críticos de estadística de prueba. Puede haber uno o más de esos valores, dependiendo de si se va a realizar una prueba de uno o dos extremos. En cualquier caso, un valor crítico identifica el valor de estadística de prueba que se requiere para rechazar la hipótesis nula.

    Etapa 5: Determinar el valor real de la estadística de prueba. Por ejemplo, al probar un valor hipotético de la media poblacional, se toma una muestra aleatoria y se determina el valor de la media muestral. Si el valor crítico que se establece es un valor de z, entonces se transforma la media muestral en un valor de z.

    Etapa 6: Tomar la decisión. Se compara el valor observado de la estadística muestral con el valor (o valores) críticos de la estadística de prueba. Después, se acepta o se rechaza la hipótesis nula. Si se rechaza ésta, se acepta la alternativa; a su vez, esta decisión tendrá efecto sobre otras decisiones de los administradores operativos, como por ejemplo, mantener o no un estándar de desempeño o cuál de dos estrategias de mercadotecnia utilizar.

    PRUEBA DE UN VALOR HIPOTÉTICO DE LA MEDIA UTILIZANDO LA DISTRIBUCIÓN NORMAL

    Puede utilizarse la distribución normal para probar un valor hipotético de la media poblacional:

  • Cuando n ≥ 30, utilizando teorema del límite central, o

  • Cuando n < 30, pero la distribución de la población es normal y se conoce

  • Se utiliza una prueba de dos extremos cuando lo que interesa es una posible desviación en cualquier dirección, a partir del valor hipotético de la media. La fórmula que se utiliza para establecer los valores críticos de la media muestra! es similar la que se utiliza para determinar los límites de confianza para estimar la media de una población, excepto que el valor hipotético de la media poblacional ð0 es el punto de referencia, y no la media muestral. Los valores críticos de la media muestral para una prueba de dos extremos, dependiendo de si se conoce σ, son:

    XCR = ð0 ð Zσx

    o XCR = ð0 ð zsx

    EJEMPLO

    Para la hipótesis nula que se planteó en el ejemplo anterior, determine los valores críticos de la media muestral para probar la hipótesis con un nivel de significancia del 5%. Como se sabe que la desviación estándar de las cuentas por cobrar es σ = 43,000, los valores críticos son:

    Hipótesis: H0: ð = $260,000; H1: ð ð $260,000

    Nivel de significancia = ð = 0.05

    Estadística de prueba: X con base en una muestra de n=36, y con una σ = 43,000

    XCR = valores críticos de la media muestral

    XCR = ð0 ð Zσx = 260,000 ð 1.96 σ/ ðn = 260,000 ð 1.96 43,000 / ð36

    = 260,000 ð 1.967166.67 = 266,000 ð 14,046.67 = $245,953.33 y 274,046.67

    Por lo tanto, para rechazar la hipótesis nula, la media muestral debe tener un valor inferior a $245,950 o mayor de $274,050. Así, existen dos regiones de rechazo en el caso de una prueba de dos extremos. Se utilizan los valores de z de ð 1.96 para establecer los límites críticos porque para la distribución normal estándar se tiene 0.05 de proporción del área en los dos extremos (0.025 en cada extremo), lo cual corresponde al valor de ð = 0.05 que se especifica.

    En vez de establecer valores críticos en términos de la media muestral como tal, es común que se especifiquen los valores críticos en las pruebas de hipótesis en términos de valores z. Para el nivel de significancia del 5%, los valores críticos z para una prueba de dos extremos son -1.96 y +1.96, por ejemplo. Cuando se determine el valor de la media muestral, se le transforma en un valor z para que pueda compararse con los valores críticos de z. La fórmula de transformación, dependiendo de si se conoce σ o no, es

    X - ð0

    z = --------

    σx

    X - ð0

    z = -----------

    sx

    ERRORES TIPO I y TIPO II EN PRUEBAS DE HIPÓTESIS

    Analizaremos en forma completa los errores tipo I y tipo II con respecto a las pruebas de un extremo sobre una media hipotética. Sin embargo, los conceptos que se ilustran aquí son aplicables también a otros modelos de pruebas de hipótesis.

    La probabilidad del error tipo I es siempre igual al nivel de significancia que se utiliza al probar hipótesis nulas. Esto es así porque, por definición, la proporción de área en la región de rechazo es igual a la proporción de resultados muestrales que ocurrirían en esa región, cuando la hipótesis es verdadera.

    Por lo general, a la probabilidad del error del tipo II se le designa mediante la letra griega ð ("beta"). La única forma en que se puede determinar es con respecto a un valor especifico incluido dentro del rango de la hipótesis alternativa.

    DETERMINACIÓN DEL TAMAÑO NECESARIO DA LA MUESTRA PARA LAMEDIA

    Antes de extraer la muestra, puede determinarse el tamaño que se requiere especificando (1) el valor hipotético de la media; (2) un valor alternativo especifico para la media, de manera que la diferencia con respecto al valor hipotético resulta considerable; (3) el nivel de significancia que debe utilizarse en la prueba; (4) la probabilidad del error tipo II que se permite; y (5) el valor de la desviación estándar para la población, σð La fórmula para determinar el tamaño mínimo que se requiere para la muestra, a fin de probar un valor hipotético de media con base en la distribución normal es.

    (z0 - z1)2σð

    n =-------------------

    (ðð ð ðð)2

    En z0 es el valor critico de z que se utiliza para el nivel de significación especificado (nivel ðð, en tanto que z1 es el valor de z correspondiente a la probabilidad especificada del error tipo II (nivel ðð. El valor de σ debe ser conocido o estimado de alguna manera. Puede utilizarse la formula anterior para pruebas de uno o dos extremos.

    El único valor que difiere para los dos tipos de prueba es el valor de z0 que se utiliza.

    (Nota: Cuando se está determinando el tamaño mínimo de muestra, siempre se redondean hacia arriba los resultados fraccionarios. Además, si no se conoce σ, o la población no tiene una distribución normal, cualquier tamaño de muestra que se calcule debe aumentarse cuando menos a este valor, porque la fórmula anterior se basa en el uso de la distribución normal.)

    EL MÉTODO DEL VALOR p PARA PROBAR HIPÓTESIS NULAS REFERENTES A UNA MEDIA POBLACIONAL

    Al seguir el método del valor p en vez de comparar el valor observado de un estadístico de prueba con un valor crítico, se determina la probabilidad de ocurrencia del estadístico de prueba, suponiendo que la hipótesis nula es cierta, y se le compara con el nivel de significancia ð. Se rechaza la hipótesis nula si el valor p es inferior al nivel designado ð.

    ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL

    OBJETIVOS Y SUPOSICIONES DEL ANÁLISIS DE REGRESIÓN

    El principal objetivo del análisis de regresión es estimar el valor de una variable aleatoria (la variable dependiente) conociendo el valor de una variable asociada (la variable independiente). La ecuación de regresión es la fórmula algebraica mediante la cual se estima el valor de la variable dependiente.

    El término de análisis de regresión simple indica que se estima el valor de la variable dependiente con base en una independiente, en tanto que el análisis de regresión múltiple se ocupa de la estimación del valor de la variable dependiente con base en dos o más variables independientes.

    Las suposiciones generales en las que se basa el modelo de la regresión que se presenta son: (1) la variable dependiente es una variable aleatoria; (2) las variables dependiente e independiente tienen una relación lineal; y (3) las varianzas de las distribuciones condicionales de la variable dependiente, para diversos valores de la variable independiente, son iguales (homoscedasticidad). La primera suposición indica que, aunque puedan controlarse los valores de la variable independiente, los valores de la variable dependiente se deben obtener a través del proceso de muestreo.

    Si se utiliza la estimación por intervalos en el análisis de regresión, se requiere una suposición adicional: (4) las distribuciones condicionales de la variable dependiente, para valores diferentes de la variable dependiente, son todas distribuciones normales para la población de valores.

    EJEMPLO

    Un analista desea estimar el tiempo de entrega de refacciones industriales embarcadas por camión. Desea utilizar el tiempo de entrega como variable dependiente y la distancia como variable independiente. Suponga que elige diez embarques recientes de los registros de la compañía, de manera que las distancias por carretera correspondientes están más o menos equitativamente dispersas entre 100 y 1,000 kilómetros de distancia, y registra el tiempo de entrega para cada embarque. Como se va a utilizar la distancia por carretera como variable independiente, esa selección de viajes con distancias específicas resulta aceptable. Por otro lado, la variable dependiente (el tiempo de entrega) es una variable aleatoria en su estudio, lo cual se ajusta a los supuestos del análisis de regresión. El que las variables tengan o no una relación lineal, por lo general se determina construyendo un diagrama de dispersión o una gráfica de residuales. Estos diagramas se utilizan también para observar si la dispersión vertical (varianza) es más o menos igual a lo largo de la línea de regresión.

    DIAGRAMA DE DISPERSIÓN

    Un diagrama de dispersión es una gráfica en la que se traza cada uno de los puntos que representan un par de valores observados para las variables independiente y dependiente. El valor de la variable independiente se grafica con respecto al eje horizontal, y el valor de la variable dependiente y se traza con respecto al eje vertical.

    La forma de la relación representada mediante el diagrama de dispersión puede ser curvilínea y no lineal. Para relaciones que no son lineales, un enfoque utilizado con frecuencia consiste en determinar algún método para transformar los valores de una o ambas variables, de manera que la relación de los valores transformados sí sea lineal. Después, puede aplicarse el análisis de regresión a los valores transformados y pueden transformarse los valores estimados de la variable dependiente, de vuelta a la escala original de medición.

    EL MÉTODO DE MÍNIMOS CUADRADOS PARA AJUSTAR UNA LÍNEA DE REGRESIÓN

    El modelo lineal que representa el modelo de regresión lineal simple es:

    Yi = ð0 + ððXi + ði

    en donde

    Yi - Valor de la variable dependiente en el i-ésimo ensayo u observación.

    ðð - Primer parámetro de la ecuación de regresión, que indica el valor de Y cuando X= 0.

    ðð - Segundo parámetro de la ecuación de regresión, que indica la pendiente de la línea de regresión.

    Xi - El valor especificado de la variable independiente en el i-ésimo ensayo, u observación.

    ði - Error aleatorio de muestreo en el i-ésimo ensayo, u observación (E es el griego "épsilon")

    RESIDUALES Y GRÁFICAS DE RESIDUALES

    Para un valor X dado de la variable independiente. al valor y frecuentemente se le denomina el valor ajustado de la variable dependiente. A la diferencia entre el valor observado y y el valor ajustado y se le denomina residual para esa observación, y se le denota mediante e:

    e = Y- y

    EL ERROR ESTÁNDAR DEL ESTIMADOR

    El error estándar del estimador es la desviación estándar condicional de la variable dependiente Y, dado un valor de la variable independiente X. Para datos poblacionales, el error estándar del estimador se representa mediante el símbolo σ Y.X. La formula de desviaciones que permite estimar este valor con base en datos muestrales es

    (ðY- y)2 ðe2

    SY.X = -------------- = ----------

    n-2 n-2

    INFERENCIAS SOBRE LA PENDIENTE

    Antes de utilizar la ecuación de regresión para realizar estimaciones o predicciones, debe determinarse en primer lugar si, de hecho, existe una relación entre las dos variables de la población o, por otro lado, si pudiera ser que la relación que se observa en la muestra haya ocurrido por azar. Si no existe relación en la población, la pendiente de la línea de regresión poblacional sería cero, por definición: ð1 = 0. Por ello, la hipótesis que generalmente se prueba es H0: ð1= 0. También puede plantearse la hipótesis nula, como prueba con un criterio de calificación, en cuyo caso la hipótesis alternativa no es simplemente que las dos variables están relacionadas, sino que la relación es de algún tipo específico (directa o inversa).

    Se prueba el valor hipotético de una pendiente calculando la estadística t y utilizando n -2 grados de libertad. Se pierden dos grados de libertad en el proceso de la inferencia porque se incluyen en el análisis de regresión dos estimaciones de parámetros, b0 y b1. La fórmula general es

    b1 - (ð1)0

    t = --------------

    sb1

    en donde

    SY.X

    Sb1 = -----------------

    S X2 - nX2

    Sin embargo, cuando la hipótesis nula dice que la pendiente es cero, lo cual generalmente es el caso, se simplifica la fórmula y se plantea de la siguiente manera:

    b1

    t = ---------

    s b1

    EL COEFICIENTE DE CORRELACIÓN

    Aunque el coeficiente de determinación es relativamente fácil de interpretar, no se prueba muy bien en pruebas estadísticas. Sin embargo, la raíz cuadrada del coeficiente de determinación, que se denomina el coeficiente de correlación r sí se presta para las pruebas estadísticas, porque puede utilizarse para definir una estadística de prueba que tiene distribución t cuando la correlación en la población p es igual a 0. El valor del coeficiente puede variar de -1.00 a +1.00. El signo aritmético asociado con el coeficiente de correlación, que es siempre igual al signo de ð1 de la ecuación de regresión, indica la dirección de la relación entre X y Y (positiva = directa; negativa = inversa). El coeficiente de correlación poblacional, teniendo el mismo signo aritmético que ð1 de la ecuación de regresión es:

    p = p2

    El coeficiente de correlación muestral es

    r = r2

    En resumen, el signo del coeficiente de correlación indica la dirección de la relación entre las variables X y Y, en tanto que el valor absoluto del coeficiente muestra la medida de la relación. El coeficiente de correlación elevado al cuadrado es el coeficiente de determinación e indica la proporción de la varianza de Y que queda explicada por el conocimiento de X (y viceversa).

    SIGNIFICACIÓN DEL COEFICIENTE DE CORRELACIÓN

    Es común que la hipótesis nula de interés sea que la correlación en la población p = 0, porque si se rechaza esta hipótesis a un nivel especificado ð, se concluiría que existe una relación real entre las variables. También puede plantearse la hipótesis como prueba con un criterio de calificación. Considerando que se satisfacen las suposiciones, la siguiente estadística muestral que incluye a r se distribuye como la distribución t, con gl = n -2, cuando p =0:

    r

    t = ------------

    1-r2

    n-2

    Probar la hipótesis nula de que p = 0 es equivalente a probar la hipótesis nula de que ð = 0 en la ecuación de regresión.

    B I B L I O G R A F Í A

    Mendenhall/Reinmuthata,

    “Estadística aplicada a Administración y Economía”

    Editorial Iberoamerica

    Kazmier, Leonard y Díaz Mata, Alfredo

    “Estadística aplicada a Administración y Economía”

    2ª. Edición.

    Editorial McGraw-Hill.

    Robert Johnson

    “Estadística elemental”

    Editorial Iberoamerica

    Pagina de internet

    www. yahoo.com.mx

    'Estadística descriptiva'

    'Estadística descriptiva'

    Vídeos relacionados