Estadística


Regresión y correlación


Regresión y Correlación

La regresión y la correlación son dos técnicas estrechamente relacionadas y comprenden una forma de estimación.

En forma más especifica el análisis de correlación y regresión comprende el análisis de los datos muestrales para saber que es y como se relacionan entre si dos o mas variables en una población. El análisis de correlación produce un número que resume el grado de la correlación entre dos variables; y el análisis de regresión da lugar a una ecuación matemática que describe dicha relación.

El análisis de correlación generalmente resulta útil para un trabajo de exploración cuando un investigador o analista trata de determinar que variables son potenciales importantes, el interés radica básicamente en la fuerza de la relación. La correlación mide la fuerza de una entre variables; la regresión da lugar a una ecuación que describe dicha relación en términos matemáticos

Los datos necesarios para análisis de regresión y correlación provienen de observaciones de variables relacionadas.

Regresión lineal

La regresión lineal simple comprende el intento de desarrollar una línea recta o ecuación matemática lineal que describe la reacción entre dos variables.

La regresión puede utilizadas de diversas formas. Se emplean en situaciones en la que las dos variables miden aproximadamente lo mismo, pero en las que una variable es relativamente costosa, o, por el contrario, es poco interesante trabajar con ella, mientras que con la otra variable no ocurre lo mismo.

La finalidad de una ecuación de regresión seria estimar los valores de una variable con base en los valores conocidos de la otra.

Otra forma de emplear una ecuación de regresión es para explicar los valores de una variable en término de otra. Es decir se puede intuir una relación de causa y efecto entre dos variables. El análisis de regresión únicamente indica qué relación matemática podría haber, de existir una. Ni con regresión ni con la correlación se pude establecer si una variable tiene “causa “ciertos valores de otra variable.

Ecuación Lineal

Dos características importantes de una ecuación lineal

  • la independencia de la recta

  • la localización de la recta en algún punto. Una ecuación lineal tiene la forma

  • y = a + bx

    En la que a y b son valores que se determina a partir de los datos de la muestra; a indica la altura de la recta en x= 0, y b señala su pendiente. La variable y es la que se habrá de predecir, y x es la variable predictora.

    Determinación de la ecuación matemática

    En la regresión, los valores de y son predichos a partir de valores de x dados o conocidos. La variable y recibe le nombre variable dependiente y la variable x, el de variable independiente.

    Métodos de mínimos cuadrados

    EL procedimiento mas utilizado por adaptar una recta aun conjunto de punto se le que conoce como método de mínimos cuadrados. La recta resultante presenta 2 característica importantes

  • es nula la suma desviaciones verticales en los puntos a partir de la recta

  • es mínima la suma de los cuadrados de dicha desviaciones

  • 

    (yi - yc)2

    En el cual

    Yi = valor esperado de y

    Yc= valor calculado de y utilizando la ecuación de mínimos cuadrados con el valor correspondientes x para yi

    Los valores de a y b para la recta es Yc = a + bx que minimiza la suma de los cuadrados de la desviación “ecuaciones normales “

    y = na + (x)

    xy= a (x) +b (x2)

    En las que n es el numero de pares de observaciones. Evaluando las cantidades x, y, etc. Se puede resolver estas dos ecuaciones simultáneamente para determinar a b. la ecuaciones puede despejarse. Se obtuvieron dos formulas aun para a y otra para b.

    n(xy)- (x)(y)

    b=

    n(x2)-(x)2

    y - b x

    a=

    n

    Inferencia en el análisis de regresión

    Los supuestos para el análisis de regresión son como:

  • Existen datos de medición para a x y z.

  • la variable dependiente es una variable aleatoria.

  • para cada valor de x, existe una distribución condicional de la qué es de naturaleza normal

  • la desviación estándar de toda las distribuciones condicionales son iguales

  • EL error estándar de estimación

    La determinante primaria de la exactitud es el grado de dispersión de la población: cuanto mas dispersa este, menor será la exactitud de la estimación. El grado de dispersión en la población se puede estimar a partir del grado de dispersión en las observaciones de la muestra con respecto a la línea de regresión calculada, utilizando la formula.

    Se = " (yi -yc)

    n-2

    en la cual:

    yi = cada valor de y

    yc = valor de línea de regresión correspondiente a partir de la ecuación de regresión.

    n = números de observaciones.

    La formula anterior no se utiliza por lo general para cálculos reales, es mas fácil trabajar con la formula simplificada

    Se "y2 - a y - b xy

    n - 2

    Inferencia de acerca de la pendiente de una línea de regresión

    Aun cuando es muy poca o nula relación entre dos variables de aun población, es posible obtener valores maestrales que hacen que parezca que la variables están relacionadas, es importantes probar los resultados tales de caculo, a fin determinar si son significativos (es decir si los parámetros verdaderos no son cero), Si no existe ninguna relación se esperaría obtener aun pendiente cero, se pone a prueba la hipótesis nula contra la hipótesis alternativa.

    La significación del coeficiente de regresión se puede probar comparándolo con su desviación estándar

    t = valor de la muestra - valor esperado

    Desviación estándar

    Análisis de regresión lineal múltiple

    La regresión múltiple comprende tres o más variables. Existe solo una variable dependiente, pero hay dos o mas tipo independiente. Esta operación al desarrollo de una ecuación que se pede utilizar para predecir valore de y, respecto a valores dados de la diferencia variables independientes adicionales es incrementar la capacidad predicativa sobre la de la regresión lineal simple.

    Las técnicas de los mínimos cuadrados se utilizan para obtener ecuaciones de regresión.

    Yc= a +b1x1+b2x2+…bkxk

    a = ordenada en el origen

    b1= pendiente

    k = numero de variables independientes

    Un análisis de regresión simple de dos variable da lugar a la ecuación de una recta, un problema de tres variables produce un plano, y un problema de k variables implica un hiperplano de a

    (k +1) dimensiones.

    Análisis de Correlación

    EL objetivo de un estudio de correlación es determinar la consistencia de una relación entre observaciones por partes. EL termino “correlación “significa relación mutua, ye que indica el grado en el que los valores de una variable se relacionan con los valores de otra. Se considera tres técnicas de correlación uno para datos de medición, otro para datos jerarquizados y el último para clasificaciones nominales.

    Datos Continuos: r de Pearson

    EL grado de relación entre dos variables continuas se resume mediante un coeficiente de correlación que se conoce como “r de Pearson “en honor del gran matemático Kart Pearson, quien ideo este método. Esta técnica es valida mientras si es posible establecer ciertos supuestos bastante estrictos. Tales supuestos son los siguientes:

  • Tanto x como y son variables continuas aleatorias. Es decir, a diferencia del análisis de referencia de regresión, no es aceptable seleccionar ciertos valores de x, y después medir y; tanto y como x deben de variar libremente.

  • La distribución conjunta de frecuencia es normal. Esto recibe el nombre de de distribución normal divariada.

  • Carácter de r

    El coeficiente de relación presenta dos propiedades que establecen la naturaleza de una relación entre dos variables. Una es su signo (+ o -) y la otra, es su magnitud. El signo es igual al de la pendiente de una recta que podría “ajustarse” a los datos si estos se graficaran en un diagrama de dispersión, y la magnitud de r indica cuan cerca esta de la “recta” tales puntos.

    Método practicar para calcular r

    Dado que los cálculos necesarios pueden requerir mucho tiempo especialmente cuando se resta las medias del grupo de cada observación se elevan a cuadrado esas diferencias. Existe una versión, la cual simplifica los cálculos:

    r= n ("xy)-("x)("y) _

    "n("x2)-("x)2 ·"n("y2)("y)2

    Existen 3 formas posibles para obtener el valor de r en el caso de datos de medición: estandarizar cada conjunto y hallar el producto medio, calcular el coeficiente de determinación r2 y obtener su raíz cuadrada como utilizar la formula. Para un conjunto de datos los tres métodos producirán el mismo valor para r no obstante cada método agrega algo a la comprensión del significado del termino “correlación”

    Inferencia acerca del coeficiente de correlación

    Intervalo de confianza para la correlación de la población

    El valor del coeficiente de correlación de la muestra se puede utilizar como un estimado de la correlación verdadera de población  existen varios métodos para obtener un método de confianza para  pero quizás la forma mas directa es usar un diagrama.

    Si se examinan el diagrama se observara que el intervalo de los valores potenciales (no conocidos)  se indica a lo largo de la escala vertical los posibles valores r de la muestra se indica en la escala inferior una serie de curvas representan tamaño de muestras seleccionadas.

    Prueba de significación de r

    Puede ser necesario evaluar una aseveración con respecto al valor de . La forma mas sencilla es obtener un intervalo de confianza para r y observar si el valor propuesto esta incluido en el intervalo de ser así se rechaza a Ho y se acepta la alternativa.

    Datos jerarquizados de: r Spearman

    Es una técnica no paramétrica que utiliza para medir la fuerza de una relación por pares de 2 variables cuando los datos se encuentran en forma jerarquizados. El objeto de calcular un coeficiente de correlación estos ejemplos es determinar el grado en el que dos conjuntos de jerarquización concuerdan o no. Esta técnica también se puede extender a calificaciones u otro tipo de medición si estas se convierten a rangos.

    Las medidas de l grado de concordancia son sol cuadrados de las diferencias entre los dos conjuntos de rangos: si la suma de éstos es pequeña, esto significa que hay acuerdo; si la suma es grande, esto indica lo contrario. EL calculo real de la correlación comprende la formula.

    rsp = 1 - 6"d2

    n(n2 -1)

    En la cual n es el número de observaciones y "d2 es la suma de los cuadrados de la diferencia entre los rangos. El coeficiente de correlación de jerarquía obtenido recibe el nombre de r Spearman. La suma de la diferencia es cero. Esto no sirve como una comprobación útil de los cálculos aunque no es necesaria en la fórmula.

    El procedimiento es como el siguiente:

  • Obtener la diferencia en rango para cada par de observaciones

  • Como comprobaciones, verificar que la diferencias se sumen a 0

  • elevar el cuadrado la diferencias

  • sumar los cuadrados de la diferencia para obtener "d2

  • Calcular rsp

  • Si el valor rsp es pequeño para situaciones en donde n es mayor que 10, la hipótesis nula de rsp = 0 puede ser probada utilizándola la fórmula

    rsp - 0

    t=

    "(1- rsp 2) (n -2)

    Datos nominales: el coeficiente de contingencia

    Cuando ambas variables se miden en escalas nominales ( es decir , categorías ) , el análisis es fácilmente mediante el desarrollo de una tabla de contingencia semejante a la que se utilizo en el análisis de k proporciones ( prueba de ji cuadrada ), el procedimiento en realidad de aun extensión del análisis de una tabla r * k.

    Una medida de relación es calcular el coeficiente de contingencia en C, donde

    x2

    C=

    X2 + N

    Un aspecto interesante de una tabla ji cuadrada es que l tamaño máximo posible de x2 es función de N, de las observaciones y del tamaño de la tabla.

    En le caso de tabla con los valores cuadrado, esto lleva obtener un valor máximo de C de

    K - 1

    C max =

    k

    En el cual k es el número de fila o columnas. La comprar C con C max se pude obtener una idea de la intensidad de la asociación entre la variables.

    Esta es una relación moderada, no muy intensa. Su interpretación exacta en parte de la naturaleza de los datos y de los resultados comparables que se obtengan de otros estudios, por lo que es difícil establecer valores definitivos dé intensidades.

    Se bebe observar que la formula no fórmula no produce automáticamente el signo del coeficiente de contingencia. DE ahí que no siempre resulte evidente el existe aun relación positiva o negativa.

    Ventajas:

  • Nos e requiere de supuestos con respectos a la formula de población

  • Solamente se necesita una medición nominal ( categorías)

  • Limitaciones

  • El limite superior de C es menor que 1.00 incluso Para un correlación perfecta.

  • El límite superior depende del tamaño de la tabla, por lo que no son comparables los coeficientes de contingencia de tablas de tamaño diferente

  • El coeficiente de contingencia no es directamente comprable con otras medidas de correlación, como la r de Pearson y la r de Spearman, o incluso con otras tablas de contingencia de tamaño diferente.

  • Cada casilla deberá tener una frecuencia esperada por lo menos 5.

  • C max solamente se puede calcular a partir de tabla de valores al cuadrado

  • EJERCICIOS PAG. 411

    1.- Cual es la ecuación de una recta con las siguientes características?

  • pendiente 10.2 y ordenada en el origen 5.0.

  • Yc=5 + 10.2x.

  • pendiente 55 y ordenada en el origen 0.

  • Yc=55x.

  • Pendiente 27 y ordenada en el origen -2.

  • Yc=-2 + 27x.

  • Pendiente -13 y ordenada en el origen 200.

  • Yc=200 - 13x.

  • Pendiente 0 y ordenada en el origen 2.4.

  • Yc=2.4

    2.- Calcule los valores de a y b en la ecuación lineal yc =a+bx apartir de las gráficas de la fig. 14.4.

    Yc= 6+(7.5/500)x Yc=-1 +(12/4)x

    EJERCICIOS PAG. 416

    1.- Suponga que una cadena de supermercados financia un estudio sobre los gastos anuales en comestibles de familias de cuatro miembros. La investigación se limitó a familias con ingresos netos que van de $ 8,000 a $ 20,000 dólares. Se obtuvo la siguiente ecuación:

    yc =-200 + .10x

    y = gastos anuales estimados

    x = ingresos netos anuales

  • Estime los gastos de una familia de cuatro miembros con un ingreso anual de $15,000.

  • Como queremos estimar el gasto anual, se sustituye el valor de los ingresos(x) en la ecuación y queda así:

    Yc = -200 + .10(15,000)

    Yc = -200 + 1500

    Yc= 1300

  • Uno de los vicepresidentes se preocupa por el hecho de que aparentemente la ecuación indica que una familia con ingreso de $2,000 no gastaría nada en alimentos. ¿Cuál sería su respuesta?

  • La respuesta es que no tiene de que preocuparse ya que el gasto está estimado para familias con ingresos de 8000 a 20000 dlls.

  • Explique porqué no se podría utilizar en los siguientes casos:

  • 1) estimación en los gastos de familias de cinco miembros.

    No es posible ya que la ecuación está calculada para una familia de cuatro miembros.

    2) estimación en los gastos de familias cuyos ingresos netos van de $20,000 a $35,000.

    No se puede porque la formula se calculo para sueldos menores o iguales a 20,000.

    d. Grafique la ecuación.

    2.- Un bufete de ingenieros consultores ha establecido la siguiente relación con respecto al rendimiento por galón de automóviles estadounidenses de 6 cilindros, cuyo peso varía de 1500 a 3000 libras:

    yc=30 - 0.002x

    y=rendimiento millas/galón

    x=peso del vehículo

  • Represente esta relación con una gráfica y marque los ejes.

  • Estime el consumo de gasolina X milla para un auto de peso:

  • Sustituimos en la formula:

    1)2000 lb yc=30 - 0.002(2000)=26

    2)1500 lb yc=30 - 0.002(1500)=27

    3)2500 lb yc=30 - 0.002(2500)=25

    3.- Emplee los siguientes valores de resumen para determinar las ecuaciones de regresión:

    a. "x=200, "y=300, "xy=6200, "x2=3600, n=20.

    b= 20(6200)-(200)(300)

    20(3600)-(200)2

    b= 2

    a=300-b(200)

    20

    a=-5

    Yc = -5 +2x

    b. "x=7.2, "y=37, "xy=3100, "x2=620, n=36.

    b= 36(3100)-(7.2)(37)

    36(620)-(7.2)2

    b= 5

    a=37-b(7.2)

    36

    a=.028

    Yc = 5 +.028x

    c. "x=700, "y=-250, "xy=-1400, "x2=21000, n=30.

    b= 30(-1400)-(700)(-250)

    30(21000)-(700)2

    b= .95

    a=-250-b(700)

    30

    a=-30.5

    Yc = -30.5 +.95x

    d. "x=33, "y=207, "xy=525, "x2=750, n=40.

    b= 40(525)-(33)(207)

    40(750)-(33)2

    b= .49

    a=207-b(33)

    40

    a=4.77

    Yc = 4.77 +x

    4.- En el caso de cada conjunto represente estos en una gráfica y si parece apropiada una ecuación lineal, determine los coeficientes a y b a partir de los mismos.

    a.

    Tamaño

    Costo total

    x

    y

    20

    3500

    22

    3000

    25

    2000

    30

    1600

    40

    1000

    45

    800

    50

    900

    55

    950

    60

    1100

    63

    1300

    70

    1500

    Los datos siguen una tendencia polinomial.

    b.

    Ventas

    Ingresos

    x

    y

    150

    15

    201

    17

    225

    20

    305

    21

    370

    19

    380

    23

    450

    21

    510

    22

    560

    25

    600

    24

    685

    27

    725

    30

    735

    27

    "x=5896, "y=291, "xy=141502, "x2=3159126, n=13.

    Como parece apropiada una ecuación lineal, se determinan los coeficientes a y b con la formula:

    b= 13(141502)-(5896)(291)

    13(3159126)-(5896)2

    b=.2

    a=291-b(5896)

    13

    a=13.48

    Yc = 13.48+.2x

    5.- Determine una ecuación que describa la relación entre la frecuencia de accidentes y el nivel de educación preventiva

    X

    Y

    XY

    X2

    150

    8.00

    1200

    22500

    200

    7.00

    1400

    40000

    300

    6.50

    1950

    90000

    450

    5.20

    2340

    202500

    500

    6.40

    3200

    250000

    600

    4.40

    2640

    360000

    800

    4.00

    3200

    640000

    900

    3.10

    2790

    810000

    3900

    44.60

    18720

    2415000

    n=8

    Para encontrar la ecuación se sustituyen los valores en la formula:

    b= 8(18720)-(3900)(44.6)

    8(18720)-(3900)2

    b=.006

    a=44.6-b(3900)

    8

    a=8.44

    Yc = 8.44+.006x

    6.- Una compañía que tiene 15 tiendas ha recopilado datos en relación con los metros cuadrados de area de ventas respecto a los ingresos mensuales. Trace una gráfica de los datos, y si parece apropiado un modelo lineal determine la ecuación de regresión.

    Tienda

    Metros 2

    Ingreso

     

    X

    Y

    XY

    X2

    a

    55

    45

    2475

    3025

    o

    80

    60

    4800

    6400

    j

    85

    75

    6375

    7225

    e

    90

    75

    6750

    8100

    k

    90

    80

    7200

    8100

    d

    110

    95

    10450

    12100

    n

    130

    95

    12350

    16900

    g

    140

    110

    15400

    19600

    c

    180

    120

    21600

    32400

    l

    180

    105

    18900

    32400

    b

    200

    115

    23000

    40000

    i

    200

    130

    26000

    40000

    h

    215

    140

    30100

    46225

    f

    260

    170

    44200

    67600

    m

    300

    200

    60000

    90000

    15

    2315

    1615

    289600

    430075

    }Los datos serían:

    "x=2315, "y=1615, "xy=289600, "x2=430075, n=15.

    Y se sustituyen los valores en la formula:

    b= 15(289600)-(2315)(1615)

    15(430075)-(2315)2

    b=.5543

    a=1615-b(2315)

    15

    a=22.11

    Yc = 22.11+.5543x

    Y la grafica sería:

    7.- Vuelva a resolver el ejercicio 5 utilizando accidentes como x y nivel horas instrucción. Como y compare la ecuación obtenida con la anterior.

    Determine una ecuación que describa la relación entre la frecuencia de accidentes y el nivel de educación preventiva

    Accidentes

    horas

    X

    Y

    XY

    X2

    3.10

    900

    2790

    9.61

    4.00

    800

    3200

    16

    4.40

    600

    2640

    19.36

    5.20

    450

    2340

    27.04

    6.40

    500

    3200

    40.96

    6.50

    300

    1950

    42.25

    7.00

    200

    1400

    49

    8.00

    150

    1200

    64

    44.60

    3900.00

    18720

    268.22

    n=8

    Para encontrar la ecuación se sustituyen los valores en la formula:

    b= 8(18720)-(44.6)(3900)

    8(268.22)-(44.6)2

    b=-154.4

    a=3900-b(44.6)

    8

    a=1348

    Yc = 1348-154.4x

    8.- Teniendo:

    X 1 2 3 4 5 6 7 28

    Y 2 4 5 6 7 7 9 40

    Utilice los datos para:

    a. Calcular los coeficientes a y b de la ecuación.

    X

    Y

    XY

    X2

    1

    2

    2

    1

    2

    4

    8

    4

    3

    5

    15

    9

    4

    6

    24

    16

    5

    7

    35

    25

    6

    7

    42

    36

    7

    9

    63

    49

    28

    40

    189

    140

    b= 7(189)- (28)(40)

    7(140)-(28)2

    b=1.036

    a= 40-b(28)

    7

    a=1.57

    Yc = 1.57+1.036x

    b. Duplicar cada valor de x y volver a calcular los coeficientes.

    X

    Y

    XY

    X2

    2

    2

    4

    4

    4

    4

    16

    16

    6

    5

    30

    36

    8

    6

    48

    64

    10

    7

    70

    100

    12

    7

    84

    144

    14

    9

    126

    196

    56

    40

    378

    560

    b= 7(378)-(56)(40)

    7(560)-(56)2

    b=.52

    a= 40-b(56)

    7

    a=1.57

    Yc = 1.57+.52x

    c. Duplicar el valor original de x,y para evaluar de nuevo los coeficientes.

    X

    Y

    XY

    X2

    2

    4

    8

    4

    4

    8

    32

    16

    6

    10

    60

    36

    8

    12

    96

    64

    10

    14

    140

    100

    12

    14

    168

    144

    14

    18

    252

    196

    56

    80

    756

    560

    b= 7(756)-(56)(80)

    7(560)-(56)2

    b=1.036

    a= 80-b(56)

    7

    a=3.14

    Yc = 3.14+1.036x

    d. Utilizar el valor original de x, pero agregando 2 a cada valor original de y, y recalcular la ecuación de regresión.

    X

    Y

    XY

    X2

    1

    4

    4

    1

    2

    6

    12

    4

    3

    7

    21

    9

    4

    8

    32

    16

    5

    9

    45

    25

    6

    9

    54

    36

    7

    11

    77

    49

    28

    54

    245

    140

    b= 7(245)-(28)(54)

    7(140)-(28)2

    b=1.036

    a= 54-b(28)

    7

    a=3.57

    Yc = 1.57+1.036x

    9.- Determine una ecuación predictiva para calcular el monto del seguro, en función del ingreso anual para los siguientes datos:

    Ingreso

    Prima

    X

    Y

    XY

    X2

    13

    5

    65

    169

    16

    15

    240

    256

    17

    20

    340

    289

    18

    10

    180

    324

    20

    10

    200

    400

    25

    12

    300

    625

    26

    15

    390

    676

    32

    30

    960

    1024

    38

    40

    1520

    1444

    40

    50

    2000

    1600

    42

    40

    1680

    1764

    287

    247

    7875

    8571

    b= 11(7875)-(287)(247)

    11(8571)-(287)2

    b=1.321

    a= 247-b(287)

    11

    a=-12.01

    Yc = -12.01+1.321x

    EJERCICIOS PAGINA 435

    1.- Determine qué pendientes para los siguientes datos son significativas al nivel 0.05. Utilice n-2 grados de libertad.

    a) DATOS

    b= 4

    Sb=1

    n=12

    Solución:

    n-2= 12-2= 10

    tprueba= (b-0)/ Sb = (4-0)/1= 4

    .025

    =.05/2= .025

    10 Tt= 2.228

    Usando:

    b - tSb " B " b + tSb

    4-(2.228)(1) " 0 " 4+(2.228)(1)

    ! !

    1.772 " 0 " 6.228

    :. Es significativo

    b) DATOS

    b= -0.15

    Sb=0.10

    n= 20

    Solución:

    n-2= 20-2= 18

    Tprueba= (-.015-0)/.10 = -1.5

    .025

    =.05/2= .025

    • 2.101

    Usando:

    b - tSb " B " b + tSb

    -0.15-(2.101)(.10) " 0 " -0.15+(2.101)(.10)

    ! !

    -0.3601 " 0 " 0.06

    :. Se Acepta Ho

  • DATOS

  • b= 1.2

    Sb=0.6

    n= 25

    Solución:

    n-2= 25-2= 23

    Tprueba= (1.2-0)/0.6 = 2

    .025

    =.05/2= .025

    • 2.069

    Usando:

    b - tSb " B " b + tSb

    1.2-(2.069)(0.6) " 0 " 1.2+(2.069)(0.6)

    ! !

    -0.027 " 0 " 2.427

    :. Se Acepta Ho

  • DATOS

  • b= 0.6

    Sb=0.2

    n= 31

    Solución:

    n-2= 31-2= 29

    Tprueba= (0.6-0)/0.2 = 3

    .025

    =.05/2= .025

    29 2.045

    Usando:

    b - tSb " B " b + tSb

    0.6-(2..045)(0.2) " 0 " 0.6+(2.045)(0.2)

    ! !

    0.191 " 0 " 1.009

    :. Es significativo

    e) DATOS

    b= -212

    Sb=38

    n= 50

    Solución:

    n>32 z

    Tprueba= (-212-0)/38 = -5.57

    .06

    = .5-.025= .475

    1.9 .475

    Usando:

    b - tSb " B " b + tSb

    -212-(1.96)(38) " 0 " -212+(1.96)(38)

    ! !

    -286.48 " 0 " -137.52

    :. Es significativo

    f) DATOS

    b= .015

    Sb=0.001

    n= 100

    Solución:

    n>32 z

    Tprueba= (.015-0)/0.001 = 15

    0.06

    =0.5-.025= 0.195

    1.9 .475

    Usando:

    b-tSb " B " b+tSb

    0.015-(1.96)(.001) " 0 " 0.015+(1.96)(.001)

    ! !

    0.013 " 0 " 0.013

    :. Se Acepta Ho

    2.- Determine intervalos de confianza de 99% para cada uno de estos coeficientes de regresión, e indique qué pendientes son significativas.

  • DATOS

  • b= 8.2

    Sb= 4.1

    n= 50

    .495 .495

    z=2.58

    b - tSb " B " b + tSb

    8.2-(2.58)(4.1) " 0 " 8.2+(2.58)(4.1)

    -2.37 a 18.77

    :. No significativo

  • DATOS

  • b= .13

    Sb= .04 .495 .495

    n= 30

    n-2= 30-2=28

    = 0.5-.495=.005

    .005

    28 t= 2.763

    b ± tSb

    .13 ± (2.763)(.04)

    0.02 a 0.2405

    :. Significativo

  • DATOS

  • b= 5.213

    Sb= 1.50 .495 .495

    n= 20

    n-2= 20-2=18

    2.87

    b ± tSb

    5.212 ± (2.87)(1.50)

    0.908 a 9.518

    :. Significativo

  • DATOS

  • b= 145

    Sb= 40 .495 .495

    n= 60

    z= 2.58

    b ± tSb

    145 ± (2.58)(40)

    41.8 a 248.2

    :. Significativo

  • DATOS

  • b= -7.1

    Sb= 3.0 .495 .495

    n= 9

    n-2= 9-2= 7

    .005

    7 3.499

    b ± tSb

    -7.1 ± (3.499)(3.0)

    -17.59 a 3.39

    :. No Significativo

    3.- Utilizando los siguientes datos:

    a) Calcular la ecuación de regresión

    b) Calcular Se y después Sb.

    Determinar si b es significativo, utilizando un intervalo de confianza con =0.05.

    Calificaciones

    1ª. Prueba

    2ª. Prueba

    A

    80

    78

    B

    95

    90

    C

    88

    85

    D

    98

    98

    E

    94

    90

    F

    74

    76

    G

    81

    80

    H

    86

    78

    I

    90

    89

    J

    69

    62

    Totales

    855

    826

    y2=69,138

    xy=71434

    x2=73903


  • Ecuación de Regresión:

  • Yc= a + bx

    b= n(xy) -(x)( y)= 10 (71,434)- (855)(826) = 1.013

    n(x2)-( x)2 10(73903)-(855)2

    a= y -bx= 826-(1.013)(855)= -4.02

    n 10

    Yc= -4.02 + 1.013x

    b) Calculo de Se y Sb

    Se= y2 - ay - bxy = 69,138 - (-4.02)(826)-( 1.013)( 71434) =3.330

    n-2 10-2

    Sb= Se 1 _ =( 3.330) 1 _= 0.118

    x2- [(x)2/n] 73903 - [(855)2/10]

  • =0.05

  • 0.025 b ± t Sb

    1.013 ± (2.262)(.118)

    0.746 a 1.28

    8 2.262

    :. Significativo

    4.- Diga que ecuación escribiría los datos del ejercicio anterior, si la segunda calificación del examen en cada caso es exactamente igual a la primera.

    b= n(xy) -(x)( y)= 10 (73903)- (855)(855) = 1

    n(x2)-( x)2 10(73903)-(855)2

    a= y -bx= 855-(1)(855)= 0

    n 10

    Yc= 1x

    5.- Calcule r2 utilizando los datos del ejercicio 8, página 418.

    x

    y

    1

    2

    2

    4

    3

    5

    4

    6

    5

    7

    6

    7

    7

    9

    28

    40

    y2= 260

    xy= 189

    x2= 140

    b= n(xy) -(x)( y)= 7 (189)- (28)( 40) = 1.03

    n(x2)-( x)2 7(140)-( 28)2

    a= y -bx= 40-(1.03)( 28)= 1.57

    n 7

    Se= 260- (1.57)(40)-( 1.03)( 189) =0.309

    5

    Se2= 0.095

    Sy2= n(y2)-(y)2/n =7(260)-(40)2/7= 318.28

    n-2 5

    r2= 1- Se2 = 1- 0.095= 0.999

    Sy2 318.28

    6.- Explique por que el valor r2 nunca puede ser negativo

    Porque r2= 1- Se2 ; y Se2 siempre debe ser menor que Sy2

    Sy2

    7.- Calcule r2 para cada uno de los siguientes casos:

    a

    b

    c

    d

    e

    Se2

    14400

    14400

    2025

    2025

    606

    Sy2

    28800

    57600

    2500

    2200

    6060

    a.- r2= 1- Se2 = 1- 14400 = 0.5

    Sy2 28800

    b.- r2= 1- Se2 = 1- 14400= 0.75

    Sy2 57600

    c.- r2= 1- Se2 = 1- 2025 = 0.19

    Sy2 2500

    d.- r2= 1- Se2 = 1- 2025 = 0.079

    Sy2 2200

    e.- r2= 1- Se2 = 1- 606 = 0.9

    Sy2 6060

    11.- Utilice la siguiente información para los cálculos:

    Yc= 13 + 2x Se= 3 n=10

    x= 40 x2=600

    a) Estime un intervalo de confianza de 95% para el valor promedio (esperado) de y, si xg es:

    Yc ± t(Se (1/n)+( xg-x)2 /{x2-[(x)2/n]})

    DATOS:

  • 1.0

  • n-2= 10-2 = 8

    Yc= 13+2(1) =15

    X= x/n= 40/10= 4.0

    .025

    8 t= 2.306

    SUSTITUYENDO EN LA FORMULA

    15 ± 2.306 (3.0 (1/10)+( 1.0-4.0)2 /{600-[(40)2/10]})

    • ± 2.306 (1.04)

    12.60 a 17.40

    DATOS :

  • 4.0

  • Yc= 13+2(4) = 21

    SUSTITUYENDO EN LA FORMULA

    21 ± 2.306 (3.0 (1/10)+( 4.0-4.0)2 /{600-[(40)2/10]})

    21± 2.306 (0.948)

    18.81 a 23.18

    DATOS :

  • 8.0

  • Yc= 13+2(8) = 29

    SUSTITUYENDO EN LA FORMULA

    29 ± 2.306 (3.0 (1/10)+( 8.0-4.0)2 /{600-[(40)2/10]})

    29 ± 2.306 (1.1078)

    26.44 a 31.55

    b) Obtenga un intervalo de confianza de 95% para un valor individual de y cuando xg es:

    Yc ± t(Se 1+(1/n)+( xg-x)2 /{x2-[(x)2/n]})

    DATOS :

  • 1.0

  • Yc= 15

    SUSTITUYENDO EN LA FORMULA:

    Yc ± t (Se 1+(1/n)+( xg-x)2 /{x2-[(x)2/n]})

    15 ± 2.306 (3.175)

    7.68 a 22.32

    DATOS :

  • 4.0

  • Yc= 21

    SUSTITUYENDO EN LA FORMULA:

    Yc ± t (Se 1+(1/n)+( xg-x)2 /{x2-[(x)2/n]})

    21 ± 2.306 (3.146)

    13.74 a 28.2

    DATOS :

  • 8.0

  • Yc= 29

    SUSTITUYENDO EN LA FORMULA:

    Yc ± t (Se 1+(1/n)+( xg-x)2 /{x2-[(x)2/n]})

    29 ± 2.306 (3.19)

    21.62 a 36.38

    12.- Cuando xg se hace igual a 0, el intervalo de confianza resultante para el valor promedio de y se convierte en el intervalo para la ordenada en el origen a.

    a) Determine un intervalo de confianza de 95% para a en el ejercicio 11.

    DATOS :

  • Xg= 0

  • Yc= 13+2(0) = 13

    SUSTITUYENDO EN LA FORMULA

    13 ± 2.306 (3.0 (1/10)+( 0-4.0)2 /{600-[(40)2/10]})

    13± 2.306 (1.107)

    10.44 a 15.55

  • Obtenga un intervalo de confianza de 95% y uno de 99% para a, respecto al ejemplo de la pagina 413.

  • DATOS:

    N.C=95% = .025

    N.C=99% = .005

    Xg=0

    Yc= 2934 -38.56 (0)= 2934

    n-2=14-2= 12

    x=505

    x2=21825

    X= 505/14= 36.07

    Se=324.55

    .025 .005

    12 2.179 12 3.055

    SUSTITUYENDO EN LA FORMULA

    Para 95%

    2934 ± 2.179(324.55 (1/14)+( 0-36.07)2 /{21825-[(505)2/14]})

    2934± 464.78

    3398.78 a 2469.21

    Para 99%

    2934 ± 3.055(324.55 (1/14)+( 0-36.07)2 /{21825-[(505)2/14]})

    2934± 651.63

    3585.632 a 2282.36

    Pag 439

  • Dada la ecuación de regresión múltiple Yc = -420 + 50X1 + 2.5X2 encuentre Yc para los siguientes casos:

  • a) X1 = 15, X2 = 3000

    Yc = -420 + 50X1 + 2.5X2

    = -420 + 50(15) + 2.5(3000)

    = 7830

    b) X1 = 10, X2 = 2000

    Yc = -420 + 50X1 + 2.5X2

    = -420 + 50(10) + 2.5(2000)

    = 5080

    c) X1 = 20, X2 = 1000

    Yc = -420 + 50X1 + 2.5X2

    = -420 + 50(20) + 2.5(1000)

    = 3080

  • Dada la ecuación de la regresión múltiple Yc =0.40+3X1-2X2-X3, calcule Yc para los siguientes casos:

  • X1 = 1, X2 = 0.5, X3 = 1.4

  • Yc = 0.40 + 3X1 - 2X2 - X3

    = 0.40 + 3(1) - 2(0.5) - (1.4)

    = 1

  • X1 = 0.6,X2 = 0.4, X3 = 2

  • Yc = 0.40 + 3X1 - 2X2 - X3

    = 0.40 + 3(0.6) - 2(0.4) - (2)

    = -0.6

  • X1 = 0, X2 = 0, X3 = 0

  • Yc = 0.40 + 3X1 - 2X2 - X3

    = 0.40 + 3(0) - 2(0) - (0)

    = 0.40

    Pag 448

  • Estandarice cada conjunto de cantidades y calcule el coeficiente de correlación.

  • a)

    X

    Y

    XY

    34

    30

    40

    34

    39

    35

    42

    45

    43

    _

    X = 38

    Sx = 5

    21

    22

    25

    28

    15

    24

    24

    22

    17

    _

    Y = 22

    Sy = 4

    714

    660

    1000

    952

    585

    840

    1008

    990

    731

    7480

    X = 342 Y = 198

    X2 = 13196 Y2 = 4484

    XY = 7480

    r = n (XY) - (X)( Y)

    n (X2) - (X)2 • n (Y2) - (Y)2

    = 9(7480) - (342)(198)

    9(13196) - (342)2 • 9(4484) - (198)2

    = - 396 = 0.275

    (42.42) (33.94)

    b)

    X

    Y

    XY

    3.9

    4.6

    6.0

    2.8

    3.1

    3.4

    4.2

    4.0

    _

    X = 4

    Sx = 1

    46

    46

    52

    50

    48

    40

    42

    44

    _

    Y = 46

    Sy = 4

    179.4

    211.6

    312

    140

    148.8

    136

    176.4

    176

    1480.2

    X = 32 Y = 368

    X2 = 135.02 Y2 = 17040

    XY = 1480.2

    r = n (XY) - (X)( Y)

    n (X2) - (X)2 • n (Y2) - (Y)2

    = 8(1480.2) - (32)(368)

    8(135.02) - (32)2 • 8(17040) - (368)2

    = 65.6 = 0.292

    (7.49) (29.93)

  • Vuelva a calcular r para el ejercicio 1ª, considerando a las x como y, a las y como x. Justifique su respuesta en términos de la fórmula de r.

  • a)

    X

    Y

    XY

    21

    22

    25

    28

    15

    24

    24

    22

    17

    _

    X = 22

    Sx = 4

    34

    30

    40

    34

    39

    35

    42

    45

    43

    _

    Y = 38

    Sy = 5

    714

    660

    1000

    952

    585

    840

    1008

    990

    731

    7480

    X = 198 Y = 342

    X2 = 4484 Y2 = 13196

    XY = 7480

    r = n (XY) - (X)( Y)

    n (X2) - (X)2 • n (Y2) - (Y)2

    = 9(7480) - (198)( 342)

    9(4484) - (198)2 • 9(13196) - (342)2

    = - 396 = 0.275

    (33.94) (42.42)

    b)

    X

    Y

    XY

    46

    46

    52

    50

    48

    40

    42

    44

    _

    X = 46

    Sx = 4

    3.9

    4.6

    6.0

    2.8

    3.1

    3.4

    4.2

    4.0

    _

    Y = 4

    Sy = 1

    179.4

    211.6

    312

    140

    148.8

    136

    176.4

    176

    1480.2

    X = 368 Y = 32

    X2 = 17040 Y2 = 135.02

    XY = 1480.2

    r = n (XY) - (X)( Y)

    n (X2) - (X)2 • n (Y2) - (Y)2

    = 8(1480.2) - (368)(32)

    8(17040) - (368)2 • 8(135.02) - (32)2

    = 65.6 = 0.292

    (29.93) (7.49)

    El valor no se ve alterado.

  • Con base en los datos del ejercicio 1ª.

  • Duplique cada valor de x y vuelva a calcular la media y la desviación estándar de las x.

  • X

    Y

    XY

    68

    60

    80

    68

    78

    70

    84

    90

    86

    _

    X = 76

    Sx = 10

    21

    22

    25

    28

    15

    24

    24

    22

    17

    _

    Y = 22

    Sy = 4

    1428

    1320

    2000

    1904

    1170

    1680

    2016

    1980

    1462

    14960

  • Estandarice los valores de x.

  • X = 684 Y = 198

    X2 = 52784 Y2 = 4484

    XY = 14960

  • Compare estos valores estandarizados con cos obtenidos para las x en el ejercicio 1ª.

  • El resultado es el doble

  • ¿Qué efecto tiene sobre r el duplicar las x?

  • r = n (XY) - (X)( Y)

    n (X2) - (X)2 • n (Y2) - (Y)2

    = 9(14960) - (684)(198)

    9(52784) - (684)2 • 9(4484) - (198)2

    = - 792 = 0.275

    (84.85) (33.94)

    Ninguno

  • Con base en los datos del ejercicio 1:

  • Sume 12 a cada valor de x y reste 2 a cada valor de y.

  • X

    Y

    46

    42

    52

    46

    51

    47

    54

    57

    55

    19

    20

    23

    26

    13

    22

    22

    20

    15

  • Calcule la media y la desviación estándar de cada conjunto, utilizando los valores que se obtuvieron en el a).

  • _ _

    X = 50 Y = 20

    Sx = 5 Sy = 4

  • Estandarice los valores y compárelos con los valores estandarizados que se obtuvieron en el ejemplo 1.

  • XY

    874

    840

    1196

    1196

    663

    1034

    1188

    1140

    825

    8956

  • ¿Qué efecto tiene r el sumar o restar una constante para los valores de x o de y?

  • Ninguno

  • Determine el coeficiente de correlación para los siguientes conjuntos de calificaciones.

  • Alumno

    Primer examen

    Segundo examen

    XY

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    82

    84

    86

    83

    88

    87

    85

    83

    86

    85

    87

    _

    X = 85

    92

    91

    90

    92

    87

    86

    89

    90

    92

    90

    91

    _

    Y = 90

    7544

    7644

    7740

    7636

    7656

    7482

    7565

    7470

    7912

    7560

    7917

    84216

    X = 936 Y = 990

    X2 = 79682 Y2 = 89140

    XY = 84216

    r = n (XY) - (X)( Y)

    n (X2) - (X)2 • n (Y2) - (Y)2

    = 11(84216) - (936)(990)

    11(79682) - (936)2 • 11(89140) - (990)2

    = - 264 = 0.625

    (20.14) (20.97)

  • Dados los siguientes conjuntos, calcule el valor de r:

  • n

    X

    Y

    XY

    X2

    Y2

    a) 25

    b) 50

    c) 100

    60

    15

    -20

    52

    20

    25

    200

    146

    -3.5

    400

    204.5

    5

    592

    400

    12.5

    a) r = n (XY) - (X)( Y)

    n (X2) - (X)2 • n (Y2) - (Y)2

    = 25(200) - (60)(52)

    25(400) - (60)2 • 25(592) - (52)2

    = 1880 = 0.214

    (80) (109.98)

    b) r = n (XY) - (X)( Y)

    n (X2) - (X)2 • n (Y2) - (Y)2

    = 50(146) - (15)(20)

    50(204.5) - (15)2 • 50(400) - (20)2

    = 7000 = 0.500

    (100) (140)

    c) r = n (XY) - (X)( Y)

    n (X2) - (X)2 • n (Y2) - (Y)2

    = 100 (-3.5) - (-20)(25)

    100(5) - (-20)2 • 100(12.5) - (25)2

    = 150 = 0.60

    (10) (25)

  • A continuación se dan las calificaciones de idioma y de matemáticas de los exámenes de admisión de una universidad correspondientes a 7 alumnos.

  • Alumno

    Examen Oral

    Examen de Matemáticas

    1

    2

    3

    4

    5

    6

    7

    420

    450

    410

    360

    320

    440

    400

    550

    600

    520

    400

    410

    425

    475

  • Divida cada calificación entre 100

  • Alumno

    Examen Oral

    Examen de Matemáticas

    XY

    1

    2

    3

    4

    5

    6

    7

    4.2

    4.5

    4.1

    3.6

    3.2

    4.4

    4.0

    5.5

    6.0

    5.2

    4.0

    4.1

    4.25

    4.75

    23.1

    27

    21.32

    14.4

    13.12

    18.7

    19

    136.64

    X = 28 Y = 33.8

    X2 = 113.26 Y2 = 166.725

    XY = 136.64

  • Calcule el coeficiente de correlación

  • r = n (XY) - (X)( Y)

    n (X2) - (X)2 • n (Y2) - (Y)2

    = 7(136.64) - (28)(33.8)

    7(113.26) - (28)2 • 7(166.725) - (33.8)2

    = 10.08 = 0.68

    (2.96) (4.96)

  • Determine el coeficiente de correlación para los datos del siguiente ejercicio:

  • Horas-hombre x mes de instrucción

    Accidentes x millón de horas-hombre

    XY

    200

    500

    450

    800

    900

    150

    300

    600

    7.0

    6.4

    5.2

    4.0

    3.1

    8.0

    6.5

    4.4

    1400

    3200

    2340

    3200

    2790

    1200

    1950

    2640

    18720

    X = 3900 Y = 44.6

    X2 = 241500 Y2 = 268.22

    XY = 18720

    r = n (XY) - (X)( Y)

    n (X2) - (X)2 • n (Y2) - (Y)2

    = 8(18720) - (3900)(44.6)

    8(2415000) - (3900)2 • 8(268.22) - (44.6)2

    = -24180 = 0.95

    (2027.31) (12.51)

  • Dados los siguientes datos sobre delitos por violencia y temperatura promedio entre 9 p.m. y 2 a.m. las tardes de los sábados en una gran comunidad, represente en una gráfica los datos, y calcule el coeficiente de correlación:

  • Delitos/1000 residentes

    Temperatura promedio (°F)

    XY

    5.0

    2.2

    4.1

    5.4

    2.8

    3.0

    3.6

    4.9

    4.1

    4.2

    2.0

    2.7

    3.1

    87

    50

    75

    90

    55

    54

    68

    85

    82

    80

    45

    58

    66

    435

    110

    307.5

    486

    154

    162

    244.8

    416.5

    336.2

    336

    90

    156.6

    204.6

    3439.2

    X = 47.1 Y = 895

    X2 = 184.97 Y2 = 64453

    XY = 3439.2

    r = n (XY) - (X)( Y)

    n (X2) - (X)2 • n (Y2) - (Y)2

    = 13(3439.2) - (47.1)(184.97)

    13(184.97) - (47.1)2 • 13(64453) - (895)2

    = 35997.513 = 0.973

    (13.64) (192)

  • Determine el coeficiente de correlación en lo referente al número de horas estudiadas por 11 alumnos de las calificaciones que obtienen en un examen.

  • Horas de estudio

    Calificación

    XY

    2 ½

    3

    6

    4

    6

    4 ½

    7

    10

    5 ½

    5

    8 ½

    89

    95

    80

    82

    85

    90

    75

    70

    91

    93

    74

    222.5

    285

    480

    328

    510

    405

    525

    700

    500.5

    465

    629

    5050

    X = 62 Y = 924

    X2 = 400 Y2 = 78326

    XY = 5050

    r = n (XY) - (X)( Y)

    n (X2) - (X)2 • n (Y2) - (Y)2

    = 11(5050) - (62)(924)

    11(400) - (62)2 • 11(78326) - (924)2

    = -1738 = 0.834

    (23.57) (88.37)

  • a) Se sorprendería si sus cálculos para un conjunto dado de pares de observaciones produjeran r = +0.9 y b = -0.9. ¿Por qué si o por qué no?

  • R = Si, porque r y b siempre tienen el mismo signo

    b) Dados los siguientes datos, se sorprendería si ambos conjuntos tuvieran una correlación positiva?

    R = No, porque en ambos casos los aumentos en X vienen acompañados por incrementos en Y.

    c) Se sorprendería si ambos produjeran r = +1.00? Explíquelo.

    Conjunto 1

    Conjunto 2

    X Y

    X Y

    1 0

    5 8

    0 1

    10 4

    R = No, porque no se presenta dispersión alrededor de la línea que tiene dos puntos.

  • Para cada una de las siguientes situaciones, establezca si el análisis de correlación o el análisis de regresión serían más apropiados y por qué?

  • Un equipo de investigadores quiere determinar si las calificaciones en la universidad son indicativas de éxito en cierto campo.

  • R = Correlación, porque produce un número que resume el grado de relación entre dos variables.

  • Estime el número de kilómetros que es de esperar que recorra un conjunto de llantas radales antes de que sea necesario sustituirlo.

  • R = Regresión, porque da lugar a una ecuación matemática que describe dicha relación.

  • Prediga cuánto demorará una persona en determinar un trabajo con base en el número de semanas de entrenamiento.

  • R = Regresión, porque da lugar a una ecuación matemática que describe dicha relación.

  • Determine si el número de semanas que se pasaron en un curso de adiestramiento, es una variable importante en el tiempo que toma realizar un trabajo.

  • R = Correlación, el investigador o analista trata de determinar qué variables son potencialmente importantes, y el interés radica básicamente en la fuerza de la relación.

  • El administrador de una tienda quiere estimar las ventas semanales, basándose en las ventas de lunes y martes.

  • R = Regresión, porque da lugar a una ecuación matemática que describe dicha relación.

    EJERCICIOS PAGINA 454

    1.- Para cada coeficiente de correlación de una muestra, obtenga un intervalo de confianza de 95% utilizando la fig. 14.22 respecto del coeficiente de correlación de la población, y luego determine si la muestra r es significativamente diferente de cero.

    r

    a

    b

    c

    d

    e

    r

    0.80

    0.10

    -0.30

    -0.30

    -0.30

    n

    15

    15

    25

    50

    100

  • 0.48 a 0.92 Significativo

  • -0.42 a 0.57 No significativo

  • -0.62 a 0.10 No significativo

  • -0.53 a -0.03 Significativo

  • -0.42 a -0.11 Significativo

  • 2.- Obtenga intervalos de confianza de 95% para la correlación verdadera de la población para cada no de los siguientes casos, y después diga cuáles valores r no son significativos al nivel 0.05.

    a

    b

    c

    d

    E

    f

    r

    0.10

    0.10

    0.10

    0.70

    0.70

    0.00

    n

    20

    50

    200

    50

    50

    25

    Si el cero no está en el intervalo no es significativo:

  • -0.35 a 0.51 No significativo

  • -0.18 a 0.37 No significativo

  • -0.04 a 0.23 Significativo

  • 0.54 a 0.81 Significativo

  • -0.81 a -0.54 Significativo

  • -0.39 a 0.39 No significativo

  • 3.- Utilice la fórmula:

    t= ( r-0)/ (1-r2)/(n-2)

    Alumno

    1er. examen

    2o. examen

    1

    82

    92

    2

    84

    91

    3

    86

    90

    4

    83

    92

    5

    88

    87

    6

    87

    86

    7

    85

    89

    8

    83

    90

    9

    86

    92

    10

    85

    90

    11

    87

    91

    X= 85

    Y= 90

    y el nivel 0.01, y determine cuáles de los casos siguientes son significativos:

    a)

    xy=84216

    x2= 79682

    y2= 89140

    n-2= 11-2= 9

    r= n(xy)-( x)( y)_ _ = 11 (84216) - ( 936) ( 990) _ = -0.6

    n(x2)-( x)2) * n(y2)-( y)2 11(79682)-( 79682)2 11(89140)-( 990)2

    .005

    • t= 2.821

    t=(-0.6)/ (1-.36)/(11-2) = -2.25 No significativo

    b)

    x

    y

    5

    87

    2.2

    50

    4.1

    75

    5.4

    90

    2.8

    55

    3

    54

    3.6

    68

    4.9

    85

    4.1

    82

    4.2

    80

    2

    45

    2.7

    58

    3.1

    66

    47.1

    895

    xy= 3444.1

    x2= 184.97

    y2= 64624

    r= 13(3444.1)-( 47.1)( 896)_ =0.97

    13(184.97)-( 47.1)2) * 13(64624)-( 896)2


    n-2= 13-2= 11

    t= 0.97 = 14.32 Significativo

    (1-0.94)/(11)

    .005

    11 3.106

    c)

    Horas estudio

    Calificación

    2.5

    89

    3

    95

    6

    80

    4

    82

    6

    85

    4.5

    90

    7

    75

    10

    70

    5.5

    91

    5

    93

    8.5

    74

    62

    924

    xy= 5050

    x2= 400

    y2= 78326

    r= 11(5050)-( 62)(924)_ =-0.834

    11(400)-( 62)2) * 11(78326)-( 924)2


    n-2=11-2= 9

    .005

    9 3.250

    t= -0.834 = -4.53 Significativo

    (1-0.69)/(9)


    4.- Utilice un intervalo de confianza de 95%, obteniendo a partir de la figura 14.22, a fin de evaluar cada una de las siguientes afirmaciones:

    a) Ho:  = 0.6, H1:  " 0.6, cuando r= 0.4 y n= 50

    0.14 a 0.61 Se acepta Ho

    b) Ho:  = 0.9, H1:  " 0.9, cuando r= 0.8 y n= 25

    0.58 a 0.90 Se acepta Ho

  • Ho:  = -0.5 , H1:  " -0.5, cuando r= -0.4 y n= 400

  • -0.32 a -0.48 Se rechaza Ho

    5.- En un grupo de investigaciones se estableció una escala del grado de violencia en programas de TV, para lo cual se calificó con 10 programas y recopilaron datos sobre el porcentaje del teleauditorio de cada uno de ellos.

    Programa 2

    Grado violencia (x)

    % de teleauditorio (y)

    1

    10

    15

    2

    20

    16

    3

    30

    20

    4

    40

    24

    5

    40

    25

    6

    50

    30

    7

    55

    30

    8

    65

    35

    9

    70

    35

    10

    70

    35

    450

    265

    xy= 13355

    x2= 24150

    y2= 7557


    a) Establezca una ecuación predictiva en lo referente al teleauditorio potencial, en términos del coeficiente de violencia.

    b= n(xy) -(x)( y)= 10(13355)- (450)( 265) = 0.37

    n(x2)-( x)2 7(24150)-( 4502

    a= y -bx= 265-(0.37)( 450)= 10

    n 8

    Yc= 10 + 0.37x

    b) Determine el porcentaje de variación explicada

    Se= y2 - ay - bxy = 7557- (10)( 265)-( 0.37)( 13355) =1.127

    n-2 8

    Se2 =1.27

    Sy2= n(y2)-(y)2/n =(10(7557)-( 265)2)/10= 66.8

    n-2 8

    r2= 1- Se2 = 1- 1.27= 0.98

    Sy2 66.8

    c) Calcule o determine el coeficiente de correlación:

    r= n(xy)-( x)( y) _ = 10 (13355) - (450) (265) _ = 0.99

    n(x2)-( x)2) * n(y2)-( y)2 10(24150)-( 450)2 10(7557)-( 265)2

  • ¿Qué supuestos fueron necesarios para el inciso a?

  • Los supuestos de regresión

    ¿Para el inciso c?

    Los supuestos de correlación

  • ¿Es b significativo? ¿Lo es r? (Utilice 0.05)

  • Sb= Se 1 _ =( 1.127) 1 _= 0.02

    x2- [(x)2/n] 24150 - [(450)2/10]

    .025

    b ± t Sb

    0.37 ± (2.306)( 0.02)

    0.32388 a 0.41612 Significativo

    8 2.306

    t= 0.99 = 19.8 Significativo

    (1-0.98)/(8)

    f) Cuál es el intervalo de confianza de 95% para el porcentaje del teleauditorio de un nuevo programa que presenta un coeficiente de violencia de 60?

    DATOS: .025

    N.C=95% = .025

    Xg=6

    Yc= 10 +.37 (6)= 12.22

    n-2=10-2= 8 8 2.306

    x=450

    x2=24150

    X= 450/10= 45

    Se=1.127

    Yc ± t(Se 1-(1/n)+( xg-x)2 /{x2-[(x)2/n]})

    12.22 ± (2.306) (1.127)(1.05)

    12.22 ± (2.7)

    9.49 a 14.94

    6.- Utilice un intervalo de confianza para valorar esta afirmación:

    Ho:  = -0.45, H1:  " -0.45, =0.05, r= -0.5 y n= 200

    -0.6 < p < -0.4

    :. Se acepta Ho.

    Pag 459

  • Pruebe cada coeficiente de correlación al nivel 0.05, para obtener la significación utilizando:

  • Ho : p = o Hl = p " 0

  • rsp = +0.60, n = 17

  • Ho : p = o

  • Hl : p " 0

  • g.L. = n - 2

  • = 17 - 2

    = 15

  • Valor Teórico

  • 15 2.131 VT = 2.131

  • Valor Experimental

  • t =

    = = 0.60 = 2.90

    1 - rsp2 1 - (60)2

    n - 2 17 - 2

    VExp = 2.90

  • Comparación

  • ø2.90ø " ø2.131ø

  • Conclusión: Se rechaza Ho

  • rsp = +0.45, n = 22

  • Ho : p = o

  • Hl : p " 0

  • g.L. = n - 2

  • = 22 - 2

    = 20

  • Valor Teórico

  • 20 2.086 VT = 2.086

  • Valor Experimental

  • t =

    = = 0.45 = 2.25

    1 - rsp2 1 - (.45)2

    n - 2 22 - 2

    VExp = 2.25

  • Comparación

  • ø2.25ø " ø2.086ø

  • Conclusión: Se rechaza Ho

  • rsp = +0.91, n = 11

  • Ho : p = o

  • Hl : p " 0

  • g.L. = n - 2

  • = 11 - 2

    = 9

  • Valor Teórico

  • 9 2.262 VT = 2.262

  • Valor Experimental

  • t =

    = = 0.91 = 6.58

    1 - rsp2 1 - (.91)2

    n - 2 11 - 2

    VExp = 6.58

  • Comparación

  • ø6.58ø " ø2.262ø

  • Conclusión: Se rechaza Ho

  • rsp = +0.25, n = 32

  • Ho : p = o

  • Hl : p " 0

  • g.L. = n - 2

  • = 32 - 2

    = 30

  • Valor Teórico

  • 30 2.042 VT = 2.042

  • Valor Experimental

  • t =

    = = 0.25 = 1.41

    1 - rsp2 1 - (.25)2

    n - 2 32 - 2

    VExp = 1.41

  • Comparación

  • ø1.41ø " ø2.042ø

  • Conclusión: Se acepta Ho

  • a) ¿Calcular rsp para el ejercicio de la página 448 y 449. Concuerdan los resultados con el valor que se obtuvo utilizando la r de Pearson? ¿Por qué?

  • Alumno

    Examen Oral

    Examen de Matemáticas

    Diferencia

    d

    Diferencia2

    d2

    1

    2

    3

    4

    5

    6

    7

    4.2

    4.5

    4.1

    3.6

    3.2

    4.4

    4.0

    5.5

    6.0

    5.2

    4.0

    4.1

    4.25

    4.75

    +1.3

    +1.5

    +1.1

    +.40

    +.90

    -.15

    +.75

    d = 5.8

    1.69

    2.25

    1.21

    0.16

    0.81

    0.02

    0.56

    d2=6.7

    rsp = 1 - . 6 d2 .

    n(n2 - 1)

    = 1 -. 6 (6.7) .= 1 - 40.23

    7(72 - 1) 336

    = 0.88

    rsp = 0.88 (r de Pearson = +0.68), la jerarquización hace que se desperdicie información.

    b) ¿Cuál método es la mejor técnica de correlación, el de Pearson o el de Spearman? Explíquelo brevemente.

    Si los datos están en rangos, o si los supuestos necesarios para la correlación de Pearson no son satisfechos, es preferible emplear la de Spearman. Si los supuestos de Pearson son cumplidos, se debe usar ésta, dado que desperdicia menos información.

    3. Calcule el coeficiente de correlación de rangos en el caso de los siguientes datos, pruebe la significación al nivel 0.01:

    Rango

    Número 1

    Número 2

    d

    d2

    1

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    13

    14

    3

    2

    4

    1

    9

    5

    6

    10

    8

    11

    7

    14

    12

    13

    1

    2

    3

    5

    6

    4

    7

    11

    9

    10

    8

    12

    13

    14

    -2

    0

    -1

    4

    -3

    -1

    1

    1

    1

    -1

    1

    -2

    1

    1

    d = 0

    4

    0

    1

    16

    9

    1

    1

    1

    1

    1

    1

    4

    1

    1

    d2=42

    rsp = 1 - . 6 d2 .

    n(n2 - 1)

    = 1 -. 6 (42) .= 1 - 252

    14(142 - 1) 2730

    = 0.908

  • Ho : p = o

  • Hl : p " 0

  • g.L. = n - 2

  • = 14 - 2

    = 12

  • Valor Teórico

  • 12 3.055 VT = 3.055

  • Valor Experimental

  • t =

    = = 0.908 = 7.51

    1 - rsp2 1 - (.908)2

    n - 2 14 - 2

    VExp = 7.51

  • Comparación

  • ø7.51ø " ø3.055ø

  • Conclusión: Se rechaza Ho

  • Escriba en orden los rangos 1 - 6 y después forme pares con los mismos en el orden opuesto. Calcule rsp. Determine este valor en el caso de que los 2 conjuntos de rangos (1 al 6) se encuentren en el mismo orden. Ahora intente reordenar los datos, de manera que rsp sea aproximadamente igual a cero.

  • Rango

    Número 1

    Número 2

    1

    2

    3

    4

    5

    6

    1

    2

    3

    4

    5

    9

    1

    2

    3

    4

    5

    6

    Rangos opuestos dan como resultado rsp = -1;

    Rangos iguales producen rsp = +1.

  • A dos gerentes se les pide que jerarquicen a 11 empleados jóvenes, de acuerdo con su potencialidad directiva. Determine el grado en que los dos gerentes concuerdan o no, y determine si la relación es significativa o no.

  • Empleado

    Rango

    A

    Rango

    B

    d

    d2

    Alfonso S.

    Eduardo B.

    Ana D.

    Ramón Z.

    Roberto K.

    Martín A.

    Alejandro J.

    Guillermo T.

    Néstor T.

    Juan H.

    Samuel P.

    6

    7

    5

    4

    9

    1

    8

    2

    3

    11

    10

    9

    10

    8

    7

    11

    1

    6

    2

    4

    3

    5

    3

    3

    3

    3

    2

    0

    -2

    0

    1

    -8

    -5

    d = 0

    9

    9

    9

    9

    4

    0

    4

    0

    1

    64

    25

    d2=134

    rsp = 1 - . 6 d2 .

    n(n2 - 1)

    = 1 -. 6 (134) .= 1 - 804

    11(112 - 1) 1320

    = 0.391

    t =

    = = 0.391 = 1.27

    1 - rsp2 1 - (.391)2

    n - 2 11 - 2

    VExp = 1.27

    Se aceptan en todos los niveles (no significativo)

    EJERCICIOS PAGINA 463

    1.- Para cada una de las condiciones siguientes, determine si existe una relación significativa entre las dos variables, y si la hay, determine la intensidad.

    Tamaño de tabla 2 N 

    a. 4 X 4 150 200 .02

    C="(150/150+200)= .65

    Cmax= "(3/4)=.86

    Debido a que la dif. es poca y el tamaño de la tabla es minimo, la intensidad es moderada

    b. 5 X 5 40 200 .05

    C="(40/40+200)=.40

    Cmax= "(4/5)=.89

    Debido a que la dif. es considerable y el tamaño de la tabla es poco mas grande, la intensidad es moderada

    c. 3 X 3 250 250 .01

    C="(250/250+250)= .70

    Cmax= "(2/3)=.816

    Debido a que la dif. es muy poca y el tamaño de la tabla es chico, la intensidad es alta

    d. 6 X 6 130 150 .05

    C="(130/130+150)= .68

    Cmax= "(5/6)=.91

    Debido a que la dif. es considerable y el tamaño de la tabla es grande, la intensidad es moderada

    e. 4 X 4 16 100 .05

    No existe relación significativa ya que el valor es muy pequeño.

    2.- Se reunieron las calificaciones de lectura y de matemáticas de niños de quinto grado, obteniéndose los siguientes resultados. Determine si existe alguna relación entre las dos calificaciones para este grupo.

    Frecuencia observada

    Matemáticas

    Lectura

    A

    B

    C

    D

    Totales

    A

    20

    40

    30

    0

    90

    B

    30

    60

    20

    10

    120

    C

    50

    50

    80

    60

    240

    D

    0

    50

    70

    30

    150

    Totales

    100

    200

    200

    100

    600

    Frecuencia esperada

    A

    B

    C

    D

    15

    30

    30

    15

    20

    40

    40

    20

    40

    80

    80

    40

    25

    50

    50

    25

    Se calcula el valor de 2 , bajo la formula de 2="[(fo-fe)2]/fe

    1.7

    + 3.33

    + 0.00

    + 15.00

    = 20.0

    5

    + 10.00

    + 10.00

    + 5.00

    = 30.0

    2.5

    + 11.25

    + 0.00

    + 10.00

    = 23.8

    25

    + 0.00

    + 8.00

    + 1.00

    = 34.0

    

    = 107.8

    Después se calcula el coeficiente de contingencia C, bajo la formula

    C= " 2/( 2+N)

    C="107.8/(107.8+600)

    C= .39

    Se calcula el valor maximo de C, o sea Cmax con la formula:

    Cmax= "(k-1)/k

    Cmax= "3/4= .86

    Y como la diferencia entre C y Cmax es grande y la tabla es de valor medio, la intensidad de la relación es moderada.

    3.- Explique la forma como la tabla de contingencias de 2 y la prueba de ji cuadrda de la tabla de independencia difieren en lo que respecta al numero de K y como se marcan las filas y las columnas.

    Es fácil pensarlo ya que en una tabla de contingencias solo hay una muestra con resultados que se encuentran clasificados transversalmente en las casillas; en el caso de una tabla rXk, hay k muestras. Las escalas de una tabla de contingencias tienen dirección; en tanto que por lo regular no tienen dirección en una tabla rXk;

    4.- Una compañía está considerando la posibilidad de ofrecer a sus empleados un incentivo económico para que dejen de fumar o reduzcan su consumo de tabaco, de existir una correlación directa entre el fumar y el ausentismo. Analice los datos proporcionados por la compañía y determine si se deberá o no ofrecer el incentivo.

    Frecuencia observada

    Inasistencias

    No fumador

    Ligero

    Moderado

    Intenso

    Totales

    0 - 2

    10

    10

    55

    65

    140

    3-4

    5

    50

    30

    55

    140

    5-6

    10

    70

    10

    50

    140

    7 ó más

    35

    70

    5

    30

    140

    Totales

    60

    200

    100

    200

    560

    Se calcula el valor de 2 , bajo la formula de 2="[(fo-fe)2]/fe, calculamos la tabla de frecuencias esperadas.

    Frecuencia esperada

    15

    50

    25

    50

    15

    50

    25

    50

    15

    50

    25

    50

    15

    50

    25

    50

    1.7

    + 32.00

    + 36.00

    + 4.50

    = 74.2

    6.7

    + 0.00

    + 1.00

    + 0.50

    = 8.2

    1.7

    + 8.00

    + 9.00

    + 0.00

    = 18.7

    27

    + 8.00

    + 16.00

    + 8.00

    = 58.7

    

    = 159.7

    Después se calcula el coeficiente de contingencia C, bajo la formula C= " 2/(2+N)

    C="159.7/(159.7+560)

    C= .47

    Se calcula el valor máximo de C, o sea Cmax con la formula:

    Cmax= " (k-1)/k

    Cmax= "3/4= .86

    Y como la diferencia entre C y Cmax es grande y la tabla es de valor medio, la intensidad de la relación es moderada o considerable, por lo tanto no se debe ofrecer ningún incentivo.

    X = 450 Y = 180

    X2 = 22700 Y2 = 3728

    XY = 8956

    .025

    rsp

    .025

    rsp

    .025

    rsp

    .025

    rsp

    .005

    rsp

    rsp

    'Regresión y correlación'

    'Regresión y correlación'

    'Regresión y correlación'

    'Regresión y correlación'

    'Regresión y correlación'

    'Regresión y correlación'




    Descargar
    Enviado por:Paulina Atenea
    Idioma: castellano
    País: México

    Te va a interesar