Estadística
Regresión y correlación
Regresión y Correlación
La regresión y la correlación son dos técnicas estrechamente relacionadas y comprenden una forma de estimación.
En forma más especifica el análisis de correlación y regresión comprende el análisis de los datos muestrales para saber que es y como se relacionan entre si dos o mas variables en una población. El análisis de correlación produce un número que resume el grado de la correlación entre dos variables; y el análisis de regresión da lugar a una ecuación matemática que describe dicha relación.
El análisis de correlación generalmente resulta útil para un trabajo de exploración cuando un investigador o analista trata de determinar que variables son potenciales importantes, el interés radica básicamente en la fuerza de la relación. La correlación mide la fuerza de una entre variables; la regresión da lugar a una ecuación que describe dicha relación en términos matemáticos
Los datos necesarios para análisis de regresión y correlación provienen de observaciones de variables relacionadas.
Regresión lineal
La regresión lineal simple comprende el intento de desarrollar una línea recta o ecuación matemática lineal que describe la reacción entre dos variables.
La regresión puede utilizadas de diversas formas. Se emplean en situaciones en la que las dos variables miden aproximadamente lo mismo, pero en las que una variable es relativamente costosa, o, por el contrario, es poco interesante trabajar con ella, mientras que con la otra variable no ocurre lo mismo.
La finalidad de una ecuación de regresión seria estimar los valores de una variable con base en los valores conocidos de la otra.
Otra forma de emplear una ecuación de regresión es para explicar los valores de una variable en término de otra. Es decir se puede intuir una relación de causa y efecto entre dos variables. El análisis de regresión únicamente indica qué relación matemática podría haber, de existir una. Ni con regresión ni con la correlación se pude establecer si una variable tiene “causa “ciertos valores de otra variable.
Ecuación Lineal
Dos características importantes de una ecuación lineal
la independencia de la recta
la localización de la recta en algún punto. Una ecuación lineal tiene la forma
y = a + bx
En la que a y b son valores que se determina a partir de los datos de la muestra; a indica la altura de la recta en x= 0, y b señala su pendiente. La variable y es la que se habrá de predecir, y x es la variable predictora.
Determinación de la ecuación matemática
En la regresión, los valores de y son predichos a partir de valores de x dados o conocidos. La variable y recibe le nombre variable dependiente y la variable x, el de variable independiente.
Métodos de mínimos cuadrados
EL procedimiento mas utilizado por adaptar una recta aun conjunto de punto se le que conoce como método de mínimos cuadrados. La recta resultante presenta 2 característica importantes
es nula la suma desviaciones verticales en los puntos a partir de la recta
es mínima la suma de los cuadrados de dicha desviaciones
(yi - yc)2
En el cual
Yi = valor esperado de y
Yc= valor calculado de y utilizando la ecuación de mínimos cuadrados con el valor correspondientes x para yi
Los valores de a y b para la recta es Yc = a + bx que minimiza la suma de los cuadrados de la desviación “ecuaciones normales “
y = na + (x)
xy= a (x) +b (x2)
En las que n es el numero de pares de observaciones. Evaluando las cantidades x, y, etc. Se puede resolver estas dos ecuaciones simultáneamente para determinar a b. la ecuaciones puede despejarse. Se obtuvieron dos formulas aun para a y otra para b.
n(xy)- (x)(y)
b=
n(x2)-(x)2
y - b x
a=
n
Inferencia en el análisis de regresión
Los supuestos para el análisis de regresión son como:
Existen datos de medición para a x y z.
la variable dependiente es una variable aleatoria.
para cada valor de x, existe una distribución condicional de la qué es de naturaleza normal
la desviación estándar de toda las distribuciones condicionales son iguales
EL error estándar de estimación
La determinante primaria de la exactitud es el grado de dispersión de la población: cuanto mas dispersa este, menor será la exactitud de la estimación. El grado de dispersión en la población se puede estimar a partir del grado de dispersión en las observaciones de la muestra con respecto a la línea de regresión calculada, utilizando la formula.
Se = " (yi -yc)
n-2
en la cual:
yi = cada valor de y
yc = valor de línea de regresión correspondiente a partir de la ecuación de regresión.
n = números de observaciones.
La formula anterior no se utiliza por lo general para cálculos reales, es mas fácil trabajar con la formula simplificada
Se "y2 - a y - b xy
n - 2
Inferencia de acerca de la pendiente de una línea de regresión
Aun cuando es muy poca o nula relación entre dos variables de aun población, es posible obtener valores maestrales que hacen que parezca que la variables están relacionadas, es importantes probar los resultados tales de caculo, a fin determinar si son significativos (es decir si los parámetros verdaderos no son cero), Si no existe ninguna relación se esperaría obtener aun pendiente cero, se pone a prueba la hipótesis nula contra la hipótesis alternativa.
La significación del coeficiente de regresión se puede probar comparándolo con su desviación estándar
t = valor de la muestra - valor esperado
Desviación estándar
Análisis de regresión lineal múltiple
La regresión múltiple comprende tres o más variables. Existe solo una variable dependiente, pero hay dos o mas tipo independiente. Esta operación al desarrollo de una ecuación que se pede utilizar para predecir valore de y, respecto a valores dados de la diferencia variables independientes adicionales es incrementar la capacidad predicativa sobre la de la regresión lineal simple.
Las técnicas de los mínimos cuadrados se utilizan para obtener ecuaciones de regresión.
Yc= a +b1x1+b2x2+…bkxk
a = ordenada en el origen
b1= pendiente
k = numero de variables independientes
Un análisis de regresión simple de dos variable da lugar a la ecuación de una recta, un problema de tres variables produce un plano, y un problema de k variables implica un hiperplano de a
(k +1) dimensiones.
Análisis de Correlación
EL objetivo de un estudio de correlación es determinar la consistencia de una relación entre observaciones por partes. EL termino “correlación “significa relación mutua, ye que indica el grado en el que los valores de una variable se relacionan con los valores de otra. Se considera tres técnicas de correlación uno para datos de medición, otro para datos jerarquizados y el último para clasificaciones nominales.
Datos Continuos: r de Pearson
EL grado de relación entre dos variables continuas se resume mediante un coeficiente de correlación que se conoce como “r de Pearson “en honor del gran matemático Kart Pearson, quien ideo este método. Esta técnica es valida mientras si es posible establecer ciertos supuestos bastante estrictos. Tales supuestos son los siguientes:
Tanto x como y son variables continuas aleatorias. Es decir, a diferencia del análisis de referencia de regresión, no es aceptable seleccionar ciertos valores de x, y después medir y; tanto y como x deben de variar libremente.
La distribución conjunta de frecuencia es normal. Esto recibe el nombre de de distribución normal divariada.
Carácter de r
El coeficiente de relación presenta dos propiedades que establecen la naturaleza de una relación entre dos variables. Una es su signo (+ o -) y la otra, es su magnitud. El signo es igual al de la pendiente de una recta que podría “ajustarse” a los datos si estos se graficaran en un diagrama de dispersión, y la magnitud de r indica cuan cerca esta de la “recta” tales puntos.
Método practicar para calcular r
Dado que los cálculos necesarios pueden requerir mucho tiempo especialmente cuando se resta las medias del grupo de cada observación se elevan a cuadrado esas diferencias. Existe una versión, la cual simplifica los cálculos:
r= n ("xy)-("x)("y) _
"n("x2)-("x)2 ·"n("y2)("y)2
Existen 3 formas posibles para obtener el valor de r en el caso de datos de medición: estandarizar cada conjunto y hallar el producto medio, calcular el coeficiente de determinación r2 y obtener su raíz cuadrada como utilizar la formula. Para un conjunto de datos los tres métodos producirán el mismo valor para r no obstante cada método agrega algo a la comprensión del significado del termino “correlación”
Inferencia acerca del coeficiente de correlación
Intervalo de confianza para la correlación de la población
El valor del coeficiente de correlación de la muestra se puede utilizar como un estimado de la correlación verdadera de población existen varios métodos para obtener un método de confianza para pero quizás la forma mas directa es usar un diagrama.
Si se examinan el diagrama se observara que el intervalo de los valores potenciales (no conocidos) se indica a lo largo de la escala vertical los posibles valores r de la muestra se indica en la escala inferior una serie de curvas representan tamaño de muestras seleccionadas.
Prueba de significación de r
Puede ser necesario evaluar una aseveración con respecto al valor de . La forma mas sencilla es obtener un intervalo de confianza para r y observar si el valor propuesto esta incluido en el intervalo de ser así se rechaza a Ho y se acepta la alternativa.
Datos jerarquizados de: r Spearman
Es una técnica no paramétrica que utiliza para medir la fuerza de una relación por pares de 2 variables cuando los datos se encuentran en forma jerarquizados. El objeto de calcular un coeficiente de correlación estos ejemplos es determinar el grado en el que dos conjuntos de jerarquización concuerdan o no. Esta técnica también se puede extender a calificaciones u otro tipo de medición si estas se convierten a rangos.
Las medidas de l grado de concordancia son sol cuadrados de las diferencias entre los dos conjuntos de rangos: si la suma de éstos es pequeña, esto significa que hay acuerdo; si la suma es grande, esto indica lo contrario. EL calculo real de la correlación comprende la formula.
rsp = 1 - 6"d2
n(n2 -1)
En la cual n es el número de observaciones y "d2 es la suma de los cuadrados de la diferencia entre los rangos. El coeficiente de correlación de jerarquía obtenido recibe el nombre de r Spearman. La suma de la diferencia es cero. Esto no sirve como una comprobación útil de los cálculos aunque no es necesaria en la fórmula.
El procedimiento es como el siguiente:
Obtener la diferencia en rango para cada par de observaciones
Como comprobaciones, verificar que la diferencias se sumen a 0
elevar el cuadrado la diferencias
sumar los cuadrados de la diferencia para obtener "d2
Calcular rsp
Si el valor rsp es pequeño para situaciones en donde n es mayor que 10, la hipótesis nula de rsp = 0 puede ser probada utilizándola la fórmula
rsp - 0
t=
"(1- rsp 2) (n -2)
Datos nominales: el coeficiente de contingencia
Cuando ambas variables se miden en escalas nominales ( es decir , categorías ) , el análisis es fácilmente mediante el desarrollo de una tabla de contingencia semejante a la que se utilizo en el análisis de k proporciones ( prueba de ji cuadrada ), el procedimiento en realidad de aun extensión del análisis de una tabla r * k.
Una medida de relación es calcular el coeficiente de contingencia en C, donde
x2
C=
X2 + N
Un aspecto interesante de una tabla ji cuadrada es que l tamaño máximo posible de x2 es función de N, de las observaciones y del tamaño de la tabla.
En le caso de tabla con los valores cuadrado, esto lleva obtener un valor máximo de C de
K - 1
C max =
k
En el cual k es el número de fila o columnas. La comprar C con C max se pude obtener una idea de la intensidad de la asociación entre la variables.
Esta es una relación moderada, no muy intensa. Su interpretación exacta en parte de la naturaleza de los datos y de los resultados comparables que se obtengan de otros estudios, por lo que es difícil establecer valores definitivos dé intensidades.
Se bebe observar que la formula no fórmula no produce automáticamente el signo del coeficiente de contingencia. DE ahí que no siempre resulte evidente el existe aun relación positiva o negativa.
Ventajas:
Nos e requiere de supuestos con respectos a la formula de población
Solamente se necesita una medición nominal ( categorías)
Limitaciones
El limite superior de C es menor que 1.00 incluso Para un correlación perfecta.
El límite superior depende del tamaño de la tabla, por lo que no son comparables los coeficientes de contingencia de tablas de tamaño diferente
El coeficiente de contingencia no es directamente comprable con otras medidas de correlación, como la r de Pearson y la r de Spearman, o incluso con otras tablas de contingencia de tamaño diferente.
Cada casilla deberá tener una frecuencia esperada por lo menos 5.
C max solamente se puede calcular a partir de tabla de valores al cuadrado
EJERCICIOS PAG. 411
1.- Cual es la ecuación de una recta con las siguientes características?
pendiente 10.2 y ordenada en el origen 5.0.
Yc=5 + 10.2x.
pendiente 55 y ordenada en el origen 0.
Yc=55x.
Pendiente 27 y ordenada en el origen -2.
Yc=-2 + 27x.
Pendiente -13 y ordenada en el origen 200.
Yc=200 - 13x.
Pendiente 0 y ordenada en el origen 2.4.
Yc=2.4
2.- Calcule los valores de a y b en la ecuación lineal yc =a+bx apartir de las gráficas de la fig. 14.4.
Yc= 6+(7.5/500)x Yc=-1 +(12/4)x
EJERCICIOS PAG. 416
1.- Suponga que una cadena de supermercados financia un estudio sobre los gastos anuales en comestibles de familias de cuatro miembros. La investigación se limitó a familias con ingresos netos que van de $ 8,000 a $ 20,000 dólares. Se obtuvo la siguiente ecuación:
yc =-200 + .10x
y = gastos anuales estimados
x = ingresos netos anuales
Estime los gastos de una familia de cuatro miembros con un ingreso anual de $15,000.
Como queremos estimar el gasto anual, se sustituye el valor de los ingresos(x) en la ecuación y queda así:
Yc = -200 + .10(15,000)
Yc = -200 + 1500
Yc= 1300
Uno de los vicepresidentes se preocupa por el hecho de que aparentemente la ecuación indica que una familia con ingreso de $2,000 no gastaría nada en alimentos. ¿Cuál sería su respuesta?
La respuesta es que no tiene de que preocuparse ya que el gasto está estimado para familias con ingresos de 8000 a 20000 dlls.
Explique porqué no se podría utilizar en los siguientes casos:
1) estimación en los gastos de familias de cinco miembros.
No es posible ya que la ecuación está calculada para una familia de cuatro miembros.
2) estimación en los gastos de familias cuyos ingresos netos van de $20,000 a $35,000.
No se puede porque la formula se calculo para sueldos menores o iguales a 20,000.
d. Grafique la ecuación.
2.- Un bufete de ingenieros consultores ha establecido la siguiente relación con respecto al rendimiento por galón de automóviles estadounidenses de 6 cilindros, cuyo peso varía de 1500 a 3000 libras:
yc=30 - 0.002x
y=rendimiento millas/galón
x=peso del vehículo
Represente esta relación con una gráfica y marque los ejes.
Estime el consumo de gasolina X milla para un auto de peso:
Sustituimos en la formula:
1)2000 lb yc=30 - 0.002(2000)=26
2)1500 lb yc=30 - 0.002(1500)=27
3)2500 lb yc=30 - 0.002(2500)=25
3.- Emplee los siguientes valores de resumen para determinar las ecuaciones de regresión:
a. "x=200, "y=300, "xy=6200, "x2=3600, n=20.
b= 20(6200)-(200)(300)
20(3600)-(200)2
b= 2
a=300-b(200)
20
a=-5
Yc = -5 +2x
b. "x=7.2, "y=37, "xy=3100, "x2=620, n=36.
b= 36(3100)-(7.2)(37)
36(620)-(7.2)2
b= 5
a=37-b(7.2)
36
a=.028
Yc = 5 +.028x
c. "x=700, "y=-250, "xy=-1400, "x2=21000, n=30.
b= 30(-1400)-(700)(-250)
30(21000)-(700)2
b= .95
a=-250-b(700)
30
a=-30.5
Yc = -30.5 +.95x
d. "x=33, "y=207, "xy=525, "x2=750, n=40.
b= 40(525)-(33)(207)
40(750)-(33)2
b= .49
a=207-b(33)
40
a=4.77
Yc = 4.77 +x
4.- En el caso de cada conjunto represente estos en una gráfica y si parece apropiada una ecuación lineal, determine los coeficientes a y b a partir de los mismos.
a.
Tamaño | Costo total |
x | y |
20 | 3500 |
22 | 3000 |
25 | 2000 |
30 | 1600 |
40 | 1000 |
45 | 800 |
50 | 900 |
55 | 950 |
60 | 1100 |
63 | 1300 |
70 | 1500 |
Los datos siguen una tendencia polinomial.
b.
Ventas | Ingresos |
x | y |
150 | 15 |
201 | 17 |
225 | 20 |
305 | 21 |
370 | 19 |
380 | 23 |
450 | 21 |
510 | 22 |
560 | 25 |
600 | 24 |
685 | 27 |
725 | 30 |
735 | 27 |
"x=5896, "y=291, "xy=141502, "x2=3159126, n=13.
Como parece apropiada una ecuación lineal, se determinan los coeficientes a y b con la formula:
b= 13(141502)-(5896)(291)
13(3159126)-(5896)2
b=.2
a=291-b(5896)
13
a=13.48
Yc = 13.48+.2x
5.- Determine una ecuación que describa la relación entre la frecuencia de accidentes y el nivel de educación preventiva
X | Y | XY | X2 |
150 | 8.00 | 1200 | 22500 |
200 | 7.00 | 1400 | 40000 |
300 | 6.50 | 1950 | 90000 |
450 | 5.20 | 2340 | 202500 |
500 | 6.40 | 3200 | 250000 |
600 | 4.40 | 2640 | 360000 |
800 | 4.00 | 3200 | 640000 |
900 | 3.10 | 2790 | 810000 |
3900 | 44.60 | 18720 | 2415000 |
n=8
Para encontrar la ecuación se sustituyen los valores en la formula:
b= 8(18720)-(3900)(44.6)
8(18720)-(3900)2
b=.006
a=44.6-b(3900)
8
a=8.44
Yc = 8.44+.006x
6.- Una compañía que tiene 15 tiendas ha recopilado datos en relación con los metros cuadrados de area de ventas respecto a los ingresos mensuales. Trace una gráfica de los datos, y si parece apropiado un modelo lineal determine la ecuación de regresión.
Tienda | Metros 2 | Ingreso | ||
| X | Y | XY | X2 |
a | 55 | 45 | 2475 | 3025 |
o | 80 | 60 | 4800 | 6400 |
j | 85 | 75 | 6375 | 7225 |
e | 90 | 75 | 6750 | 8100 |
k | 90 | 80 | 7200 | 8100 |
d | 110 | 95 | 10450 | 12100 |
n | 130 | 95 | 12350 | 16900 |
g | 140 | 110 | 15400 | 19600 |
c | 180 | 120 | 21600 | 32400 |
l | 180 | 105 | 18900 | 32400 |
b | 200 | 115 | 23000 | 40000 |
i | 200 | 130 | 26000 | 40000 |
h | 215 | 140 | 30100 | 46225 |
f | 260 | 170 | 44200 | 67600 |
m | 300 | 200 | 60000 | 90000 |
15 | 2315 | 1615 | 289600 | 430075 |
}Los datos serían:
"x=2315, "y=1615, "xy=289600, "x2=430075, n=15.
Y se sustituyen los valores en la formula:
b= 15(289600)-(2315)(1615)
15(430075)-(2315)2
b=.5543
a=1615-b(2315)
15
a=22.11
Yc = 22.11+.5543x
Y la grafica sería:
7.- Vuelva a resolver el ejercicio 5 utilizando accidentes como x y nivel horas instrucción. Como y compare la ecuación obtenida con la anterior.
Determine una ecuación que describa la relación entre la frecuencia de accidentes y el nivel de educación preventiva
Accidentes | horas | ||
X | Y | XY | X2 |
3.10 | 900 | 2790 | 9.61 |
4.00 | 800 | 3200 | 16 |
4.40 | 600 | 2640 | 19.36 |
5.20 | 450 | 2340 | 27.04 |
6.40 | 500 | 3200 | 40.96 |
6.50 | 300 | 1950 | 42.25 |
7.00 | 200 | 1400 | 49 |
8.00 | 150 | 1200 | 64 |
44.60 | 3900.00 | 18720 | 268.22 |
n=8
Para encontrar la ecuación se sustituyen los valores en la formula:
b= 8(18720)-(44.6)(3900)
8(268.22)-(44.6)2
b=-154.4
a=3900-b(44.6)
8
a=1348
Yc = 1348-154.4x
8.- Teniendo:
X 1 2 3 4 5 6 7 28
Y 2 4 5 6 7 7 9 40
Utilice los datos para:
a. Calcular los coeficientes a y b de la ecuación.
X | Y | XY | X2 |
1 | 2 | 2 | 1 |
2 | 4 | 8 | 4 |
3 | 5 | 15 | 9 |
4 | 6 | 24 | 16 |
5 | 7 | 35 | 25 |
6 | 7 | 42 | 36 |
7 | 9 | 63 | 49 |
28 | 40 | 189 | 140 |
b= 7(189)- (28)(40)
7(140)-(28)2
b=1.036
a= 40-b(28)
7
a=1.57
Yc = 1.57+1.036x
b. Duplicar cada valor de x y volver a calcular los coeficientes.
X | Y | XY | X2 |
2 | 2 | 4 | 4 |
4 | 4 | 16 | 16 |
6 | 5 | 30 | 36 |
8 | 6 | 48 | 64 |
10 | 7 | 70 | 100 |
12 | 7 | 84 | 144 |
14 | 9 | 126 | 196 |
56 | 40 | 378 | 560 |
b= 7(378)-(56)(40)
7(560)-(56)2
b=.52
a= 40-b(56)
7
a=1.57
Yc = 1.57+.52x
c. Duplicar el valor original de x,y para evaluar de nuevo los coeficientes.
X | Y | XY | X2 |
2 | 4 | 8 | 4 |
4 | 8 | 32 | 16 |
6 | 10 | 60 | 36 |
8 | 12 | 96 | 64 |
10 | 14 | 140 | 100 |
12 | 14 | 168 | 144 |
14 | 18 | 252 | 196 |
56 | 80 | 756 | 560 |
b= 7(756)-(56)(80)
7(560)-(56)2
b=1.036
a= 80-b(56)
7
a=3.14
Yc = 3.14+1.036x
d. Utilizar el valor original de x, pero agregando 2 a cada valor original de y, y recalcular la ecuación de regresión.
X | Y | XY | X2 |
1 | 4 | 4 | 1 |
2 | 6 | 12 | 4 |
3 | 7 | 21 | 9 |
4 | 8 | 32 | 16 |
5 | 9 | 45 | 25 |
6 | 9 | 54 | 36 |
7 | 11 | 77 | 49 |
28 | 54 | 245 | 140 |
b= 7(245)-(28)(54)
7(140)-(28)2
b=1.036
a= 54-b(28)
7
a=3.57
Yc = 1.57+1.036x
9.- Determine una ecuación predictiva para calcular el monto del seguro, en función del ingreso anual para los siguientes datos:
Ingreso | Prima | ||
X | Y | XY | X2 |
13 | 5 | 65 | 169 |
16 | 15 | 240 | 256 |
17 | 20 | 340 | 289 |
18 | 10 | 180 | 324 |
20 | 10 | 200 | 400 |
25 | 12 | 300 | 625 |
26 | 15 | 390 | 676 |
32 | 30 | 960 | 1024 |
38 | 40 | 1520 | 1444 |
40 | 50 | 2000 | 1600 |
42 | 40 | 1680 | 1764 |
287 | 247 | 7875 | 8571 |
b= 11(7875)-(287)(247)
11(8571)-(287)2
b=1.321
a= 247-b(287)
11
a=-12.01
Yc = -12.01+1.321x
EJERCICIOS PAGINA 435
1.- Determine qué pendientes para los siguientes datos son significativas al nivel 0.05. Utilice n-2 grados de libertad.
a) DATOS
b= 4
Sb=1
n=12
Solución:
n-2= 12-2= 10
tprueba= (b-0)/ Sb = (4-0)/1= 4
.025
=.05/2= .025
10 Tt= 2.228
Usando:
b - tSb " B " b + tSb
4-(2.228)(1) " 0 " 4+(2.228)(1)
! !
1.772 " 0 " 6.228
:. Es significativo
b) DATOS
b= -0.15
Sb=0.10
n= 20
Solución:
n-2= 20-2= 18
Tprueba= (-.015-0)/.10 = -1.5
.025
=.05/2= .025
-
2.101
Usando:
b - tSb " B " b + tSb
-0.15-(2.101)(.10) " 0 " -0.15+(2.101)(.10)
! !
-0.3601 " 0 " 0.06
:. Se Acepta Ho
DATOS
b= 1.2
Sb=0.6
n= 25
Solución:
n-2= 25-2= 23
Tprueba= (1.2-0)/0.6 = 2
.025
=.05/2= .025
-
2.069
Usando:
b - tSb " B " b + tSb
1.2-(2.069)(0.6) " 0 " 1.2+(2.069)(0.6)
! !
-0.027 " 0 " 2.427
:. Se Acepta Ho
DATOS
b= 0.6
Sb=0.2
n= 31
Solución:
n-2= 31-2= 29
Tprueba= (0.6-0)/0.2 = 3
.025
=.05/2= .025
29 2.045
Usando:
b - tSb " B " b + tSb
0.6-(2..045)(0.2) " 0 " 0.6+(2.045)(0.2)
! !
0.191 " 0 " 1.009
:. Es significativo
e) DATOS
b= -212
Sb=38
n= 50
Solución:
n>32 z
Tprueba= (-212-0)/38 = -5.57
.06
= .5-.025= .475
1.9 .475
Usando:
b - tSb " B " b + tSb
-212-(1.96)(38) " 0 " -212+(1.96)(38)
! !
-286.48 " 0 " -137.52
:. Es significativo
f) DATOS
b= .015
Sb=0.001
n= 100
Solución:
n>32 z
Tprueba= (.015-0)/0.001 = 15
0.06
=0.5-.025= 0.195
1.9 .475
Usando:
b-tSb " B " b+tSb
0.015-(1.96)(.001) " 0 " 0.015+(1.96)(.001)
! !
0.013 " 0 " 0.013
:. Se Acepta Ho
2.- Determine intervalos de confianza de 99% para cada uno de estos coeficientes de regresión, e indique qué pendientes son significativas.
DATOS
b= 8.2
Sb= 4.1
n= 50
.495 .495
z=2.58
b - tSb " B " b + tSb
8.2-(2.58)(4.1) " 0 " 8.2+(2.58)(4.1)
-2.37 a 18.77
:. No significativo
DATOS
b= .13
Sb= .04 .495 .495
n= 30
n-2= 30-2=28
= 0.5-.495=.005
.005
28 t= 2.763
b ± tSb
.13 ± (2.763)(.04)
0.02 a 0.2405
:. Significativo
DATOS
b= 5.213
Sb= 1.50 .495 .495
n= 20
n-2= 20-2=18
2.87
b ± tSb
5.212 ± (2.87)(1.50)
0.908 a 9.518
:. Significativo
DATOS
b= 145
Sb= 40 .495 .495
n= 60
z= 2.58
b ± tSb
145 ± (2.58)(40)
41.8 a 248.2
:. Significativo
DATOS
b= -7.1
Sb= 3.0 .495 .495
n= 9
n-2= 9-2= 7
.005
7 3.499
b ± tSb
-7.1 ± (3.499)(3.0)
-17.59 a 3.39
:. No Significativo
3.- Utilizando los siguientes datos:
a) Calcular la ecuación de regresión
b) Calcular Se y después Sb.
Determinar si b es significativo, utilizando un intervalo de confianza con =0.05.
Calificaciones | 1ª. Prueba | 2ª. Prueba |
A | 80 | 78 |
B | 95 | 90 |
C | 88 | 85 |
D | 98 | 98 |
E | 94 | 90 |
F | 74 | 76 |
G | 81 | 80 |
H | 86 | 78 |
I | 90 | 89 |
J | 69 | 62 |
Totales | 855 | 826 |
y2=69,138
xy=71434
x2=73903
Ecuación de Regresión:
Yc= a + bx
b= n(xy) -(x)( y)= 10 (71,434)- (855)(826) = 1.013
n(x2)-( x)2 10(73903)-(855)2
a= y -bx= 826-(1.013)(855)= -4.02
n 10
Yc= -4.02 + 1.013x
b) Calculo de Se y Sb
Se= y2 - ay - bxy = 69,138 - (-4.02)(826)-( 1.013)( 71434) =3.330
n-2 10-2
Sb= Se 1 _ =( 3.330) 1 _= 0.118
x2- [(x)2/n] 73903 - [(855)2/10]
=0.05
0.025 b ± t Sb
1.013 ± (2.262)(.118)
0.746 a 1.28
8 2.262
:. Significativo
4.- Diga que ecuación escribiría los datos del ejercicio anterior, si la segunda calificación del examen en cada caso es exactamente igual a la primera.
b= n(xy) -(x)( y)= 10 (73903)- (855)(855) = 1
n(x2)-( x)2 10(73903)-(855)2
a= y -bx= 855-(1)(855)= 0
n 10
Yc= 1x
5.- Calcule r2 utilizando los datos del ejercicio 8, página 418.
x | y |
1 | 2 |
2 | 4 |
3 | 5 |
4 | 6 |
5 | 7 |
6 | 7 |
7 | 9 |
28 | 40 |
y2= 260
xy= 189
x2= 140
b= n(xy) -(x)( y)= 7 (189)- (28)( 40) = 1.03
n(x2)-( x)2 7(140)-( 28)2
a= y -bx= 40-(1.03)( 28)= 1.57
n 7
Se= 260- (1.57)(40)-( 1.03)( 189) =0.309
5
Se2= 0.095
Sy2= n(y2)-(y)2/n =7(260)-(40)2/7= 318.28
n-2 5
r2= 1- Se2 = 1- 0.095= 0.999
Sy2 318.28
6.- Explique por que el valor r2 nunca puede ser negativo
Porque r2= 1- Se2 ; y Se2 siempre debe ser menor que Sy2
Sy2
7.- Calcule r2 para cada uno de los siguientes casos:
a | b | c | d | e | |
Se2 | 14400 | 14400 | 2025 | 2025 | 606 |
Sy2 | 28800 | 57600 | 2500 | 2200 | 6060 |
a.- r2= 1- Se2 = 1- 14400 = 0.5
Sy2 28800
b.- r2= 1- Se2 = 1- 14400= 0.75
Sy2 57600
c.- r2= 1- Se2 = 1- 2025 = 0.19
Sy2 2500
d.- r2= 1- Se2 = 1- 2025 = 0.079
Sy2 2200
e.- r2= 1- Se2 = 1- 606 = 0.9
Sy2 6060
11.- Utilice la siguiente información para los cálculos:
Yc= 13 + 2x Se= 3 n=10
x= 40 x2=600
a) Estime un intervalo de confianza de 95% para el valor promedio (esperado) de y, si xg es:
Yc ± t(Se (1/n)+( xg-x)2 /{x2-[(x)2/n]})
DATOS:
1.0
n-2= 10-2 = 8
Yc= 13+2(1) =15
X= x/n= 40/10= 4.0
.025
8 t= 2.306
SUSTITUYENDO EN LA FORMULA
15 ± 2.306 (3.0 (1/10)+( 1.0-4.0)2 /{600-[(40)2/10]})
-
± 2.306 (1.04)
12.60 a 17.40
DATOS :
4.0
Yc= 13+2(4) = 21
SUSTITUYENDO EN LA FORMULA
21 ± 2.306 (3.0 (1/10)+( 4.0-4.0)2 /{600-[(40)2/10]})
21± 2.306 (0.948)
18.81 a 23.18
DATOS :
8.0
Yc= 13+2(8) = 29
SUSTITUYENDO EN LA FORMULA
29 ± 2.306 (3.0 (1/10)+( 8.0-4.0)2 /{600-[(40)2/10]})
29 ± 2.306 (1.1078)
26.44 a 31.55
b) Obtenga un intervalo de confianza de 95% para un valor individual de y cuando xg es:
Yc ± t(Se 1+(1/n)+( xg-x)2 /{x2-[(x)2/n]})
DATOS :
1.0
Yc= 15
SUSTITUYENDO EN LA FORMULA:
Yc ± t (Se 1+(1/n)+( xg-x)2 /{x2-[(x)2/n]})
15 ± 2.306 (3.175)
7.68 a 22.32
DATOS :
4.0
Yc= 21
SUSTITUYENDO EN LA FORMULA:
Yc ± t (Se 1+(1/n)+( xg-x)2 /{x2-[(x)2/n]})
21 ± 2.306 (3.146)
13.74 a 28.2
DATOS :
8.0
Yc= 29
SUSTITUYENDO EN LA FORMULA:
Yc ± t (Se 1+(1/n)+( xg-x)2 /{x2-[(x)2/n]})
29 ± 2.306 (3.19)
21.62 a 36.38
12.- Cuando xg se hace igual a 0, el intervalo de confianza resultante para el valor promedio de y se convierte en el intervalo para la ordenada en el origen a.
a) Determine un intervalo de confianza de 95% para a en el ejercicio 11.
DATOS :
Xg= 0
Yc= 13+2(0) = 13
SUSTITUYENDO EN LA FORMULA
13 ± 2.306 (3.0 (1/10)+( 0-4.0)2 /{600-[(40)2/10]})
13± 2.306 (1.107)
10.44 a 15.55
Obtenga un intervalo de confianza de 95% y uno de 99% para a, respecto al ejemplo de la pagina 413.
DATOS:
N.C=95% = .025
N.C=99% = .005
Xg=0
Yc= 2934 -38.56 (0)= 2934
n-2=14-2= 12
x=505
x2=21825
X= 505/14= 36.07
Se=324.55
.025 .005
12 2.179 12 3.055
SUSTITUYENDO EN LA FORMULA
Para 95%
2934 ± 2.179(324.55 (1/14)+( 0-36.07)2 /{21825-[(505)2/14]})
2934± 464.78
3398.78 a 2469.21
Para 99%
2934 ± 3.055(324.55 (1/14)+( 0-36.07)2 /{21825-[(505)2/14]})
2934± 651.63
3585.632 a 2282.36
Pag 439
Dada la ecuación de regresión múltiple Yc = -420 + 50X1 + 2.5X2 encuentre Yc para los siguientes casos:
a) X1 = 15, X2 = 3000
Yc = -420 + 50X1 + 2.5X2
= -420 + 50(15) + 2.5(3000)
= 7830
b) X1 = 10, X2 = 2000
Yc = -420 + 50X1 + 2.5X2
= -420 + 50(10) + 2.5(2000)
= 5080
c) X1 = 20, X2 = 1000
Yc = -420 + 50X1 + 2.5X2
= -420 + 50(20) + 2.5(1000)
= 3080
Dada la ecuación de la regresión múltiple Yc =0.40+3X1-2X2-X3, calcule Yc para los siguientes casos:
X1 = 1, X2 = 0.5, X3 = 1.4
Yc = 0.40 + 3X1 - 2X2 - X3
= 0.40 + 3(1) - 2(0.5) - (1.4)
= 1
X1 = 0.6,X2 = 0.4, X3 = 2
Yc = 0.40 + 3X1 - 2X2 - X3
= 0.40 + 3(0.6) - 2(0.4) - (2)
= -0.6
X1 = 0, X2 = 0, X3 = 0
Yc = 0.40 + 3X1 - 2X2 - X3
= 0.40 + 3(0) - 2(0) - (0)
= 0.40
Pag 448
Estandarice cada conjunto de cantidades y calcule el coeficiente de correlación.
a)
X | Y | XY |
34 30 40 34 39 35 42 45 43 _ X = 38 Sx = 5 | 21 22 25 28 15 24 24 22 17 _ Y = 22 Sy = 4 | 714 660 1000 952 585 840 1008 990 731 7480 |
X = 342 Y = 198
X2 = 13196 Y2 = 4484
XY = 7480
r = n (XY) - (X)( Y)
n (X2) - (X)2 • n (Y2) - (Y)2
= 9(7480) - (342)(198)
9(13196) - (342)2 • 9(4484) - (198)2
= - 396 = 0.275
(42.42) (33.94)
b)
X | Y | XY |
3.9 4.6 6.0 2.8 3.1 3.4 4.2 4.0 _ X = 4 Sx = 1 | 46 46 52 50 48 40 42 44 _ Y = 46 Sy = 4 | 179.4 211.6 312 140 148.8 136 176.4 176 1480.2 |
X = 32 Y = 368
X2 = 135.02 Y2 = 17040
XY = 1480.2
r = n (XY) - (X)( Y)
n (X2) - (X)2 • n (Y2) - (Y)2
= 8(1480.2) - (32)(368)
8(135.02) - (32)2 • 8(17040) - (368)2
= 65.6 = 0.292
(7.49) (29.93)
Vuelva a calcular r para el ejercicio 1ª, considerando a las x como y, a las y como x. Justifique su respuesta en términos de la fórmula de r.
a)
X | Y | XY |
21 22 25 28 15 24 24 22 17 _ X = 22 Sx = 4 | 34 30 40 34 39 35 42 45 43 _ Y = 38 Sy = 5 | 714 660 1000 952 585 840 1008 990 731 7480 |
X = 198 Y = 342
X2 = 4484 Y2 = 13196
XY = 7480
r = n (XY) - (X)( Y)
n (X2) - (X)2 • n (Y2) - (Y)2
= 9(7480) - (198)( 342)
9(4484) - (198)2 • 9(13196) - (342)2
= - 396 = 0.275
(33.94) (42.42)
b)
X | Y | XY |
46 46 52 50 48 40 42 44 _ X = 46 Sx = 4 | 3.9 4.6 6.0 2.8 3.1 3.4 4.2 4.0 _ Y = 4 Sy = 1 | 179.4 211.6 312 140 148.8 136 176.4 176 1480.2 |
X = 368 Y = 32
X2 = 17040 Y2 = 135.02
XY = 1480.2
r = n (XY) - (X)( Y)
n (X2) - (X)2 • n (Y2) - (Y)2
= 8(1480.2) - (368)(32)
8(17040) - (368)2 • 8(135.02) - (32)2
= 65.6 = 0.292
(29.93) (7.49)
El valor no se ve alterado.
Con base en los datos del ejercicio 1ª.
Duplique cada valor de x y vuelva a calcular la media y la desviación estándar de las x.
X | Y | XY |
68 60 80 68 78 70 84 90 86 _ X = 76 Sx = 10 | 21 22 25 28 15 24 24 22 17 _ Y = 22 Sy = 4 | 1428 1320 2000 1904 1170 1680 2016 1980 1462 14960 |
Estandarice los valores de x.
X = 684 Y = 198
X2 = 52784 Y2 = 4484
XY = 14960
Compare estos valores estandarizados con cos obtenidos para las x en el ejercicio 1ª.
El resultado es el doble
¿Qué efecto tiene sobre r el duplicar las x?
r = n (XY) - (X)( Y)
n (X2) - (X)2 • n (Y2) - (Y)2
= 9(14960) - (684)(198)
9(52784) - (684)2 • 9(4484) - (198)2
= - 792 = 0.275
(84.85) (33.94)
Ninguno
Con base en los datos del ejercicio 1:
Sume 12 a cada valor de x y reste 2 a cada valor de y.
X | Y |
46 42 52 46 51 47 54 57 55 | 19 20 23 26 13 22 22 20 15 |
Calcule la media y la desviación estándar de cada conjunto, utilizando los valores que se obtuvieron en el a).
_ _
X = 50 Y = 20
Sx = 5 Sy = 4
Estandarice los valores y compárelos con los valores estandarizados que se obtuvieron en el ejemplo 1.
XY
874
840
1196
1196
663
1034
1188
1140
825
8956
¿Qué efecto tiene r el sumar o restar una constante para los valores de x o de y?
Ninguno
Determine el coeficiente de correlación para los siguientes conjuntos de calificaciones.
Alumno | Primer examen | Segundo examen | XY |
1 2 3 4 5 6 7 8 9 10 11 | 82 84 86 83 88 87 85 83 86 85 87 _ X = 85 | 92 91 90 92 87 86 89 90 92 90 91 _ Y = 90 | 7544 7644 7740 7636 7656 7482 7565 7470 7912 7560 7917 84216 |
X = 936 Y = 990
X2 = 79682 Y2 = 89140
XY = 84216
r = n (XY) - (X)( Y)
n (X2) - (X)2 • n (Y2) - (Y)2
= 11(84216) - (936)(990)
11(79682) - (936)2 • 11(89140) - (990)2
= - 264 = 0.625
(20.14) (20.97)
Dados los siguientes conjuntos, calcule el valor de r:
n | X | Y | XY | X2 | Y2 |
a) 25 b) 50 c) 100 | 60 15 -20 | 52 20 25 | 200 146 -3.5 | 400 204.5 5 | 592 400 12.5 |
a) r = n (XY) - (X)( Y)
n (X2) - (X)2 • n (Y2) - (Y)2
= 25(200) - (60)(52)
25(400) - (60)2 • 25(592) - (52)2
= 1880 = 0.214
(80) (109.98)
b) r = n (XY) - (X)( Y)
n (X2) - (X)2 • n (Y2) - (Y)2
= 50(146) - (15)(20)
50(204.5) - (15)2 • 50(400) - (20)2
= 7000 = 0.500
(100) (140)
c) r = n (XY) - (X)( Y)
n (X2) - (X)2 • n (Y2) - (Y)2
= 100 (-3.5) - (-20)(25)
100(5) - (-20)2 • 100(12.5) - (25)2
= 150 = 0.60
(10) (25)
A continuación se dan las calificaciones de idioma y de matemáticas de los exámenes de admisión de una universidad correspondientes a 7 alumnos.
Alumno | Examen Oral | Examen de Matemáticas |
1 2 3 4 5 6 7 | 420 450 410 360 320 440 400 | 550 600 520 400 410 425 475 |
Divida cada calificación entre 100
Alumno | Examen Oral | Examen de Matemáticas | XY |
1 2 3 4 5 6 7 | 4.2 4.5 4.1 3.6 3.2 4.4 4.0 | 5.5 6.0 5.2 4.0 4.1 4.25 4.75 | 23.1 27 21.32 14.4 13.12 18.7 19 136.64 |
X = 28 Y = 33.8
X2 = 113.26 Y2 = 166.725
XY = 136.64
Calcule el coeficiente de correlación
r = n (XY) - (X)( Y)
n (X2) - (X)2 • n (Y2) - (Y)2
= 7(136.64) - (28)(33.8)
7(113.26) - (28)2 • 7(166.725) - (33.8)2
= 10.08 = 0.68
(2.96) (4.96)
Determine el coeficiente de correlación para los datos del siguiente ejercicio:
Horas-hombre x mes de instrucción | Accidentes x millón de horas-hombre | XY |
200 500 450 800 900 150 300 600 | 7.0 6.4 5.2 4.0 3.1 8.0 6.5 4.4 | 1400 3200 2340 3200 2790 1200 1950 2640 18720 |
X = 3900 Y = 44.6
X2 = 241500 Y2 = 268.22
XY = 18720
r = n (XY) - (X)( Y)
n (X2) - (X)2 • n (Y2) - (Y)2
= 8(18720) - (3900)(44.6)
8(2415000) - (3900)2 • 8(268.22) - (44.6)2
= -24180 = 0.95
(2027.31) (12.51)
Dados los siguientes datos sobre delitos por violencia y temperatura promedio entre 9 p.m. y 2 a.m. las tardes de los sábados en una gran comunidad, represente en una gráfica los datos, y calcule el coeficiente de correlación:
Delitos/1000 residentes | Temperatura promedio (°F) | XY |
5.0 2.2 4.1 5.4 2.8 3.0 3.6 4.9 4.1 4.2 2.0 2.7 3.1 | 87 50 75 90 55 54 68 85 82 80 45 58 66 | 435 110 307.5 486 154 162 244.8 416.5 336.2 336 90 156.6 204.6 3439.2 |
X = 47.1 Y = 895
X2 = 184.97 Y2 = 64453
XY = 3439.2
r = n (XY) - (X)( Y)
n (X2) - (X)2 • n (Y2) - (Y)2
= 13(3439.2) - (47.1)(184.97)
13(184.97) - (47.1)2 • 13(64453) - (895)2
= 35997.513 = 0.973
(13.64) (192)
Determine el coeficiente de correlación en lo referente al número de horas estudiadas por 11 alumnos de las calificaciones que obtienen en un examen.
Horas de estudio | Calificación | XY |
2 ½ 3 6 4 6 4 ½ 7 10 5 ½ 5 8 ½ | 89 95 80 82 85 90 75 70 91 93 74 | 222.5 285 480 328 510 405 525 700 500.5 465 629 5050 |
X = 62 Y = 924
X2 = 400 Y2 = 78326
XY = 5050
r = n (XY) - (X)( Y)
n (X2) - (X)2 • n (Y2) - (Y)2
= 11(5050) - (62)(924)
11(400) - (62)2 • 11(78326) - (924)2
= -1738 = 0.834
(23.57) (88.37)
a) Se sorprendería si sus cálculos para un conjunto dado de pares de observaciones produjeran r = +0.9 y b = -0.9. ¿Por qué si o por qué no?
R = Si, porque r y b siempre tienen el mismo signo
b) Dados los siguientes datos, se sorprendería si ambos conjuntos tuvieran una correlación positiva?
R = No, porque en ambos casos los aumentos en X vienen acompañados por incrementos en Y.
c) Se sorprendería si ambos produjeran r = +1.00? Explíquelo.
Conjunto 1 | Conjunto 2 |
X Y | X Y |
1 0 5 8 | 0 1 10 4 |
R = No, porque no se presenta dispersión alrededor de la línea que tiene dos puntos.
Para cada una de las siguientes situaciones, establezca si el análisis de correlación o el análisis de regresión serían más apropiados y por qué?
Un equipo de investigadores quiere determinar si las calificaciones en la universidad son indicativas de éxito en cierto campo.
R = Correlación, porque produce un número que resume el grado de relación entre dos variables.
Estime el número de kilómetros que es de esperar que recorra un conjunto de llantas radales antes de que sea necesario sustituirlo.
R = Regresión, porque da lugar a una ecuación matemática que describe dicha relación.
Prediga cuánto demorará una persona en determinar un trabajo con base en el número de semanas de entrenamiento.
R = Regresión, porque da lugar a una ecuación matemática que describe dicha relación.
Determine si el número de semanas que se pasaron en un curso de adiestramiento, es una variable importante en el tiempo que toma realizar un trabajo.
R = Correlación, el investigador o analista trata de determinar qué variables son potencialmente importantes, y el interés radica básicamente en la fuerza de la relación.
El administrador de una tienda quiere estimar las ventas semanales, basándose en las ventas de lunes y martes.
R = Regresión, porque da lugar a una ecuación matemática que describe dicha relación.
EJERCICIOS PAGINA 454
1.- Para cada coeficiente de correlación de una muestra, obtenga un intervalo de confianza de 95% utilizando la fig. 14.22 respecto del coeficiente de correlación de la población, y luego determine si la muestra r es significativamente diferente de cero.
r | a | b | c | d | e |
r | 0.80 | 0.10 | -0.30 | -0.30 | -0.30 |
n | 15 | 15 | 25 | 50 | 100 |
0.48 a 0.92 Significativo
-0.42 a 0.57 No significativo
-0.62 a 0.10 No significativo
-0.53 a -0.03 Significativo
-0.42 a -0.11 Significativo
2.- Obtenga intervalos de confianza de 95% para la correlación verdadera de la población para cada no de los siguientes casos, y después diga cuáles valores r no son significativos al nivel 0.05.
a | b | c | d | E | f | |
r | 0.10 | 0.10 | 0.10 | 0.70 | 0.70 | 0.00 |
n | 20 | 50 | 200 | 50 | 50 | 25 |
Si el cero no está en el intervalo no es significativo:
-0.35 a 0.51 No significativo
-0.18 a 0.37 No significativo
-0.04 a 0.23 Significativo
0.54 a 0.81 Significativo
-0.81 a -0.54 Significativo
-0.39 a 0.39 No significativo
3.- Utilice la fórmula:
t= ( r-0)/ (1-r2)/(n-2)
Alumno | 1er. examen | 2o. examen |
1 | 82 | 92 |
2 | 84 | 91 |
3 | 86 | 90 |
4 | 83 | 92 |
5 | 88 | 87 |
6 | 87 | 86 |
7 | 85 | 89 |
8 | 83 | 90 |
9 | 86 | 92 |
10 | 85 | 90 |
11 | 87 | 91 |
X= 85 | Y= 90 |
y el nivel 0.01, y determine cuáles de los casos siguientes son significativos:
a)
xy=84216
x2= 79682
y2= 89140
n-2= 11-2= 9
r= n(xy)-( x)( y)_ _ = 11 (84216) - ( 936) ( 990) _ = -0.6
n(x2)-( x)2) * n(y2)-( y)2 11(79682)-( 79682)2 11(89140)-( 990)2
.005
-
t= 2.821
t=(-0.6)/ (1-.36)/(11-2) = -2.25 No significativo
b)
x | y |
5 | 87 |
2.2 | 50 |
4.1 | 75 |
5.4 | 90 |
2.8 | 55 |
3 | 54 |
3.6 | 68 |
4.9 | 85 |
4.1 | 82 |
4.2 | 80 |
2 | 45 |
2.7 | 58 |
3.1 | 66 |
47.1 | 895 |
xy= 3444.1
x2= 184.97
y2= 64624
r= 13(3444.1)-( 47.1)( 896)_ =0.97
13(184.97)-( 47.1)2) * 13(64624)-( 896)2
n-2= 13-2= 11
t= 0.97 = 14.32 Significativo
(1-0.94)/(11)
.005
11 3.106
c)
Horas estudio | Calificación |
2.5 | 89 |
3 | 95 |
6 | 80 |
4 | 82 |
6 | 85 |
4.5 | 90 |
7 | 75 |
10 | 70 |
5.5 | 91 |
5 | 93 |
8.5 | 74 |
62 | 924 |
xy= 5050
x2= 400
y2= 78326
r= 11(5050)-( 62)(924)_ =-0.834
11(400)-( 62)2) * 11(78326)-( 924)2
n-2=11-2= 9
.005
9 3.250
t= -0.834 = -4.53 Significativo
(1-0.69)/(9)
4.- Utilice un intervalo de confianza de 95%, obteniendo a partir de la figura 14.22, a fin de evaluar cada una de las siguientes afirmaciones:
a) Ho: = 0.6, H1: " 0.6, cuando r= 0.4 y n= 50
0.14 a 0.61 Se acepta Ho
b) Ho: = 0.9, H1: " 0.9, cuando r= 0.8 y n= 25
0.58 a 0.90 Se acepta Ho
Ho: = -0.5 , H1: " -0.5, cuando r= -0.4 y n= 400
-0.32 a -0.48 Se rechaza Ho
5.- En un grupo de investigaciones se estableció una escala del grado de violencia en programas de TV, para lo cual se calificó con 10 programas y recopilaron datos sobre el porcentaje del teleauditorio de cada uno de ellos.
Programa 2 | Grado violencia (x) | % de teleauditorio (y) |
1 | 10 | 15 |
2 | 20 | 16 |
3 | 30 | 20 |
4 | 40 | 24 |
5 | 40 | 25 |
6 | 50 | 30 |
7 | 55 | 30 |
8 | 65 | 35 |
9 | 70 | 35 |
10 | 70 | 35 |
450 | 265 |
xy= 13355
x2= 24150
y2= 7557
a) Establezca una ecuación predictiva en lo referente al teleauditorio potencial, en términos del coeficiente de violencia.
b= n(xy) -(x)( y)= 10(13355)- (450)( 265) = 0.37
n(x2)-( x)2 7(24150)-( 4502
a= y -bx= 265-(0.37)( 450)= 10
n 8
Yc= 10 + 0.37x
b) Determine el porcentaje de variación explicada
Se= y2 - ay - bxy = 7557- (10)( 265)-( 0.37)( 13355) =1.127
n-2 8
Se2 =1.27
Sy2= n(y2)-(y)2/n =(10(7557)-( 265)2)/10= 66.8
n-2 8
r2= 1- Se2 = 1- 1.27= 0.98
Sy2 66.8
c) Calcule o determine el coeficiente de correlación:
r= n(xy)-( x)( y) _ = 10 (13355) - (450) (265) _ = 0.99
n(x2)-( x)2) * n(y2)-( y)2 10(24150)-( 450)2 10(7557)-( 265)2
¿Qué supuestos fueron necesarios para el inciso a?
Los supuestos de regresión
¿Para el inciso c?
Los supuestos de correlación
¿Es b significativo? ¿Lo es r? (Utilice 0.05)
Sb= Se 1 _ =( 1.127) 1 _= 0.02
x2- [(x)2/n] 24150 - [(450)2/10]
.025
b ± t Sb
0.37 ± (2.306)( 0.02)
0.32388 a 0.41612 Significativo
8 2.306
t= 0.99 = 19.8 Significativo
(1-0.98)/(8)
f) Cuál es el intervalo de confianza de 95% para el porcentaje del teleauditorio de un nuevo programa que presenta un coeficiente de violencia de 60?
DATOS: .025
N.C=95% = .025
Xg=6
Yc= 10 +.37 (6)= 12.22
n-2=10-2= 8 8 2.306
x=450
x2=24150
X= 450/10= 45
Se=1.127
Yc ± t(Se 1-(1/n)+( xg-x)2 /{x2-[(x)2/n]})
12.22 ± (2.306) (1.127)(1.05)
12.22 ± (2.7)
9.49 a 14.94
6.- Utilice un intervalo de confianza para valorar esta afirmación:
Ho: = -0.45, H1: " -0.45, =0.05, r= -0.5 y n= 200
-0.6 < p < -0.4
:. Se acepta Ho.
Pag 459
Pruebe cada coeficiente de correlación al nivel 0.05, para obtener la significación utilizando:
Ho : p = o Hl = p " 0
rsp = +0.60, n = 17
Ho : p = o
Hl : p " 0
g.L. = n - 2
= 17 - 2
= 15
Valor Teórico
15 2.131 VT = 2.131
Valor Experimental
t =
= = 0.60 = 2.90
1 - rsp2 1 - (60)2
n - 2 17 - 2
VExp = 2.90
Comparación
ø2.90ø " ø2.131ø
Conclusión: Se rechaza Ho
rsp = +0.45, n = 22
Ho : p = o
Hl : p " 0
g.L. = n - 2
= 22 - 2
= 20
Valor Teórico
20 2.086 VT = 2.086
Valor Experimental
t =
= = 0.45 = 2.25
1 - rsp2 1 - (.45)2
n - 2 22 - 2
VExp = 2.25
Comparación
ø2.25ø " ø2.086ø
Conclusión: Se rechaza Ho
rsp = +0.91, n = 11
Ho : p = o
Hl : p " 0
g.L. = n - 2
= 11 - 2
= 9
Valor Teórico
9 2.262 VT = 2.262
Valor Experimental
t =
= = 0.91 = 6.58
1 - rsp2 1 - (.91)2
n - 2 11 - 2
VExp = 6.58
Comparación
ø6.58ø " ø2.262ø
Conclusión: Se rechaza Ho
rsp = +0.25, n = 32
Ho : p = o
Hl : p " 0
g.L. = n - 2
= 32 - 2
= 30
Valor Teórico
30 2.042 VT = 2.042
Valor Experimental
t =
= = 0.25 = 1.41
1 - rsp2 1 - (.25)2
n - 2 32 - 2
VExp = 1.41
Comparación
ø1.41ø " ø2.042ø
Conclusión: Se acepta Ho
a) ¿Calcular rsp para el ejercicio de la página 448 y 449. Concuerdan los resultados con el valor que se obtuvo utilizando la r de Pearson? ¿Por qué?
Alumno | Examen Oral | Examen de Matemáticas | Diferencia d | Diferencia2 d2 |
1 2 3 4 5 6 7 | 4.2 4.5 4.1 3.6 3.2 4.4 4.0 | 5.5 6.0 5.2 4.0 4.1 4.25 4.75 | +1.3 +1.5 +1.1 +.40 +.90 -.15 +.75 d = 5.8 | 1.69 2.25 1.21 0.16 0.81 0.02 0.56 d2=6.7 |
rsp = 1 - . 6 d2 .
n(n2 - 1)
= 1 -. 6 (6.7) .= 1 - 40.23
7(72 - 1) 336
= 0.88
rsp = 0.88 (r de Pearson = +0.68), la jerarquización hace que se desperdicie información.
b) ¿Cuál método es la mejor técnica de correlación, el de Pearson o el de Spearman? Explíquelo brevemente.
Si los datos están en rangos, o si los supuestos necesarios para la correlación de Pearson no son satisfechos, es preferible emplear la de Spearman. Si los supuestos de Pearson son cumplidos, se debe usar ésta, dado que desperdicia menos información.
3. Calcule el coeficiente de correlación de rangos en el caso de los siguientes datos, pruebe la significación al nivel 0.01:
Rango | Número 1 | Número 2 | d | d2 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 | 3 2 4 1 9 5 6 10 8 11 7 14 12 13 | 1 2 3 5 6 4 7 11 9 10 8 12 13 14 | -2 0 -1 4 -3 -1 1 1 1 -1 1 -2 1 1 d = 0 | 4 0 1 16 9 1 1 1 1 1 1 4 1 1 d2=42 |
rsp = 1 - . 6 d2 .
n(n2 - 1)
= 1 -. 6 (42) .= 1 - 252
14(142 - 1) 2730
= 0.908
Ho : p = o
Hl : p " 0
g.L. = n - 2
= 14 - 2
= 12
Valor Teórico
12 3.055 VT = 3.055
Valor Experimental
t =
= = 0.908 = 7.51
1 - rsp2 1 - (.908)2
n - 2 14 - 2
VExp = 7.51
Comparación
ø7.51ø " ø3.055ø
Conclusión: Se rechaza Ho
Escriba en orden los rangos 1 - 6 y después forme pares con los mismos en el orden opuesto. Calcule rsp. Determine este valor en el caso de que los 2 conjuntos de rangos (1 al 6) se encuentren en el mismo orden. Ahora intente reordenar los datos, de manera que rsp sea aproximadamente igual a cero.
Rango | Número 1 | Número 2 |
1 2 3 4 5 6 | 1 2 3 4 5 9 | 1 2 3 4 5 6 |
Rangos opuestos dan como resultado rsp = -1;
Rangos iguales producen rsp = +1.
A dos gerentes se les pide que jerarquicen a 11 empleados jóvenes, de acuerdo con su potencialidad directiva. Determine el grado en que los dos gerentes concuerdan o no, y determine si la relación es significativa o no.
Empleado | Rango A | Rango B | d | d2 |
Alfonso S. Eduardo B. Ana D. Ramón Z. Roberto K. Martín A. Alejandro J. Guillermo T. Néstor T. Juan H. Samuel P. | 6 7 5 4 9 1 8 2 3 11 10 | 9 10 8 7 11 1 6 2 4 3 5 | 3 3 3 3 2 0 -2 0 1 -8 -5 d = 0 | 9 9 9 9 4 0 4 0 1 64 25 d2=134 |
rsp = 1 - . 6 d2 .
n(n2 - 1)
= 1 -. 6 (134) .= 1 - 804
11(112 - 1) 1320
= 0.391
t =
= = 0.391 = 1.27
1 - rsp2 1 - (.391)2
n - 2 11 - 2
VExp = 1.27
Se aceptan en todos los niveles (no significativo)
EJERCICIOS PAGINA 463
1.- Para cada una de las condiciones siguientes, determine si existe una relación significativa entre las dos variables, y si la hay, determine la intensidad.
Tamaño de tabla 2 N
a. 4 X 4 150 200 .02
C="(150/150+200)= .65
Cmax= "(3/4)=.86
Debido a que la dif. es poca y el tamaño de la tabla es minimo, la intensidad es moderada
b. 5 X 5 40 200 .05
C="(40/40+200)=.40
Cmax= "(4/5)=.89
Debido a que la dif. es considerable y el tamaño de la tabla es poco mas grande, la intensidad es moderada
c. 3 X 3 250 250 .01
C="(250/250+250)= .70
Cmax= "(2/3)=.816
Debido a que la dif. es muy poca y el tamaño de la tabla es chico, la intensidad es alta
d. 6 X 6 130 150 .05
C="(130/130+150)= .68
Cmax= "(5/6)=.91
Debido a que la dif. es considerable y el tamaño de la tabla es grande, la intensidad es moderada
e. 4 X 4 16 100 .05
No existe relación significativa ya que el valor es muy pequeño.
2.- Se reunieron las calificaciones de lectura y de matemáticas de niños de quinto grado, obteniéndose los siguientes resultados. Determine si existe alguna relación entre las dos calificaciones para este grupo.
Frecuencia observada | ||||||||
Matemáticas | ||||||||
Lectura | A | B | C | D | Totales | |||
A | 20 | 40 | 30 | 0 | 90 | |||
B | 30 | 60 | 20 | 10 | 120 | |||
C | 50 | 50 | 80 | 60 | 240 | |||
D | 0 | 50 | 70 | 30 | 150 | |||
Totales | 100 | 200 | 200 | 100 | 600 | |||
Frecuencia esperada | ||||||||
A | B | C | D | |||||
15 | 30 | 30 | 15 | |||||
20 | 40 | 40 | 20 | |||||
40 | 80 | 80 | 40 | |||||
25 | 50 | 50 | 25 |
Se calcula el valor de 2 , bajo la formula de 2="[(fo-fe)2]/fe
1.7 | + 3.33 | + 0.00 | + 15.00 | = 20.0 |
5 | + 10.00 | + 10.00 | + 5.00 | = 30.0 |
2.5 | + 11.25 | + 0.00 | + 10.00 | = 23.8 |
25 | + 0.00 | + 8.00 | + 1.00 | = 34.0 |
| = 107.8 |
Después se calcula el coeficiente de contingencia C, bajo la formula
C= " 2/( 2+N)
C="107.8/(107.8+600)
C= .39
Se calcula el valor maximo de C, o sea Cmax con la formula:
Cmax= "(k-1)/k
Cmax= "3/4= .86
Y como la diferencia entre C y Cmax es grande y la tabla es de valor medio, la intensidad de la relación es moderada.
3.- Explique la forma como la tabla de contingencias de 2 y la prueba de ji cuadrda de la tabla de independencia difieren en lo que respecta al numero de K y como se marcan las filas y las columnas.
Es fácil pensarlo ya que en una tabla de contingencias solo hay una muestra con resultados que se encuentran clasificados transversalmente en las casillas; en el caso de una tabla rXk, hay k muestras. Las escalas de una tabla de contingencias tienen dirección; en tanto que por lo regular no tienen dirección en una tabla rXk;
4.- Una compañía está considerando la posibilidad de ofrecer a sus empleados un incentivo económico para que dejen de fumar o reduzcan su consumo de tabaco, de existir una correlación directa entre el fumar y el ausentismo. Analice los datos proporcionados por la compañía y determine si se deberá o no ofrecer el incentivo.
| Frecuencia observada | ||||
Inasistencias | No fumador | Ligero | Moderado | Intenso | Totales |
0 - 2 | 10 | 10 | 55 | 65 | 140 |
3-4 | 5 | 50 | 30 | 55 | 140 |
5-6 | 10 | 70 | 10 | 50 | 140 |
7 ó más | 35 | 70 | 5 | 30 | 140 |
Totales | 60 | 200 | 100 | 200 | 560 |
Se calcula el valor de 2 , bajo la formula de 2="[(fo-fe)2]/fe, calculamos la tabla de frecuencias esperadas.
Frecuencia esperada | |||||||||
15 | 50 | 25 | 50 | ||||||
15 | 50 | 25 | 50 | ||||||
15 | 50 | 25 | 50 | ||||||
15 | 50 | 25 | 50 | ||||||
1.7 | + 32.00 | + 36.00 | + 4.50 | = 74.2 | |||||
6.7 | + 0.00 | + 1.00 | + 0.50 | = 8.2 | |||||
1.7 | + 8.00 | + 9.00 | + 0.00 | = 18.7 | |||||
27 | + 8.00 | + 16.00 | + 8.00 | = 58.7 | |||||
| = 159.7 |
Después se calcula el coeficiente de contingencia C, bajo la formula C= " 2/(2+N)
C="159.7/(159.7+560)
C= .47
Se calcula el valor máximo de C, o sea Cmax con la formula:
Cmax= " (k-1)/k
Cmax= "3/4= .86
Y como la diferencia entre C y Cmax es grande y la tabla es de valor medio, la intensidad de la relación es moderada o considerable, por lo tanto no se debe ofrecer ningún incentivo.
X = 450 Y = 180
X2 = 22700 Y2 = 3728
XY = 8956
.025
rsp
.025
rsp
.025
rsp
.025
rsp
.005
rsp
rsp
Descargar
Enviado por: | Paulina Atenea |
Idioma: | castellano |
País: | México |