Estadística
Análisis Cluster por variables
PRÁCTICAS DE ANALISIS CLUSTER POR VARIABLES.
PROGRAMA 1M.
En un estudio sobre tabaquismo se ha tomado una muestra de 110 personas, sobre las cuales se han medido 12 variables, X1, X2,...,X12. Dichas variables contienen información sobre el estado psicológico y físico de cada individuo, Cada cuestión tiene una gama de respuestas que oscila entre 1 y 5, sonde se va de más a menos respuestas.
Los investigadores desean verificar la utilidad de las 12 cuestiones para medir una dimensión específica, como es la del deseo de fumar. Para ello en un primer paso, emplean el Análisis Cluster con el fin de establecer grupos de variables que conformen factores específicos. Los datos de los que disponemos bien en la tabla que se presenta.
-
Crea un fichero de datos, 1M2.ASC cuyo contenido sean los datos anteriores.
-
Elabora un fichero de órdenes 1M2.INP que permita establecer los grupos homogéneos de variables que se pretenden obtener.
-
Comenta los resultados obtenidos.
Crea un fichero de datos, 1M2.ASC cuyo contenido sean los datos anteriores.
Elabora un fichero de órdenes 1M2.INP que permita establecer los grupos homogéneos de variables que se pretenden obtener.
-
Elaboramos el fichero de ordenes 1M2-1.INP, donde vamos a utilizar el Método de Linkaje Simple o minimizar la distancia.
/PROBLEM
TITLE IS 'PRACTICA 1 1M'.
/INPUT
FILE IS 'A:\1m2.ASC'.
VARIABLES=12.
FORMAT IS FREE.
TYPE IS DATA.
/VARIABLE
NAMES ARE X1,X2,X3,X4,X5,X6,X7,X8,X9,X10,
X11,X12.
/PROCEDURE
MEASURE IS CORR.
LINK IS SINGLE.
CORR.
NCUT=5.
/END
BMDP1M - CLUSTER ANALYSIS OF VARIABLES
CASE 1 2 3 4 5 6 7 8
NO. X1 X2 X3 X4 X5 X6 X7 X8
----- -------- -------- -------- -------- -------- -------- -------- --------
1 3.00 2.00 1.00 3.00 2.00 2.00 1.00 3.00
2 4.00 2.00 5.00 3.00 5.00 4.00 5.00 4.00
3 5.00 3.00 4.00 4.00 5.00 5.00 4.00 5.00
4 4.00 2.00 4.00 3.00 5.00 4.00 4.00 4.00
5 4.00 2.00 4.00 3.00 4.00 2.00 4.00 4.00
6 3.00 2.00 3.00 1.00 3.00 2.00 3.00 3.00
7 4.00 2.00 4.00 2.00 4.00 3.00 3.00 3.00
8 3.00 2.00 3.00 2.00 4.00 2.00 3.00 3.00
9 3.00 2.00 3.00 2.00 4.00 4.00 3.00 3.00
10 3.00 2.00 4.00 1.00 4.00 3.00 4.00 3.00
CASE 9 10 11 12
NO. X9 X10 X11 X12
----- -------- -------- -------- --------
1 2.00 2.00 3.00 2.00
2 3.00 4.00 4.00 5.00
3 3.00 4.00 3.00 4.00
4 3.00 4.00 3.00 5.00
5 2.00 4.00 3.00 4.00
6 2.00 3.00 3.00 4.00
7 2.00 3.00 3.00 4.00
8 2.00 3.00 3.00 4.00
9 2.00 3.00 3.00 4.00
10 2.00 3.00 3.00 4.00
NUMBER OF CASES READ. . . . . . . . . . . . . . 110
DESCRIPTIVE STATISTICS OF DATA
-------------------------------
VARIABLE TOTAL STANDARD ST.ERR COEFF
NO. NAME FREQ. MEAN DEV. OF MEAN OF VAR
1 X1 110 2.6909 1.0730 .10230 .39874
2 X2 110 2.1182 .97427 .09289 .45996
3 X3 110 3.3636 1.1311 .10785 .33627
4 X4 110 2.6091 1.0235 .09759 .39230
5 X5 110 3.5818 1.0613 .10119 .29629
6 X6 110 2.4455 .99158 .09454 .40548
7 X7 110 3.4364 1.1536 .10999 .33570
8 X8 110 2.8000 1.0209 .09734 .36460
9 X9 110 2.2909 .87099 .08305 .38020
10 X10 110 3.0182 .93830 .08946 .31088
11 X11 110 2.4545 .84198 .08028 .34303
12 X12 110 3.5000 1.2761 .12167 .36460
VARIABLE S M A L L E S T L A R G E S T
NO. NAME VALUE Z-SCR CASE VALUE Z-SCR CASE RANGE
1 X1 1.0000 -1.58 12 5.0000 2.15 3 4.0000
2 X2 1.0000 -1.15 12 5.0000 2.96 11 4.0000
3 X3 1.0000 -2.09 1 5.0000 1.45 2 4.0000
4 X4 1.0000 -1.57 6 5.0000 2.34 60 4.0000
5 X5 1.0000 -2.43 11 5.0000 1.34 2 4.0000
6 X6 1.0000 -1.46 33 5.0000 2.58 3 4.0000
7 X7 1.0000 -2.11 1 5.0000 1.36 2 4.0000
8 X8 1.0000 -1.76 73 5.0000 2.15 3 4.0000
9 X9 1.0000 -1.48 12 5.0000 3.11 64 4.0000
10 X10 1.0000 -2.15 23 5.0000 2.11 11 4.0000
11 X11 1.0000 -1.73 12 5.0000 3.02 11 4.0000
12 X12 1.0000 -1.96 11 5.0000 1.18 2 4.0000
CORRELATION MATRIX
----------- ------
X1 X2 X3 X4 X5 X6 X7
1 2 3 4 5 6 7
X1 1 1.0000
X2 2 0.5618 1.0000
X3 3 0.0859 0.1438 1.0000
X4 4 0.4570 0.3596 0.1398 1.0000
X5 5 0.1997 0.1192 0.7851 0.2113 1.0000
X6 6 0.5790 0.7047 0.2223 0.2726 0.3007 1.0000
X7 7 0.0358 0.0516 0.8054 0.1225 0.8174 0.1172 1.0000
X8 8 0.8057 0.5866 0.1112 0.6093 0.2269 0.5963 0.0436
X9 9 0.5585 0.7267 0.1896 0.3963 0.1824 0.6559 0.0825
X10 10 0.4977 0.4091 0.1839 0.7239 0.2933 0.3659 0.1452
X11 11 0.4819 0.7056 0.2487 0.2187 0.2455 0.7003 0.1151
X12 12 0.2479 0.1439 0.7564 0.2634 0.8061 0.2356 0.8289
X8 X9 X10 X11 X12
8 9 10 11 12
X8 8 1.0000
X9 9 0.6232 1.0000
X10 10 0.6455 0.3190 1.0000
X11 11 0.5977 0.6312 0.3494 1.0000
X12 12 0.2183 0.1238 0.2758 0.1878 1.0000
CLUSTERS WERE FORMED IN THE FOLLOWING ORDER--
NUMBER OF ITEMS DISTANCE OR SIMILARITY
CLUSTER BOUNDARIES IN CLUSTER WHEN CLUSTER FORMED
X7 X12 2 91.44
X5 X12 3 90.87
X1 X8 2 90.29
X3 X12 4 90.27
X2 X9 2 86.34
X4 X10 2 86.20
X2 X11 3 85.28
X2 X6 4 85.24
X1 X10 4 82.28
X1 X6 8 81.16
X1 X12 12 65.03
TREE PRINTED OVER CORRELATION MATRIX (SCALED 0-100).
CLUSTERING BY MINIMUM DISTANCE METHOD.
VARIABLE
NAME NO.
----------------------------------/
X1 ( 1) 90/72 74/78 77 74 78/54 59 51 62/
/ / / /
/ / / /
X8 ( 8)/80 82/79 81 79 79/55 61 52 60/
/ / /
----/ / /
X4 ( 4) 86/67 69 60 63/56 60 56 63/
/ / /
/ / /
X10 ( 10)/70 65 67 68/59 64 57 63/
/ /
----------/ /
X2 ( 2) 86/85/85/57 55 52 57/
/ / / /
/ / / /
X9 ( 9)/81/82/59 59 54 56/
/ / /
/ / /
X11 ( 11)/85/62 62 55 59/
/ /
/ /
X6 ( 6)/61 65 55 61/
/
----------/
X3 ( 3) 89 90 87/
/
-------/
X5 ( 5) 90 90/
/
----/
X7 ( 7) 91/
/
/
X12 ( 12)/
THE VALUES IN THIS TREE HAVE BEEN SCALED 0 TO 100
ACCORDING TO THE FOLLOWING TABLE
VALUE VALUE
ABOVE CORRELATION ABOVE CORRELATION
0 -1.000 50 0.000
5 -0.900 55 0.100
10 -0.800 60 0.200
15 -0.700 65 0.300
20 -0.600 70 0.400
25 -0.500 75 0.500
30 -0.400 80 0.600
35 -0.300 85 0.700
40 -0.200 90 0.800
45 -0.100 95 0.900
CORRELATIONS IN SORTED AND SHADED FORM
--------------------------------------
1 X1 X
8 X8 XX
4 X4 -+X
10 X10 -+XX
2 X2 ++--X
9 X9 ++-.XX
11 X11 -+..X+X
6 X6 ++.-X+XX
3 X3 ..X
5 X5 .... ..XX
7 X7 XXX
12 X12 .... .XXXX
THE MATRIX ENTRIES HAVE BEEN PRINTED ABOVE IN SHADED FORM
ACCORDING TO THE FOLLOWING SCHEME
LESS THAN OR EQUAL TO 0.194
. 0.194 TO AND INCLUDING 0.353
- 0.353 TO AND INCLUDING 0.512
+ 0.512 TO AND INCLUDING 0.670
X GREATER THAN 0.670
-
Elaboramos el fichero de ordenes 1M2-2.INP, donde vamos a utilizar el Método de Linkaje Completo o maximizar la distancia.
/PROBLEM
TITLE IS 'PRACTICA 1 1M'.
/INPUT
FILE IS 'A:\1m2.ASC'.
VARIABLES=12.
FORMAT IS FREE.
TYPE IS DATA.
/VARIABLE
NAMES ARE X1,X2,X3,X4,X5,X6,X7,X8,X9,X10,
X11,X12.
/PROCEDURE
MEASURE IS CORR.
LINK IS COMPLETE.
CORR.
NCUT=5.
/END
CASE 1 2 3 4 5 6 7 8
NO. X1 X2 X3 X4 X5 X6 X7 X8
----- -------- -------- -------- -------- -------- -------- -------- --------
1 3.00 2.00 1.00 3.00 2.00 2.00 1.00 3.00
2 4.00 2.00 5.00 3.00 5.00 4.00 5.00 4.00
3 5.00 3.00 4.00 4.00 5.00 5.00 4.00 5.00
4 4.00 2.00 4.00 3.00 5.00 4.00 4.00 4.00
5 4.00 2.00 4.00 3.00 4.00 2.00 4.00 4.00
6 3.00 2.00 3.00 1.00 3.00 2.00 3.00 3.00
7 4.00 2.00 4.00 2.00 4.00 3.00 3.00 3.00
8 3.00 2.00 3.00 2.00 4.00 2.00 3.00 3.00
9 3.00 2.00 3.00 2.00 4.00 4.00 3.00 3.00
10 3.00 2.00 4.00 1.00 4.00 3.00 4.00 3.00
CASE 9 10 11 12
NO. X9 X10 X11 X12
----- -------- -------- -------- --------
1 2.00 2.00 3.00 2.00
2 3.00 4.00 4.00 5.00
3 3.00 4.00 3.00 4.00
4 3.00 4.00 3.00 5.00
5 2.00 4.00 3.00 4.00
6 2.00 3.00 3.00 4.00
7 2.00 3.00 3.00 4.00
8 2.00 3.00 3.00 4.00
9 2.00 3.00 3.00 4.00
10 2.00 3.00 3.00 4.00
NUMBER OF CASES READ. . . . . . . . . . . . . . 110
DESCRIPTIVE STATISTICS OF DATA
----------- ---------- -- ----
VARIABLE TOTAL STANDARD ST.ERR COEFF
NO. NAME FREQ. MEAN DEV. OF MEAN OF VAR
1 X1 110 2.6909 1.0730 .10230 .39874
2 X2 110 2.1182 .97427 .09289 .45996
3 X3 110 3.3636 1.1311 .10785 .33627
4 X4 110 2.6091 1.0235 .09759 .39230
5 X5 110 3.5818 1.0613 .10119 .29629
6 X6 110 2.4455 .99158 .09454 .40548
7 X7 110 3.4364 1.1536 .10999 .33570
8 X8 110 2.8000 1.0209 .09734 .36460
9 X9 110 2.2909 .87099 .08305 .38020
10 X10 110 3.0182 .93830 .08946 .31088
11 X11 110 2.4545 .84198 .08028 .34303
12 X12 110 3.5000 1.2761 .12167 .36460
VARIABLE S M A L L E S T L A R G E S T
NO. NAME VALUE Z-SCR CASE VALUE Z-SCR CASE RANGE
1 X1 1.0000 -1.58 12 5.0000 2.15 3 4.0000
2 X2 1.0000 -1.15 12 5.0000 2.96 11 4.0000
3 X3 1.0000 -2.09 1 5.0000 1.45 2 4.0000
4 X4 1.0000 -1.57 6 5.0000 2.34 60 4.0000
5 X5 1.0000 -2.43 11 5.0000 1.34 2 4.0000
6 X6 1.0000 -1.46 33 5.0000 2.58 3 4.0000
7 X7 1.0000 -2.11 1 5.0000 1.36 2 4.0000
8 X8 1.0000 -1.76 73 5.0000 2.15 3 4.0000
9 X9 1.0000 -1.48 12 5.0000 3.11 64 4.0000
10 X10 1.0000 -2.15 23 5.0000 2.11 11 4.0000
11 X11 1.0000 -1.73 12 5.0000 3.02 11 4.0000
12 X12 1.0000 -1.96 11 5.0000 1.18 2 4.0000
CORRELATION MATRIX
----------- ------
X1 X2 X3 X4 X5 X6 X7
1 2 3 4 5 6 7
X1 1 1.0000
X2 2 0.5618 1.0000
X3 3 0.0859 0.1438 1.0000
X4 4 0.4570 0.3596 0.1398 1.0000
X5 5 0.1997 0.1192 0.7851 0.2113 1.0000
X6 6 0.5790 0.7047 0.2223 0.2726 0.3007 1.0000
X7 7 0.0358 0.0516 0.8054 0.1225 0.8174 0.1172 1.0000
X8 8 0.8057 0.5866 0.1112 0.6093 0.2269 0.5963 0.0436
X9 9 0.5585 0.7267 0.1896 0.3963 0.1824 0.6559 0.0825
X10 10 0.4977 0.4091 0.1839 0.7239 0.2933 0.3659 0.1452
X11 11 0.4819 0.7056 0.2487 0.2187 0.2455 0.7003 0.1151
X12 12 0.2479 0.1439 0.7564 0.2634 0.8061 0.2356 0.8289
X8 X9 X10 X11 X12
8 9 10 11 12
X8 8 1.0000
X9 9 0.6232 1.0000
X10 10 0.6455 0.3190 1.0000
X11 11 0.5977 0.6312 0.3494 1.0000
X12 12 0.2183 0.1238 0.2758 0.1878 1.0000
CLUSTERS WERE FORMED IN THE FOLLOWING ORDER--
NUMBER OF ITEMS DISTANCE OR SIMILARITY
CLUSTER BOUNDARIES IN CLUSTER WHEN CLUSTER FORMED
X7 X12 2 91.44
X5 X12 3 90.31
X1 X8 2 90.29
X3 X12 4 87.82
X2 X9 2 86.34
X4 X10 2 86.20
X6 X11 2 85.01
X2 X11 4 81.56
X1 X11 6 74.09
X1 X10 8 60.94
X1 X12 12 51.79
TREE PRINTED OVER CORRELATION MATRIX (SCALED 0-100).
CLUSTERING BY MAXIMUM DISTANCE METHOD.
VARIABLE
NAME NO.
----------------------------------/
X1 ( 1) 90/78 77 78 74/72 74/54 59 51 62/
/ / / /
/ / / /
X8 ( 8)/79 81 79 79/80 82/55 61 52 60/
/ / /
----------/ / /
X2 ( 2) 86/85 85/67 70/57 55 52 57/
/ / / /
/ / / /
X9 ( 9)/82 81/69 65/59 59 54 56/
/ / /
----/ / /
X6 ( 6) 85/63 68/61 65 55 61/
/ / /
/ / /
X11 ( 11)/60 67/62 62 55 59/
/ /
----/ /
X4 ( 4) 86/56 60 56 63/
/ /
/ /
X10 ( 10)/59 64 57 63/
/
----------/
X3 ( 3) 89 90 87/
/
-------/
X5 ( 5) 90 90/
/
----/
X7 ( 7) 91/
/
/
X12 ( 12)/
THE VALUES IN THIS TREE HAVE BEEN SCALED 0 TO 100
ACCORDING TO THE FOLLOWING TABLE
VALUE VALUE
ABOVE CORRELATION ABOVE CORRELATION
0 -1.000 50 0.000
5 -0.900 55 0.100
10 -0.800 60 0.200
15 -0.700 65 0.300
20 -0.600 70 0.400
25 -0.500 75 0.500
30 -0.400 80 0.600
35 -0.300 85 0.700
40 -0.200 90 0.800
45 -0.100 95 0.900
CORRELATIONS IN SORTED AND SHADED FORM
--------------------------------------
1 X1 X
8 X8 XX
2 X2 ++X
9 X9 ++XX
6 X6 ++X+X
11 X11 -+X+XX
4 X4 -+--..X
10 X10 -+-.-.XX
3 X3 .. X
5 X5 .. ....XX
7 X7 XXX
12 X12 .. . ..XXXX
THE MATRIX ENTRIES HAVE BEEN PRINTED ABOVE IN SHADED FORM
ACCORDING TO THE FOLLOWING SCHEME
LESS THAN OR EQUAL TO 0.194
. 0.194 TO AND INCLUDING 0.353
- 0.353 TO AND INCLUDING 0.512
+ 0.512 TO AND INCLUDING 0.670
X GREATER THAN 0.670
COMENTARIOS
Los datos suministrados corresponden a los valores de la variable en estudio, por esta razón es importante tener en cuenta la utilización de la instrucción TYPE IS DATA (en el párrafo INPUT), así como especificar en el párrafo PROCEDURE la estrategia de fusión que vamos a utilizar, linkaje simple.
En cuanto a la salida que 1M proporciona se tiene:
-
Con respecto a la salida del programa tenemos un breve resumen descriptivo (media, desviación típica, coeficiente de variación).
-
La matriz de correlaciones entre las variables en estudio.
-
Una tabla resumen sobre los clusters formados así como el dendograma. Cada línea horizontal o diagonal en el diagrama comienza con una variable y finaliza en la intersección con la línea de otra variable. El culster determinado por el par de líneas es después listado en primer lugar en la tabla resumen. La otra frontera del culster es la segunda variable. El número de ítems es el número de variables en el cluster. La columna final representa los valores de fusión, sobre las cuales hay que decir que parecen multiplicadas por 100 y están expresadas en una nueva escala que aparece a continuación del dendograma. Así por ejemplo, las variables X1 y X8 se unen con una valor 90.29 que corresponde al valor de correlación 0.8026.
-
Aparece también una tabla resumen donde se proporcionan los valores reales de la correlación, una vez reajustada la escala.
Cuando la estrategia de fusión que vamos a utilizar es el linkaje completo, obtenemos la misma salida pero variando las disposiciones jerárquicas así como los niveles de fusión, de manera que las variables X1 y X12 se unen con un valor de 51.79 que corresponde al valor de correlación 0.09.
Descargar
Enviado por: | El remitente no desea revelar su nombre |
Idioma: | castellano |
País: | España |