Análisis Cluster por variables

Estadística. Muestreo. Fichero de datos y órdenes

  • Enviado por: El remitente no desea revelar su nombre
  • Idioma: castellano
  • País: España España
  • 13 páginas
publicidad
publicidad

PRÁCTICAS DE ANALISIS CLUSTER POR VARIABLES.

PROGRAMA 1M.

En un estudio sobre tabaquismo se ha tomado una muestra de 110 personas, sobre las cuales se han medido 12 variables, X1, X2,...,X12. Dichas variables contienen información sobre el estado psicológico y físico de cada individuo, Cada cuestión tiene una gama de respuestas que oscila entre 1 y 5, sonde se va de más a menos respuestas.

Los investigadores desean verificar la utilidad de las 12 cuestiones para medir una dimensión específica, como es la del deseo de fumar. Para ello en un primer paso, emplean el Análisis Cluster con el fin de establecer grupos de variables que conformen factores específicos. Los datos de los que disponemos bien en la tabla que se presenta.

  • Crea un fichero de datos, 1M2.ASC cuyo contenido sean los datos anteriores.

  • Elabora un fichero de órdenes 1M2.INP que permita establecer los grupos homogéneos de variables que se pretenden obtener.

  • Comenta los resultados obtenidos.

Análisis Cluster por variables
Crea un fichero de datos, 1M2.ASC cuyo contenido sean los datos anteriores.

Elabora un fichero de órdenes 1M2.INP que permita establecer los grupos homogéneos de variables que se pretenden obtener.

  • Elaboramos el fichero de ordenes 1M2-1.INP, donde vamos a utilizar el Método de Linkaje Simple o minimizar la distancia.

/PROBLEM

TITLE IS 'PRACTICA 1 1M'.

/INPUT

FILE IS 'A:\1m2.ASC'.

VARIABLES=12.

FORMAT IS FREE.

TYPE IS DATA.

/VARIABLE

NAMES ARE X1,X2,X3,X4,X5,X6,X7,X8,X9,X10,

X11,X12.

/PROCEDURE

MEASURE IS CORR.

LINK IS SINGLE.

/PRINT

CORR.

NCUT=5.

/END

BMDP1M - CLUSTER ANALYSIS OF VARIABLES

CASE 1 2 3 4 5 6 7 8

NO. X1 X2 X3 X4 X5 X6 X7 X8

----- -------- -------- -------- -------- -------- -------- -------- --------

1 3.00 2.00 1.00 3.00 2.00 2.00 1.00 3.00

2 4.00 2.00 5.00 3.00 5.00 4.00 5.00 4.00

3 5.00 3.00 4.00 4.00 5.00 5.00 4.00 5.00

4 4.00 2.00 4.00 3.00 5.00 4.00 4.00 4.00

5 4.00 2.00 4.00 3.00 4.00 2.00 4.00 4.00

6 3.00 2.00 3.00 1.00 3.00 2.00 3.00 3.00

7 4.00 2.00 4.00 2.00 4.00 3.00 3.00 3.00

8 3.00 2.00 3.00 2.00 4.00 2.00 3.00 3.00

9 3.00 2.00 3.00 2.00 4.00 4.00 3.00 3.00

10 3.00 2.00 4.00 1.00 4.00 3.00 4.00 3.00

CASE 9 10 11 12

NO. X9 X10 X11 X12

----- -------- -------- -------- --------

1 2.00 2.00 3.00 2.00

2 3.00 4.00 4.00 5.00

3 3.00 4.00 3.00 4.00

4 3.00 4.00 3.00 5.00

5 2.00 4.00 3.00 4.00

6 2.00 3.00 3.00 4.00

7 2.00 3.00 3.00 4.00

8 2.00 3.00 3.00 4.00

9 2.00 3.00 3.00 4.00

10 2.00 3.00 3.00 4.00

NUMBER OF CASES READ. . . . . . . . . . . . . . 110

DESCRIPTIVE STATISTICS OF DATA

-------------------------------

VARIABLE TOTAL STANDARD ST.ERR COEFF

NO. NAME FREQ. MEAN DEV. OF MEAN OF VAR

1 X1 110 2.6909 1.0730 .10230 .39874

2 X2 110 2.1182 .97427 .09289 .45996

3 X3 110 3.3636 1.1311 .10785 .33627

4 X4 110 2.6091 1.0235 .09759 .39230

5 X5 110 3.5818 1.0613 .10119 .29629

6 X6 110 2.4455 .99158 .09454 .40548

7 X7 110 3.4364 1.1536 .10999 .33570

8 X8 110 2.8000 1.0209 .09734 .36460

9 X9 110 2.2909 .87099 .08305 .38020

10 X10 110 3.0182 .93830 .08946 .31088

11 X11 110 2.4545 .84198 .08028 .34303

12 X12 110 3.5000 1.2761 .12167 .36460

VARIABLE S M A L L E S T L A R G E S T

NO. NAME VALUE Z-SCR CASE VALUE Z-SCR CASE RANGE

1 X1 1.0000 -1.58 12 5.0000 2.15 3 4.0000

2 X2 1.0000 -1.15 12 5.0000 2.96 11 4.0000

3 X3 1.0000 -2.09 1 5.0000 1.45 2 4.0000

4 X4 1.0000 -1.57 6 5.0000 2.34 60 4.0000

5 X5 1.0000 -2.43 11 5.0000 1.34 2 4.0000

6 X6 1.0000 -1.46 33 5.0000 2.58 3 4.0000

7 X7 1.0000 -2.11 1 5.0000 1.36 2 4.0000

8 X8 1.0000 -1.76 73 5.0000 2.15 3 4.0000

9 X9 1.0000 -1.48 12 5.0000 3.11 64 4.0000

10 X10 1.0000 -2.15 23 5.0000 2.11 11 4.0000

11 X11 1.0000 -1.73 12 5.0000 3.02 11 4.0000

12 X12 1.0000 -1.96 11 5.0000 1.18 2 4.0000

CORRELATION MATRIX

----------- ------

X1 X2 X3 X4 X5 X6 X7

1 2 3 4 5 6 7

X1 1 1.0000

X2 2 0.5618 1.0000

X3 3 0.0859 0.1438 1.0000

X4 4 0.4570 0.3596 0.1398 1.0000

X5 5 0.1997 0.1192 0.7851 0.2113 1.0000

X6 6 0.5790 0.7047 0.2223 0.2726 0.3007 1.0000

X7 7 0.0358 0.0516 0.8054 0.1225 0.8174 0.1172 1.0000

X8 8 0.8057 0.5866 0.1112 0.6093 0.2269 0.5963 0.0436

X9 9 0.5585 0.7267 0.1896 0.3963 0.1824 0.6559 0.0825

X10 10 0.4977 0.4091 0.1839 0.7239 0.2933 0.3659 0.1452

X11 11 0.4819 0.7056 0.2487 0.2187 0.2455 0.7003 0.1151

X12 12 0.2479 0.1439 0.7564 0.2634 0.8061 0.2356 0.8289

X8 X9 X10 X11 X12

8 9 10 11 12

X8 8 1.0000

X9 9 0.6232 1.0000

X10 10 0.6455 0.3190 1.0000

X11 11 0.5977 0.6312 0.3494 1.0000

X12 12 0.2183 0.1238 0.2758 0.1878 1.0000

CLUSTERS WERE FORMED IN THE FOLLOWING ORDER--

NUMBER OF ITEMS DISTANCE OR SIMILARITY

CLUSTER BOUNDARIES IN CLUSTER WHEN CLUSTER FORMED

X7 X12 2 91.44

X5 X12 3 90.87

X1 X8 2 90.29

X3 X12 4 90.27

X2 X9 2 86.34

X4 X10 2 86.20

X2 X11 3 85.28

X2 X6 4 85.24

X1 X10 4 82.28

X1 X6 8 81.16

X1 X12 12 65.03

TREE PRINTED OVER CORRELATION MATRIX (SCALED 0-100).

CLUSTERING BY MINIMUM DISTANCE METHOD.

VARIABLE

NAME NO.

----------------------------------/

X1 ( 1) 90/72 74/78 77 74 78/54 59 51 62/

/ / / /

/ / / /

X8 ( 8)/80 82/79 81 79 79/55 61 52 60/

/ / /

----/ / /

X4 ( 4) 86/67 69 60 63/56 60 56 63/

/ / /

/ / /

X10 ( 10)/70 65 67 68/59 64 57 63/

/ /

----------/ /

X2 ( 2) 86/85/85/57 55 52 57/

/ / / /

/ / / /

X9 ( 9)/81/82/59 59 54 56/

/ / /

/ / /

X11 ( 11)/85/62 62 55 59/

/ /

/ /

X6 ( 6)/61 65 55 61/

/

----------/

X3 ( 3) 89 90 87/

/

-------/

X5 ( 5) 90 90/

/

----/

X7 ( 7) 91/

/

/

X12 ( 12)/

THE VALUES IN THIS TREE HAVE BEEN SCALED 0 TO 100

ACCORDING TO THE FOLLOWING TABLE

VALUE VALUE

ABOVE CORRELATION ABOVE CORRELATION

0 -1.000 50 0.000

5 -0.900 55 0.100

10 -0.800 60 0.200

15 -0.700 65 0.300

20 -0.600 70 0.400

25 -0.500 75 0.500

30 -0.400 80 0.600

35 -0.300 85 0.700

40 -0.200 90 0.800

45 -0.100 95 0.900

CORRELATIONS IN SORTED AND SHADED FORM

--------------------------------------

1 X1 X

8 X8 XX

4 X4 -+X

10 X10 -+XX

2 X2 ++--X

9 X9 ++-.XX

11 X11 -+..X+X

6 X6 ++.-X+XX

3 X3 ..X

5 X5 .... ..XX

7 X7 XXX

12 X12 .... .XXXX

THE MATRIX ENTRIES HAVE BEEN PRINTED ABOVE IN SHADED FORM

ACCORDING TO THE FOLLOWING SCHEME

LESS THAN OR EQUAL TO 0.194

. 0.194 TO AND INCLUDING 0.353

- 0.353 TO AND INCLUDING 0.512

+ 0.512 TO AND INCLUDING 0.670

X GREATER THAN 0.670

  • Elaboramos el fichero de ordenes 1M2-2.INP, donde vamos a utilizar el Método de Linkaje Completo o maximizar la distancia.

/PROBLEM

TITLE IS 'PRACTICA 1 1M'.

/INPUT

FILE IS 'A:\1m2.ASC'.

VARIABLES=12.

FORMAT IS FREE.

TYPE IS DATA.

/VARIABLE

NAMES ARE X1,X2,X3,X4,X5,X6,X7,X8,X9,X10,

X11,X12.

/PROCEDURE

MEASURE IS CORR.

LINK IS COMPLETE.

/PRINT

CORR.

NCUT=5.

/END

CASE 1 2 3 4 5 6 7 8

NO. X1 X2 X3 X4 X5 X6 X7 X8

----- -------- -------- -------- -------- -------- -------- -------- --------

1 3.00 2.00 1.00 3.00 2.00 2.00 1.00 3.00

2 4.00 2.00 5.00 3.00 5.00 4.00 5.00 4.00

3 5.00 3.00 4.00 4.00 5.00 5.00 4.00 5.00

4 4.00 2.00 4.00 3.00 5.00 4.00 4.00 4.00

5 4.00 2.00 4.00 3.00 4.00 2.00 4.00 4.00

6 3.00 2.00 3.00 1.00 3.00 2.00 3.00 3.00

7 4.00 2.00 4.00 2.00 4.00 3.00 3.00 3.00

8 3.00 2.00 3.00 2.00 4.00 2.00 3.00 3.00

9 3.00 2.00 3.00 2.00 4.00 4.00 3.00 3.00

10 3.00 2.00 4.00 1.00 4.00 3.00 4.00 3.00

CASE 9 10 11 12

NO. X9 X10 X11 X12

----- -------- -------- -------- --------

1 2.00 2.00 3.00 2.00

2 3.00 4.00 4.00 5.00

3 3.00 4.00 3.00 4.00

4 3.00 4.00 3.00 5.00

5 2.00 4.00 3.00 4.00

6 2.00 3.00 3.00 4.00

7 2.00 3.00 3.00 4.00

8 2.00 3.00 3.00 4.00

9 2.00 3.00 3.00 4.00

10 2.00 3.00 3.00 4.00

NUMBER OF CASES READ. . . . . . . . . . . . . . 110

DESCRIPTIVE STATISTICS OF DATA

----------- ---------- -- ----

VARIABLE TOTAL STANDARD ST.ERR COEFF

NO. NAME FREQ. MEAN DEV. OF MEAN OF VAR

1 X1 110 2.6909 1.0730 .10230 .39874

2 X2 110 2.1182 .97427 .09289 .45996

3 X3 110 3.3636 1.1311 .10785 .33627

4 X4 110 2.6091 1.0235 .09759 .39230

5 X5 110 3.5818 1.0613 .10119 .29629

6 X6 110 2.4455 .99158 .09454 .40548

7 X7 110 3.4364 1.1536 .10999 .33570

8 X8 110 2.8000 1.0209 .09734 .36460

9 X9 110 2.2909 .87099 .08305 .38020

10 X10 110 3.0182 .93830 .08946 .31088

11 X11 110 2.4545 .84198 .08028 .34303

12 X12 110 3.5000 1.2761 .12167 .36460

VARIABLE S M A L L E S T L A R G E S T

NO. NAME VALUE Z-SCR CASE VALUE Z-SCR CASE RANGE

1 X1 1.0000 -1.58 12 5.0000 2.15 3 4.0000

2 X2 1.0000 -1.15 12 5.0000 2.96 11 4.0000

3 X3 1.0000 -2.09 1 5.0000 1.45 2 4.0000

4 X4 1.0000 -1.57 6 5.0000 2.34 60 4.0000

5 X5 1.0000 -2.43 11 5.0000 1.34 2 4.0000

6 X6 1.0000 -1.46 33 5.0000 2.58 3 4.0000

7 X7 1.0000 -2.11 1 5.0000 1.36 2 4.0000

8 X8 1.0000 -1.76 73 5.0000 2.15 3 4.0000

9 X9 1.0000 -1.48 12 5.0000 3.11 64 4.0000

10 X10 1.0000 -2.15 23 5.0000 2.11 11 4.0000

11 X11 1.0000 -1.73 12 5.0000 3.02 11 4.0000

12 X12 1.0000 -1.96 11 5.0000 1.18 2 4.0000

CORRELATION MATRIX

----------- ------

X1 X2 X3 X4 X5 X6 X7

1 2 3 4 5 6 7

X1 1 1.0000

X2 2 0.5618 1.0000

X3 3 0.0859 0.1438 1.0000

X4 4 0.4570 0.3596 0.1398 1.0000

X5 5 0.1997 0.1192 0.7851 0.2113 1.0000

X6 6 0.5790 0.7047 0.2223 0.2726 0.3007 1.0000

X7 7 0.0358 0.0516 0.8054 0.1225 0.8174 0.1172 1.0000

X8 8 0.8057 0.5866 0.1112 0.6093 0.2269 0.5963 0.0436

X9 9 0.5585 0.7267 0.1896 0.3963 0.1824 0.6559 0.0825

X10 10 0.4977 0.4091 0.1839 0.7239 0.2933 0.3659 0.1452

X11 11 0.4819 0.7056 0.2487 0.2187 0.2455 0.7003 0.1151

X12 12 0.2479 0.1439 0.7564 0.2634 0.8061 0.2356 0.8289

X8 X9 X10 X11 X12

8 9 10 11 12

X8 8 1.0000

X9 9 0.6232 1.0000

X10 10 0.6455 0.3190 1.0000

X11 11 0.5977 0.6312 0.3494 1.0000

X12 12 0.2183 0.1238 0.2758 0.1878 1.0000

CLUSTERS WERE FORMED IN THE FOLLOWING ORDER--

NUMBER OF ITEMS DISTANCE OR SIMILARITY

CLUSTER BOUNDARIES IN CLUSTER WHEN CLUSTER FORMED

X7 X12 2 91.44

X5 X12 3 90.31

X1 X8 2 90.29

X3 X12 4 87.82

X2 X9 2 86.34

X4 X10 2 86.20

X6 X11 2 85.01

X2 X11 4 81.56

X1 X11 6 74.09

X1 X10 8 60.94

X1 X12 12 51.79

TREE PRINTED OVER CORRELATION MATRIX (SCALED 0-100).

CLUSTERING BY MAXIMUM DISTANCE METHOD.

VARIABLE

NAME NO.

----------------------------------/

X1 ( 1) 90/78 77 78 74/72 74/54 59 51 62/

/ / / /

/ / / /

X8 ( 8)/79 81 79 79/80 82/55 61 52 60/

/ / /

----------/ / /

X2 ( 2) 86/85 85/67 70/57 55 52 57/

/ / / /

/ / / /

X9 ( 9)/82 81/69 65/59 59 54 56/

/ / /

----/ / /

X6 ( 6) 85/63 68/61 65 55 61/

/ / /

/ / /

X11 ( 11)/60 67/62 62 55 59/

/ /

----/ /

X4 ( 4) 86/56 60 56 63/

/ /

/ /

X10 ( 10)/59 64 57 63/

/

----------/

X3 ( 3) 89 90 87/

/

-------/

X5 ( 5) 90 90/

/

----/

X7 ( 7) 91/

/

/

X12 ( 12)/

THE VALUES IN THIS TREE HAVE BEEN SCALED 0 TO 100

ACCORDING TO THE FOLLOWING TABLE

VALUE VALUE

ABOVE CORRELATION ABOVE CORRELATION

0 -1.000 50 0.000

5 -0.900 55 0.100

10 -0.800 60 0.200

15 -0.700 65 0.300

20 -0.600 70 0.400

25 -0.500 75 0.500

30 -0.400 80 0.600

35 -0.300 85 0.700

40 -0.200 90 0.800

45 -0.100 95 0.900

CORRELATIONS IN SORTED AND SHADED FORM

--------------------------------------

1 X1 X

8 X8 XX

2 X2 ++X

9 X9 ++XX

6 X6 ++X+X

11 X11 -+X+XX

4 X4 -+--..X

10 X10 -+-.-.XX

3 X3 .. X

5 X5 .. ....XX

7 X7 XXX

12 X12 .. . ..XXXX

THE MATRIX ENTRIES HAVE BEEN PRINTED ABOVE IN SHADED FORM

ACCORDING TO THE FOLLOWING SCHEME

LESS THAN OR EQUAL TO 0.194

. 0.194 TO AND INCLUDING 0.353

- 0.353 TO AND INCLUDING 0.512

+ 0.512 TO AND INCLUDING 0.670

X GREATER THAN 0.670

COMENTARIOS

Los datos suministrados corresponden a los valores de la variable en estudio, por esta razón es importante tener en cuenta la utilización de la instrucción TYPE IS DATA (en el párrafo INPUT), así como especificar en el párrafo PROCEDURE la estrategia de fusión que vamos a utilizar, linkaje simple.

En cuanto a la salida que 1M proporciona se tiene:

  • Con respecto a la salida del programa tenemos un breve resumen descriptivo (media, desviación típica, coeficiente de variación).

  • La matriz de correlaciones entre las variables en estudio.

  • Una tabla resumen sobre los clusters formados así como el dendograma. Cada línea horizontal o diagonal en el diagrama comienza con una variable y finaliza en la intersección con la línea de otra variable. El culster determinado por el par de líneas es después listado en primer lugar en la tabla resumen. La otra frontera del culster es la segunda variable. El número de ítems es el número de variables en el cluster. La columna final representa los valores de fusión, sobre las cuales hay que decir que parecen multiplicadas por 100 y están expresadas en una nueva escala que aparece a continuación del dendograma. Así por ejemplo, las variables X1 y X8 se unen con una valor 90.29 que corresponde al valor de correlación 0.8026.

  • Aparece también una tabla resumen donde se proporcionan los valores reales de la correlación, una vez reajustada la escala.

Cuando la estrategia de fusión que vamos a utilizar es el linkaje completo, obtenemos la misma salida pero variando las disposiciones jerárquicas así como los niveles de fusión, de manera que las variables X1 y X12 se unen con un valor de 51.79 que corresponde al valor de correlación 0.09.