Investigación y Técnicas de Mercado
Investigación de Mercados
Análisis Multivariante en la Investigación Comercial
Asignatura: Investigación de Mercados II
Centro: Universidad Autónoma de Madrid
TEMA 1: EL ANALISIS MULTIVARIANTE EN INVESTIGACION COMERCIAL
Estructura de la clase:
Introducción.
Definición del AM.
Diseños y conceptos básicos del AM.
Tratamientos previos de los datos.
Supuestos del AM.
Clasificación de los métodos del AM.
Programas informáticos.
Introducción.
En primer lugar, cuando queremos examinar un sistema complejo de actividades comerciales, muchas veces no es suficiente utilizar técnicas univariantes y hay que ir al empleo del AM. Cuando el número de variables que influyen simultáneamente y de forma importante en el problema que queremos tratar es elevado (no solamente una o dos, sino un número elevado de variables), entonces tenemos que utilizar el AM.
Debemos reflexionar que sería mejor emplear: análisis univariante, análisis bivariante o análisis multivariante. Si queremos analizar por separado variables utilizaremos el anáilisis univariante y bivariante. En el caso de necesitar un análisis en conjunto, emplearemos técnicas multivariantes. Con esta técnica determinaremos si las variables están influyendo en los grupos que estudiamos y por lo tanto nos sirve para analizar las relaciones múltiples. Si queremos utilizar /analizar múltiples variables simultáneamente, tenemos que utilizar técnicas multivariantes.
Definición del AM.
El AM se puede definir como:
Las técnicas estadísticas utilizadas para tratar múltiples variables que se deben analizar simultáneamente, y cuyos efectos no tienen sentido si se interpretan por separado.
Son las técnicas estadísticas que miden, explican y predicen relaciones entre más de dos variables cuando sus efectos no tienen sentido si se interpretan por separado.
Valor teórico: “Es el elemento esencial del AM”. Combinación de todas las variables. Debemos sintetizar todas las variables en un solo valor teórico. (Muchas veces hay que ponderar múltiples variables de modo empírico).
Diseños y conceptos básicos del AM.
(Diseño de una investigación de mercados---flujo del AM)
Los pasos a seguir al realizar una investigación se pueden resumir como sigue:
-
Definir el objetivo a través de un estudio previo.
-
Establecer las hipótesis.
-
Seleccionar variables y escalas.
-
Establecer la metodología (instrumentos, muestreo, etc.)
-
Seleccionar la técnica multivariante más apropiada.
-
Determinar el nivel de significación (alpha).
-
Coleccionar datos.
-
Evaluar los supuestos básicos de la técnica multivariante.
-
Estimación del modelo multivariante y valoración del ajuste del modelo.
-
Interpretar el valor teórico (rechazar o no las hipótesis).
-
Validación e interpretación de los resultados.
1) Definir el objetivo a través de un estudio previo
Primeramente, tenemos que determinar el objetivo del estudio. A continuación, investigaremos la literatura existente para establecer el estado del arte.
Definir para qué queremos realizar el trabajo: objetivos. Para ello analizamos los estudios realizados anteriormente sobre el tema. Determinamos así qué queremos realizar en el trabajo, es decir, justificar la pretensión del trabajo.
“Hay dos cosas importantes Conocimiento y creatividad”. Hay que establecer un objetivo pero justificarlo a través de la revisión bibliográfica.
2) Establecer las hipótesis
Establecemos las hipótesis que queremos validar o rechazar mediante el estudio.
3) Seleccionar variables y escalas
Después, tenemos que determinar el tipo de variables y escalas a emplear. La palabra “variable” se refiere a una magnitud cuyos valores son objeto de estudio. Estos valores pueden tomar dos tipos básicos de datos, no métricos (cualitativos) o métricos (cuantitativos). Según el tipo de datos, tendremos que determinar el tipo de escalas que queremos utilizar para el estudio. Hay cuatro tipos de escalas.
Escalas | Características |
Nominal |
|
Ordinal |
|
Intervalo |
|
Razón |
|
A la hora de determinar las preguntas del cuestionario, tener en cuenta los cuatro tipos de escalas porque cada técnica multivariante requiere un determinado tipo de variables (métricas y no métricas). Respecto al primer trabajo, es aconsejable incluir entre 15-20 "atributos" que se puedan medir en una escala de intervalo que tenga 5 o 7 grados, para de esta manera poder utilizar el ACP o el AC. También, os conviene incluir variables que se puedan medir en una escala nominal para poder utilizar el AFC. Finalmente, si incluimos variables métricas con una escala de razón, tales como gastos mensuales (de una determinada marca, etc.), ingresos, tiempo, etc., podremos utilizar algunas técnicas de dependencia, por ejemplo, regresión múltiple y análisis discriminante, para el segundo trabajo.
Para convertir valores no métricos en métricos:
Desacuerdo 1 2 3 4 Acuerdo Ordenamos las opiniones
Escala de Linkert: Con 5 grados, también lo hay con 7 grados. Siempre es mejor tener más grados.
Completamente en desacuerdo -2
Más o menos en desacuerdo -1
No sabe, no contesta 0
Más o menos de acuerdo + 1
Completamente de acuerdo -2
4) Establecer la metodología (instrumentos, muestreo, etc.)
Tras seleccionar variables y escalas, ahora tendremos que establecer la metodología.
5) Seleccionar la técnica multivariante más apropiada.
Después, seleccionaremos la técnica multivariante más adecuada, y a continuación, determinaremos el nivel de significación.
6) Determinar el nivel de significación (alpha).
El nivel de significación está fuertemente relacionado con el llamado “error de medida”. Debemos aumentar el nivel de significación para aumentar el valor del estudio y para ello hay que disminuir el error de medida. Cuanto mayor nivel de significación mejor.
El error de medida es el grado en que los valores observados no son representativos de los valores verdaderos. (Se pueden cometer errores, no coincidiendo x con X). El error de medida es importante porque cuando calculamos correlaciones o medias, normalmente el efecto verdadero está parcialmente camuflado por este error de medida, causando la perdida de precisión. Es decir, la presencia del error de medida produce distorsiones en las relaciones observadas y debilita el poder de las técnicas multivariantes.
Para valorar el grado de error de medida, hay que considerar dos factores importantes, que son la fiabilidad y la validez. (conceptos que hay que incluir en trabajo)
-
La fiabilidad es el grado en que la variable observada mide el valor verdadero y está libre de error. Si la misma medida se realiza muchas veces, las medidas fiables llegarán a los mismos resultados. La fiabilidad puede verse perjudicada por el error aleatorio. El error aleatorio es el sesgo transitorio que no es necesariamente idéntico en todas las mediciones. Ejemplos de este tipo de error son errores de codificación, sesgos de entrevistadores, caracteres de los entrevistados, etc.
-
La validez se define como el grado en que la medida representa con precisión lo que se supone que representa. Por ejemplo, si queremos medir los gastos en actividades de ocio, no preguntaremos por los gastos totales de las economías domésticas. La validez puede verse perjudicada tanto por el error aleatorio como por el error sistemático. El error sistemático es el sesgo permanente en todas las mediciones. Por ejemplo, errores en los ítems de la escala, ausencia de claridad en el cuestionario, etc. Por ello, el investigador debe minimizar el error de medida maximizando tanto la fiabilidad como la validez del instrumento de investigación.
Todas las técnicas multivariantes, excepto el análisis cluster y el análisis multidimensional, se basan en la inferencia estadística de los valores de una población o la relación entre variables de una muestra. Si estamos realizando un censo de toda la población, entonces no tenemos que preocuparnos de la inferencia estadística por que lo que medimos es la media verdadera. Pero muchas veces no podemos utilizar la población total, y por lo tanto, nos vemos obligados a hacer inferencias de una muestra y aceptar el nivel de error estadístico
Para interpretar las inferencias estadísticas, tenemos que determinar el nivel aceptable de error estadístico. Se tienen que establecer hipótesis nula Ho. Se suelen comparar las medias determinando que una o dos medias sean iguales o distintas.
El modo de aproximación más común es determinar el nivel de error de Tipo I, que también se llama alfa. El error de Tipo I es la probabilidad de rechazar la hipótesis nula cuando es cierta. O dicho de otra manera, la probabilidad de que la prueba estadística muestre significación estadística cuando en realidad no está presente. Al determinar el nivel de error de Tipo I, tenemos que fijar también el segundo tipo de error, que es el error de Tipo II o beta. El error de Tipo II es la probabilidad de fallar en rechazar la hipótesis nula cuando es realmente falsa. Dicho de otra manera, nuestro objetivo es minimizar estos dos tipos de errores, el error de Tipo I y Tipo II, y maximizar el nivel de confianza (1-alfa) y la potencia (1-beta).
Realidad | Cierta | Falsa |
Decisión | ||
Rechazar H0 | Error Tipo I | Nivel de Confianza 1 - |
No rechazar H0 Aceptar H0 | Potencia 1 - | Error Tipo II |
Error tipo 1 : Probabilidad de rechazar la Ho cuando a es cierta al tener que rechazarse cuando es falsa
Error tipo 2: Probabilidad en fallar en rechazar la Ho cuando es realmente falsa, es decir, no rechazar la Ho cuando es falsa.
Debemos minimizar estos dos tipos de errores y al mismo tiempo estamos maximizando el nivel de confianza y potencia. Si no tenemos el suficiente nivel de confianza y potencia, el estudio no tiene valor.
Establecer el nivel de significación es importante y por ello, tenemos que seguir determinados pasos para poder determinarlo:
Establecer la Ho (Hipótesis nula) y la H1 (Hipótesis alternativa)
Elegir la prueba estadística
Fijar el nivel de significación (alfa)
Calcular estadístico.
Se compara el estadístico calculado con el teórico. Si es mayor se rechaza H0. Si es menor no se rechaza Ho.
7) Recopilar datos
8) Evaluar los supuestos básicos de la técnica multivariante.
9) Estimación del modelo multivariante y valoración del ajuste del modelo.
10) Interpretar el valor teórico (rechazar o no las hipótesis).
11) Validación e interpretación de los resultados: (en el trabajo esta última parte debe tener implicaciones para el mundo real. Ej: ¿ para qué sirven los resultados para la empresa, para la vida real… ----lo valorará mucho en el trabajo)
Tratamientos previos de los datos.
Antes de procesar los datos es importante saber que hemos conseguido cumplir una serie de supuestos. Existen dos razones que explican la importancia de realizar un buen análisis de los datos:
-
Cuanto más cuidado tengamos en analizar los datos, mejor será la predicción y podremos determinar más fácilmente las relaciones entre las variables.
-
Las técnicas multivariantes requieren muchos más datos y supuestos más complejos que las técnicas univariante o bivariantes. Hay que ver si cumplen una serie de supuestos. Muchas veces los efectos del incumplimiento de los supuestos no se representan directamente en los resultados, sino que tienen un efecto importante sobre la naturaleza e interpretación de los datos.
Es fundamental observar las variables individualmente, pero también hay que ver las relaciones entre las variables conjuntamente. Para ello. Hacemos los siguientes tratamientos:
-
Examinar gráficamente los datos para saber la forma de la distribución, analizar las relaciones entre variables, y analizar las diferencias entre grupos.
-
Tratar datos ausentes mediante métodos de imputación
-
Detectar casos atípicos y eliminarlos si no son aleatorios.
Examinar gráficamente: Hay que examinar la forma de la distribución y para ello podemos utilizar:
Histograma: Representación gráfica de los datos que muestra la frecuencia de los datos en categorías. Es una forma muy útil de averiguar si existe una distribución normal, si los datos siguen una distribución normal.
Es el primer método de examen gráfico.
Gráfico de dispersión: Se analizan las relaciones bivariantes. Es un conjunto o representación gráfica de los puntos de datos basados en dos variables. Se investiga si la relación entre las dos variables es aproximadamente lineal.
Gráfico de cajas y bigotes: Se analiza las diferencias entre grupos, es el análisis para detectar casos atípicos. Se transforma la distribución normal en cajas y bigotes.
La línea de la caja representa el valor de la mediana
La línea de fuera de la caja se llama bigote y representa un cuartil. Con este podemos distinguir diferencias entre grupos.
Es una forma útil de identificar casos atípicos porque, al transformar la distribución, los datos que queden fuera de un cuartil serán los casos atípicos. Se representan con asteriscos o círculos.
Datos ausentes: Hay que determinar si existen datos ausentes, ya que son una molestia para nosotros. Tenemos dos opciones:
-
Eliminar casos para evitar el sesgo. Por lo que eliminamos y no utilizamos esos datos. Hay que averiguar si los datos son decisorios o no.
A veces, el eliminar datos no es bueno porque tendríamos menos datos, y no conseguimos un nivel de significación aceptable.
-
No eliminar casos y sustituir datos ausentes. Tres métodos:
-
Sustitución por la media: la media es el valor más representativo de una población, por ello sustituimos los datos por la media.
-
Sustitución por valor constante: hay que buscar algún valor que creamos que representa esta población, igual es necesario buscar estudio semejante.
-
Imputación por regresión: para predecir el valor más representativo
-
Procedimientos univariantes: el concepto de la distribución normal para ello tenemos que tipificar o estandarizar los datos. Si podemos aplicar el proceso de estandarización de datos: media igual a cero, desviación estándar igual a 1
-
Procedimientos bivariantes: diagramas cajas y bigotes.
-
Procedimientos multivariantes: D2 Mahalanovis. Es una forma de medir la distancia con la media estandarizada.
-
Supuestos del AM.
-
Las relaciones entre una gran cantidad de variables son muy complejas, hablamos de muchos datos, y para estudiar estas relaciones utilizamos las técnicas multivariantes. Y cuando no cumplen los supuestos, los sesgos serán más potentes, al igual que las distorsiones.
-
Los procedimientos multivariantes estiman el modelo multivariante y producen resultados estadísticos aún cuando no cumplen los supuestos. Podemos estar analizando cosas que no tienen que ver con la realidad.
-
Normalidad: cumplirlo es importante porque muchas técnicas multivariantes tiene que utilizar las estadísticas de la prueba T y la F, y para emplearlas es necesario que la distribución sea normal.
-
Homocedasticidad: consiste en suponer que las variables dependientes tengan los mismos niveles de dispersión desde el punto de vista de la variable independiente. Es importante para muchas técnicas multivariantes que utilizan las métricas de varianza ya que es necesario que existan iguales niveles de dispersión ( como ejemplo análisis discriminante )
-
Linealidad: Es importante porque muchas técnicas multivariantes tienen que utilizar el concepto de correlación. Es necesario que exista una relación lineal entre las dos variables. En las técnicas multivariantes hay que calcular las correlaciones, para lo cual se debe cumplir el supuesto de linealidad.
-
Ausencia de errores correlacionados: consiste en suponer que cualquiera de los errores de predicción es independiente del resto. Son errores que no están correlaciones, que son independientes.
-
Clasificación de los métodos del AM.
-
Programas Informáticos.
-
Ejercicio 1
-
Define el análisis multivariante con sus propias palabras.
-
¿Por qué es importante el conocimiento de las escalas de medida para planificar una investigación de datos multivariante?
-
Relaciona, distingue, y explica los siguientes términos: nivel de significación, potencia, error de Tipo I y error de Tipo II.
-
¿Cuáles son los métodos básicos para examinar las características de los datos en el análisis multivariante? ¿Por qué son necesarios e importantes?
-
Discute la siguiente afirmación: para utilizar la mayoría de las técnicas multivariantes no es necesario que se cumplan todos los supuestos de normalidad, linealidad, homocedasticidad y ausencia de errores correlacionados.
-
Define el análisis multivariante con sus propias palabras.
-
¿Por qué es importante el conocimiento de las escalas de medida para planificar una investigación de datos multivariante?
-
Relaciona, distingue, y explica los siguientes términos: nivel de significación, potencia, error de Tipo I y error de Tipo II.
-
¿Cuáles son los métodos básicos para examinar las características de los datos en el análisis multivariante? ¿Por qué son necesarios e importantes?
-
Primero hay que saber la forma de la distribución, para ello hacemos un histograma que nos va a indicar la frecuencia de los datos, esto nos indicará si existe una distribución normal.
-
El segundo método es el gráfico de dispersión, este nos va a servir para indicar si la relación entre dos variables es lineal.
-
El tercer método son los gráficos de cajas y bigotes. Este gráfico está dividido en cuartiles y nos sirve para detectar casos atípicos.
-
Discute la siguiente afirmación: para utilizar la mayoría de las técnicas multivariantes no es necesario que se cumplan todos los supuestos de normalidad, linealidad, homocedasticidad y ausencia de errores correlacionados.
-
el supuesto de normalidad nos servirá para poder usarse los estadísticos de la t- Student y de la f- Snedecor.
-
Linealidad: nos indica la relación existente entre las variables y nos permitirá hallar correlaciones.
-
Homocedasticidad: las variables dependientes deben exhibir igual nivel de dispersión de la varianza en todas las variables independientes.
-
El último supuesto que debe cumplir es que cualquier error de predicción sea independiente del resto.
-
Definición y objetivo del AF.
-
Conceptos básicos del AF.
-
Distinción entre el AFC y ACP.
-
Supuestos del ACP.
-
Diseño del ACP.
-
Estimación del número de factores a ser extraídos.
-
Métodos de rotación de los factores.
-
Criterios para determinar el nivel de significación de las cargas factoriales.
-
Caso práctico.
-
Tratamiento de los datos con DYANE y SPSS.
-
Definición y objetivo del AF.
-
La reducción y sintetización de los datos para identificar sus estructuras básicas (de las grandes BBDD).
-
La creación de una nueva serie de variables (los llamados “factores”) que pueden ser utilizados posteriormente en otros análisis multivariantes (por ejemplo la regresión múltiple o el análisis cluster).
-
Conceptos básicos.
-
Distinción entre AF y ACP.
-
Puede proporcionar múltiples soluciones en lugar de una, como sucede en el ACP.
-
Es muy difícil estimar sólo la varianza común.
-
Supuestos del ACP. (Son específicos del ACP)
-
Supuestos generales: Normalidad, Linealidad y Homocedasticidad. -->[Author:RGM]
-
Supuesto específico: Se asume que existe un nivel suficientemente elevado de correlación entre las variables (En caso contrario, no podemos extraer factores). Este nivel de correlación se puede examinar de tres maneras:
-
Si KMO es mayor que 0,80: Sobresaliente
-
Si KMO está entre 0,70 y 0,80: Regular
-
Si KMO está entre 0,60 y 0,70: Mediocre
-
Si KMO está entre 0,50 y 0,60: Despreciable, y
-
Si KMO es menor que 0,50: Inaceptable
-
Diseño del ACP. (Procedimientos)
-
Selección de variables
-
Tamaño muestral
-
Examen de los supuestos generales (y específicos)
-
Matriz de correlaciones
-
Test de Bartlett
-
Estimación del número de factores a ser extraídos
-
Rotación de factores
-
Interpretación de los factores
-
Validación
-
Usos adicionales de los factores
-
Estimación del número de factores a ser extraídos
-
Métodos de rotación de los factores.
-
Rotación ortogonal: Es una rotación ortogonal ya que se realiza en un ángulo de 90º
-
QUARTIMAX
-
VARIMAX!DYANE (utilizada en el curso)
-
EQUIMAX
-
Rotación oblicua: Cuando nos es una rotación con un ángulo de referencia de 90º
-
Criterios para determinar el nivel de significación de las cargas factoriales.
-
Caso practico.
-
Con Dyane.
-
Con SPSS.
Casos atípicos: Hay que decidir si emplearlos o eliminarlos. Hay que eliminarlos si no son aleatorios. Podemos emplear:
Si el tamaño de la muestra n< 80, podemos eliminar los datos fuera de 2.5
Si el tamaño n>80: > 4
Si tenemos un conjunto de datos, en primer lugar hay que determinar el punto o centroide de todas las variables (x) y luego medir la distancia para cada variable con una media estandarizada. Por ello, cuando existe un caso atípico podemos medir su distancia y podemos decir en comparación con otras distancias si es o no atípico.
Para evitar los sesgos más importantes, por qué debemos saber si los datos cumplen los supuestos. Hay dos razones principales:
Las técnicas multivariantes tienen que cumplir los supuestos doblemente: tienen que cumplir los supuestos como variables aisladas, y tienen que cumplir los supuestos de las variables multivariantes.
Entonces, para poder aplicar las técnicas multivariantes, se suponen las siguientes condiciones o supuestos:
TÉCNICAS DE DEPENDENCIA
TÉCNICAS DE INDEPENDENCIA
Para realizar una investigación comercial multivariante hay que realizar los siguientes preguntas:
¿ podemos dividir las variables en dependientes o independientes?
¿ cuántas de estas variables son tratadas como dependientes?
¿ cómo son las variables medidas ( el tipo de escala ) ?
Vamos a utilizar dos programas : SPSS y Dyane
Son aquellas técnicas estadísticas que nos van a ayudar a analizar al mismo tiempo un conjunto de variables. El efecto de cada una de estas variables independiente de las otras no tiene sentido, pero analizadas simultáneamente su efecto tiene interpretación.
Existen dos tipos de escalas: métricas y no métricas. Si los datos son no métricos, no dan valores matemáticos, sin embargo, si son métricos si que dan valores matemáticos. Por tanto, es crucial conocer que escala para determinar que técnica multivariante es más apropiada en función de la escala.
Nivel de significación: me indica en que medida el valor observado es representativo de la muestra.
Error tipo I: se define como la probabilidad de que se rechace la hipótesis de un posible valor cuándo este es cierto.
Error tipo II: se define como la probabilidad de que se acepte la hipótesis de un posible valor cuándo este es falso.
Existen tres métodos:
Las técnicas multivariantes nos sirven para estudiar la relación simultánea entre el comportamiento de más de dos variables. La afirmación es falsa ya que esta relación debe cumplir todos los supuestos:
TEMA 2: EL ANALISIS FACTORIAL
Estructura de la clase:
El análisis factorial (AF) se puede definir como “la técnica estadística multivariante (de interdependencia) cuyo objetivo principal es resumir las variables y extraer información (los factores más importantes) de grandes bases de datos, procurando una mejor comprensión de la estructura de los mismos”.
El AF es una técnica de interdependencia en la que se consideran todas las variables simultáneamente, y que permite extraer un número reducido de los factores (es decir, los valores teóricos) con los cuales se intenta explicar al máximo todo el conjunto de variables originales. Dichas variables deben ser métricas.
El AF tiene dos objetivos:
El AF se utiliza principalmente para los siguientes tipos de investigación:
Imagen de marca, imagen del establecimiento, imagen de los consumidores sobre una bebida, etc. En definitiva, se enmarca dentro de la segmentación, factores principales y diferenciación de nuestro producto, estudio de aptitudes, etc
Para el AF buscaremos los índices de correlación entre variables, e identificaremos las correlaciones altas.
Lo que haremos es juntar aquellas que tengan una correlación alta entre ellas y formar un factor con ellas.
Conceptos | Definición |
Factor | Es el valor teórico que se extrae con el AF. Es una combinación lineal (Y=1X1+ 2X2+...+ nXn)de las variables originales. Los factores representan las dimensiones subyacentes (extracción del Factor1) que resumen la serie original de variables. El factor es una relación lineal. Calcularemos 1, 2, ..., n para hallar el factor (Y=1X1+ 2X2+...+ nXn). Los factores no son directamente observables. Por ello usamos la técnica del AF. |
Cargas | Es la correlación entre las variables originales (el peso de cada variable en el factor) y los factores, y la clave para entender la naturaleza de un factor específico. Las cargas de los factores al cuadrado indican qué porcentaje de la varianza en una variable original se atribuye a un determinado factor. Dicho de un modo mejor, Las cargas son el peso de cada variable en el Factor. Las (Cargas)2 es la proporción de varianza de la variable que contribuye a las correlaciones con otras variables. Las (Cargas)2 = Comunalidad |
Comunalidad-->[Author:RGM] | Es una varianza compartida con otras variables. Es la proporción de varianza de la variable que contribuye a su vez con correlaciones con otras variables. |
Autovalor (eigenvalue) | Es una medida de la cantidad de varianza contenida en la matriz de correlación de tal forma que la suma de los autovalores debe ser igual al número de variables. Otra definición- Es la cantidad de información explicada por el modelo AF y su varianza asociada con cada factor. |
Reglas de extracción
1.- Factores con cargas > 50%
2.- Factores tipo autovalor > 1
En investigación comercial se suelen utilizar métodos o modelos básicos para obtener soluciones factoriales: análisis factorial común (AFC) y análisis de componentes principales (ACP). La diferencia entre estos dos métodos consiste en el tipo de varianza que analizan. En el AFC los factores se basan solamente en la varianza común. En el ACP los factores se basan en la varianza total (que incluye la varianza común y la varianza específica y error).
Nota: En Investigación de Mercados (IM), cuando se menciona AF, se está refiriendo en realidad al ACP.
AFC | Varianza común | Varianza específica y error Distorsionan los procesos de extracción |
ACP | Varianza total |
La Varianza Total se divide en:
1.- Varianza Común: es aquella varianza donde una variable se comparte con todas las demás variables.
2.- Varianza Específica: es aquella varianza asociada únicamente con una variable específica.
3.- Varianza del Error: es aquella varianza debida al error de medición.
En este curso, nos centramos sólo en el ACP.
En AFC no se usa la Varianza Específica y la Varianza de Error porque se supone que distorsiona. Pero se supone que tiene varios inconvenientes:
Por ello, los investigadores prefieren usar el ACP, ya que presenta menos inconvenientes. Este será el que nosotros usemos.
! Examen visual de la matriz de correlaciones:
Seleccionamos las correlaciones altas. Para considerar una correlación alta, esta tiene que ser > 0,30.
! Contraste de esfericidad de Bartlett: -->[Author:RGM]
Esta prueba es más objetiva y eficaz. Es una prueba estadística para examinar la existencia de correlaciones significativas. El resultado a esta prueba sería “Significativo” o “No significativo”.
La prueba de Bartlett sólo prueba la presencia de relaciones significativas, pero no indica el nivel de correlación. Esto se consigue con el tercer análisis: Índice KMO
! Índice K-M-O (la adecuación muestral de Kaiser-Meyer-Olkin): -->[Author:RGM]
Es una prueba más completa aún que la anterior.
Se trata de cuantificar, mediante un índice estadístico, el grado de intercorrelación entre variables, y la conveniencia del Análisis de Componentes Principales (ACP). Examina la presencia de correlaciones significativas indicando solamente si existen, no cuales son.
Los índices obtenidos pueden ser:
Pero siempre ha de ser mayor de 0,50 para que sea conveniente hacer el ACP.
Seleccionamos variables métricas. En caso contrario, necesitamos realizar una transformación de no métricas a métricas.
El criterio a seguir para determinar el tamaño muestral óptimo a utilizar con ACP, la muestra no debe ser inferior a 50 observaciones. Lo aconsejable es que sea >= 100.
Concepto: Consistencia Interna. Está relacionado con la fiabilidad y se utiliza para asegurar la fiabilidad de la escala que estamos utilizando. Asegura que los items de las escalas o las preguntas de la escala están midiendo las mismas contrucciones y éstas están altamente intercorrelacionadas entre sí. Por ej: En el comportamiento de compra hacia una marca determinada, examinamos la actitud hacia el producto, precio, establecimiento, etc. Para ello creamos una serie de preguntas para cada dimensión. Estas preguntas deben estar altamente correlacionadas entre sí. La consistencia interna se mide mediante el test de Cronbach (alpha de Cronbach) y tiene que ser superior a 0,60. Este test aparece en DYANE.
Como ya se ha comentado, se considera que existen correlaciones altas cuando éstas son > 0,30.
Aplicamos el test de Bartlett y el índice KMO.
Ver página siguiente.
Ver gráfico.
Proceso de etiquetación de factores. Atribuir un significado a cada factor, es decir: poner un patrón de cargas a cada factor.
Un método para efectuar una validación a nuestro ACP es dividir la muestra en dos partes independientes y aplicar a cada una de ellas el ACP. Si obtenemos los mismos factores/dimensiones, es decir: si coinciden ambas la muestra sería representativa y por tanto, el ACP sería válido.
Regresión múltiple o Cluster.
Con el fin de decidir cuántos factores se deben extraer, el investigador empieza generalmente con alguno de los siguientes criterios predeterminados.
Criterio de raíz latente !DYANE AUTOVALOR | Sólo se consideran los factores que tienen autovalores mayores que 1, ya que cualquier factor individual debería explicar por lo menos una variable. |
Criterio a priori | Ya se sabe de antemano cuántos factores hay que extraer sobre la base de un estudio previo. Resultado del Pre-Test. |
Criterio de porcentaje de la varianza | Se obtienen los factores que representan un porcentaje acumulado especificado de la varianza total extraída (aproximadamente un 60% de la varianza total en las ciencias sociales). Se suelen utilizar cargas y estas deben ser >50% del factor. |
Criterio de contraste de caída | Se identifica el número óptimo de factores que contienen una proporción de la varianza común sustancialmente alta. |
CRITERIO DE CONTRATE DE CAIDA (Gráfico realizado con SPSS)
Consiste en rotar o girar los ejes de referencia de los factores para lograr un patrón de factores más simple y más significativo.
(tipos)
(Interpretación de los factores)
Al interpretar los factores, se debe determinar qué cargas factoriales merece la pena considerar. Para ello hay dos criterios importantes.
a) Asegurar la significación práctica.
Muestra >= 100 observaciones, seleccionamos cargas factoriales>0,55
Muestra < 100 observaciones, seleccionamos cargas factoriales>0,75
b) Valorar la significación estadística.
Utilizar un nivel de significación de 0,5 y potencia de 0,8.
El caso “TeleSake”
X1 : Velocidad de entrega
X2 : Nivel de precios
X3 : Presentación de la comida
X4 : Imagen del logotipo
X5 : Eficacia del servicio
X6 : Atención al cliente
X7 : Calidad de la comida
El punto 6, Caso práctico, lo realizaremos con el SPSS y el Dyane, con lo que el punto 7 quedará cubierto. El punto 7 lo trataremos primero, pero sólo con el Dyane y simplemente para ver los criterios a utilizar y la interpretación y el análisis de los datos.
Hay que tener en cuenta que el programa Dyane ofrece tres opciones de aplicación del AFC:
(1) módulo de tablas de frecuencias,
(2) módulo de tablas de medios, y
(3) módulo de tablas específicas (DYANE, pp.318-337).
Si vuestros cuestionarios se basan en variables categóricas, normalmente es recomendable utilizar el primer módulo (es decir, las variables tanto filas como columnas son categóricas). Sin embargo, si los cuestionarios usan variables numéricas con escalas de Likert, podríamos elegir el segundo módulo (es decir, las variables filas son numéricas mientras que las variables columnas son categóricas). Si tenéis alguna duda o pregunta, mandad un mensaje al foro o pasad por mi despacho con vuestros datos.
Haremos otra práctica con la BD de Telesake:
A N Á L I S I S D E C O M P O N E N T E S P R I N C I P A L E S
=====================================================================
IDENTIFICACIÓN DE LAS VARIABLES
-------------------------------
VARIABLE 1 : X1 - X1
VARIABLE 2 : X2 - X2
VARIABLE 3 : X3 - X3
VARIABLE 4 : X4 - X4
VARIABLE 5 : X5 - X5
VARIABLE 6 : X6 - X6
VARIABLE 7 : X7 - X7
Matriz de coeficientes de correlación simple
--------------------------------------------
X1 X2 X3 X4 X5 X6 X7
-------- -------- -------- -------- -------- -------- --------
X1 1,0000 -0,3492 0,5093 0,0504 0,6119 0,0771 -0,4826
X2 -0,3492 1,0000 -0,4872 0,2722 0,5130 0,1862 0,4697
X3 0,5093 -0,4872 1,0000 -0,1161 0,0666 -0,0343 -0,4481
X4 0,0504 0,2722 -0,1161 1,0000 0,2987 0,7882 0,2000
X5 0,6119 0,5130 0,0666 0,2987 1,0000 0,2408 -0,0552
X6 0,0771 0,1862 -0,0343 0,7882 0,2408 1,0000 0,1773
X7 -0,4826 0,4697 -0,4481 0,2000 -0,0552 0,1773 1,0000
Test de Bartlett
----------------
Determinante de la matriz de correlación = 0,002679
Ji cuadrado con 21 grados de libertad = 567,5407 (p = 0,0000)
Según el test de Bartlett me sale significativo
FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 FACTOR 5 FACTOR 6 FACTOR 7
-------- -------- -------- -------- -------- -------- --------
VALOR PROPIO: 2,5258 2,1204 1,1811 0,5412 0,4180 0,2044 0,0092
% DE VARIANZA: 36,08% 30,29% 16,87% 7,73% 5,97% 2,92% 0,13%
% VAR.ACUMUL.: 36,08% 66,37% 83,25% 90,98% 96,95% 99,87% 100,00%
CARGAS DE
LOS FACTORES: COMUNALIDAD
-----------
X1 -0,5280 0,7515 -0,2024 -0,0312 -0,3340 -0,0047 0,0541 1,0000
X2 0,7924 0,0931 -0,5081 -0,0055 0,3195 -0,0255 0,0508 1,0000
X3 -0,6920 0,3745 0,1727 -0,4761 0,3512 0,0320 0,0010 1,0000
X4 0,5640 0,6020 0,4524 0,1014 0,0243 0,3225 0,0025 1,0000
X5 0,1858 0,7789 -0,5949 -0,0283 -0,0197 -0,0075 -0,0604 1,0000
X6 0,4921 0,6040 0,5418 0,0248 0,0238 -0,3135 -0,0009 1,0000
X7 0,7386 -0,2698 0,0054 -0,5494 -0,2820 0,0185 -0,0009 1,0000
También tenemos 7 factores con valores propios. En esta matriz consideramos todos los factores, por lo que tenemos la Comunalidad igual a 1
COEFICIENTES DE
PUNTUACIÓN DE
LOS FACTORES:
X1 -0,2090 0,3544 -0,1714 -0,0576 -0,7991 -0,0231 5,9081
X2 0,3137 0,0439 -0,4302 -0,0101 0,7643 -0,1246 5,5418
X3 -0,2740 0,1766 0,1462 -0,8798 0,8401 0,1566 0,1133
X4 0,2233 0,2839 0,3830 0,1873 0,0582 1,5778 0,2730
X5 0,0736 0,3673 -0,5037 -0,0522 -0,0470 -0,0368 -6,5904
X6 0,1948 0,2848 0,4587 0,0459 0,0569 -1,5340 -0,0946
X7 0,2924 -0,1272 0,0046 -1,0151 -0,6746 0,0905 -0,1034
Esta matriz, de momento, no tiene importancia
Cargas de los factores retenidos:
---------------------------------
FACTOR 1 FACTOR 2 FACTOR 3 COMUNALIDAD
-------- -------- -------- -----------
X1 -0,5280 0,7515 -0,2024 0,8845
X2 0,7924 0,0931 -0,5081 0,8947
X3 -0,6920 0,3745 0,1727 0,6490
X4 0,5640 0,6020 0,4524 0,8851
X5 0,1858 0,7789 -0,5949 0,9951
X6 0,4921 0,6040 0,5418 0,9005
X7 0,7386 -0,2698 0,0054 0,6183
VARIANZA: 2,5258 2,1204 1,1811
% DE VARIANZA: 36,08% 30,29% 16,87%
% VAR.ACUMUL.: 36,08% 66,37% 83,25%
Hemos obtenido 3 factores más importantes. Ahora la Comunalidad es menor que 1, pero bastante alta. Pero con esta matriz es difícil distinguir que variable es más importante que las otras.
Lo que podremos saber es cuanto varianza está explicada con el análisis de componentes principales. Podemos ver que es muy elevada, y se pueden explicar casi todos los factores.
ROTACIÓN VARIMAX:
-----------------
Cargas de los factores retenidos (después de la rotación):
----------------------------------------------------------
FACTOR 1 FACTOR 2 FACTOR 3 COMUNALIDAD
-------- -------- -------- -----------
X1 -0,7524* 0,0711 0,5598 0,8845
X2 0,7539* 0,1081 0,5609 0,8947
X3 -0,8055* 0,0063 0,0095 0,6490
X4 0,1167 0,9210* 0,1525 0,8851
X5 -0,0620 0,1763 0,9799* 0,9951
X6 0,0341 0,9452* 0,0766 0,9005
X7 0,7596* 0,1930 -0,0644 0,6183
VARIANZA: 2,3788 1,8269 1,6215
% DE VARIANZA: 33,98% 26,10% 23,16%
% VAR.ACUMUL.: 33,98% 60,08% 83,25%
La interpretación es mucho más fácil y significativa. -->[Author:RGM]
La varianza explicada no ha cambiado. Se mantiene.
COEFICIENTES DE
PUNTUACIÓN DE
LOS FACTORES:
X1 -0,3037 0,0039 0,3262
X2 0,3452 -0,0997 0,3953
X3 -0,3487 0,0694 -0,0349
X4 -0,0189 0,5227 -0,0598
X5 0,0073 -0,0665 0,6242
X6 -0,0604 0,5582 -0,1194
X7 0,3094 0,0657 -0,0407
Ahora tendremos que interpretar los factores. Tendremos que “poner nombre o etiqueta” a cada factor. Esto dependerá. Hay una regla general para atribuir significado a cada factor:
Siempre hay que considerar las variables con mayores cargas.
Al final tenemos la interpretación gráfica.
REPRESENTACIÓN GRÁFICA DE LOS FACTORES
--------------------------------------
VARIABLES:
Código Significado
------ ----------------
A X1
B X2
C X3
D X4
E X5
F X6
G X7
FACTORES 1 y 2:
FACTOR 2
|—————————————————————————————————————————————————————————————————————————————————•
1,0 + + |
| |F |
0,9 + + D |
| | |
0,8 + + |
| | |
0,7 + + |
| | |
0,6 + + |
| | |
0,5 + + |
| | |
0,4 + + |
| | |
0,3 + + |
| | |
0,2 + E + G |
| | |
0,1 + + B |
| A | |
0,0 +----+---C---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+----|FACTOR 1
| | |
-0,1 + + |
| | |
-0,2 + + |
| | |
-0,3 + + |
| | |
-0,4 + + |
| | |
-0,5 + + |
| | |
-0,6 + + |
| | |
-0,7 + + |
| | |
-0,8 + + |
| | |
-0,9 + + |
| | |
-1,0 + + |
|————+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+————•
-1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0
Ahora veremos las opciones en el SPSS. Usaremos los mismos datos que antes, para el análisis con el SPSS.
Seleccionamos el elemento de menú “Analizar/Reducción de datos/Análisis Factorial”
Y nos aparecerá una ventana como la siguiente:
Ahora pulsamos “Descriptivos”
Matriz de correlaciones dependerá de lo que queramos, pero chequearemos KMO y prueba de esfericidad de Bartlett para asegurarnos un grado de significación de variables
Pulsamos ahora “Extracción”:
Autovalores mayores que: podemos cambiarlo a 0,8 por ejemplo. -->[Author:RGM]
También podemos cambiar el criterio a Número de factores, porque sepamos el número de factores que queremos extraer. -->[Author:RGM]
Nosotros usaremos el primer criterio
Nos interesa seleccionar también el Gráfico de sedimentación, y la Solución factorial sin rotar.
Seleccionamos ahora Rotación:
Seleccionamos ahora Puntuaciones:
Guardar las puntuaciones factoriales para análisis posteriores. -->[Author:RGM]
En botón opciones:
Para ACP podemos seleccionar varios métodos para sustituir o tratar los valores ausentes. Nosotros usaremos Reemplazar por la media ya que es el valor teóricamente mas representativo.
En formato de utilización, usaremos ordenados por tamaño, para ayudar en la visualización
Suprimir valores absolutos menores que: Opción muy importante a seleccionar. -->[Author:RGM]
Pulsaremos Continuar y Aceptar, para pasar al análisis de los resultados
6.2.1 Análisis de los datos con SPSS.
A. factorial
Notas
Resultados creados | 05-MAR-2004 17:48:02 | |
Comentarios |
| |
Entrada | Datos | C:\Documents and Settings\ecolab\Escritorio\Rafa\TeleSake.sav |
| Filtro | <ninguna> |
| Peso | <ninguna> |
| Segmentar archivo | <ninguna> |
| Núm. de filas del archivo de trabajo | 100 |
Manipulación de los valores perdidos | Definición de los perdidos | MISSING=EXCLUDE: Los valores definidos como perdidos por el usuario son considerados como perdidos. |
| Casos utilizados. | MEAN SUBSTITUTION: Para cada variable utilizada, los valores perdidos son sustituidos por la media de las variables. |
Sintaxis | FACTOR /VARIABLES x1 x2 x3 x4 x5 x6 x7 /MISSING MEANSUB /ANALYSIS x1 x2 x3 x4 x5 x6 x7 /PRINT INITIAL KMO EXTRACTION ROTATION /FORMAT SORT BLANK(.50) /PLOT EIGEN /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PC /CRITERIA ITERATE(25) /ROTATION VARIMAX /METHOD=CORRELATION . | |
Recursos | Tiempo transcurrido | 0:00:00,16 |
| Memoria máxima necesaria | 7204 (7,035K) bytes |
KMO y prueba de Bartlett
Medida de adecuación muestral de Káiser-Meyer-Olkin. | ,446 | |
Prueba de esfericidad de Bartlett | Chi-cuadrado aproximado | 567,541 |
| gl | 21 |
| Sig. | ,000 |
Vemos que es inaceptable: según KMO sale 0,446. Según nuestro criterio, si KMO < 0,5 es inaceptable.
Sin embargo la segunda prueba, Test de Bartlett, sale significativo. -->[Author:RGM]
Para un estudio exploratorio, podemos aceptar este test, puesto que ha salido significativo para el test de Bartlett.
Comunalidades
| Inicial | Extracción |
Velocidad de entrega | 1,000 | ,884 |
Nivel de precios | 1,000 | ,895 |
Presentación de la comida | 1,000 | ,649 |
Imagen del logotipo | 1,000 | ,885 |
Eficacia del servicio | 1,000 | ,995 |
Atención al cliente | 1,000 | ,901 |
Calidad de la comida | 1,000 | ,618 |
Método de extracción: Análisis de Componentes principales.
Este cuadro muestra cuanta varianza esta explicada con este modelo. Inicialmente está a 1, porque tiene todos los factores. Después de la extracción, baja; pero podemos ver que estamos con niveles muy altos.
Varianza total explicada
Componente | Autovalores iniciales | Sumas de las saturaciones al cuadrado de la extracción | Suma de las saturaciones al cuadrado de la rotación | ||
| Total | % de la varianza | % acumulado | Total | % de la varianza | % acumulado | Total | % de la varianza | % acumulado |
1 | 2,526 | 36,082 | 36,082 | 2,526 | 36,082 | 36,082 | 2,379 | 33,984 | 33,984 |
2 | 2,120 | 30,291 | 66,374 | 2,120 | 30,291 | 66,374 | 1,827 | 26,098 | 60,082 |
3 | 1,181 | 16,873 | 83,246 | 1,181 | 16,873 | 83,246 | 1,622 | 23,165 | 83,246 |
4 | ,541 | 7,731 | 90,977 |
|
|
|
|
|
|
5 | ,418 | 5,972 | 96,949 |
|
|
|
|
|
|
6 | ,204 | 2,920 | 99,869 |
|
|
|
|
|
|
7 | ,009 | ,131 | 100,000 |
|
|
|
|
|
Enviado por: | Adam clayton |
Idioma: | castellano |
País: | España |