Turismo
Análisis Cuantitativo de la Actividad Turística
ANÁLISIS CUANTITATIVO
DE LA
ACTIVIDAD TURÍSTICA
ÍNDICE:
TEMA 1. ANÁLISIS DE LA ACTIVIDAD TURÍSTICA
LA NECESIDAD Y LA UTILIDAD DEL ANÁLISIS CUANTITATIVO......................1
UNIDADES DE ANÁLISIS DE LA ACTIVIDAD TURÍSTICA.....................................2
HETEROGENEIDAD DE LA ACTIVIDAD TURÍSTICA Y LA HOMOGENEIZACIÓN DE CONCEPTOS......................................................................3
PROBLEMÁTICA DE LA ACTIVIDAD TURÍSTICA...................................................4
TEMA 2. LAS VARIABLES QUE MIDEN LA ACTIVIDAD TURÍSTICA
2.1. VARIABLES E INDICADORES DE LA ACTIVIDAD TURÍSTICA.............................5
2.2. LA CUANTIFICACIÓN DE LA DEMANDA..................................................................7
2.3. LA CUANTIFICACIÓN DE LA OFERTA.......................................................................8
2.4. LAS CLASIFICACIONES UNIFORMES DE LAS ACTIVIDADES............................10
2.5. LAS ESTADÍSTICAS TURÍSTICAS Y SUS FUENTES...............................................11
TEMA 3. ANÁLISIS DESCRIPTIVO DE UNA VARIABLE
3.1. ANÁLISIS DESCRIPTIVO DE UNA VARIABLE CUALITATIVA............................15
3.2. ANÁLISIS DESCRIPTIVO DE UNA VARIABLE CUANTITATIVA.........................22
3.3. ESTADÍSTICOS O MEDIDAS DE POSICIÓN (centrales y no centrales)....................24
3.4. ESTADÍSTICOS O MEDIDAS DE DISPERSIÓN........................................................29
3.5. SIMETRÍA DE UNA DISTRIBUCIÓN. HISTOGRAMAS...........................................33
TEMA 4. ANÁLISIS CONJUNTO DE DOS VARIABLES CUALITATIVAS
4.1. OBTENCIÓN DE INFORMACIÓN A TRAVÉS DE ENCUESTAS............................37
4.2. RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS.........................................38
4.3. ESTADÍSTICOS DE ASOCIACIÓN. INDEPENDENCIA Y ASOCIACIÓN..............44
TEMA 5. ANÁLISIS CONJUNTO DE DOS VARIABLES CUANTITATIVAS
5.1. RELACIÓN ENTRE DOS VARIABLES CUANTITATIVAS. Representación...........49
5.2. MEDIDAS O ESTADÍSTICOS DE RELACIÓN LINEAL: Covarianza y correlación.50
5.3. RELACIÓN DE CAUSALIDAD O DE DEPENDENCIA.............................................57
5.4. OBTENCIÓN DE A Y B POR MÍNIMOS CUADRADOS...........................................58
5.5. COEFICIENTE DE DETERMINACIÓN: Bondad del ajuste lineal..............................60
TEMA 6. LA EVOLUCIÓN TEMPORAL DE UNA VARIABLE CUANTITATIVA
6.1. LA PERSPECTIVA TEMPORAL EN EL ANÁLISIS DE UNA VARIABLE.............63
6.2. COMPONENTES SISTEMÁTICAS DE UNA SERIE TEMPORAL...........................65
6.3. COMPONENTE NO SISTEMÁTICA DE UNA SERIE TEMPORAL.........................66
6.4. ANÁLISIS DE LA TENDENCIA Y DE ESTACIONALIDAD....................................67
6.5. TASAS DE VARIACIÓN O DE CRECIMIENTO........................................................70
6.6.NÚMEROS ÍNDICE........................................................................................................72
PREGUNTAS DE EXAMEN..............................................................................................75
TEMA 1. ANÁLISIS DE LA ACTIVIDAD TURÍSTICA
02/10/2008
1.1.LA NECESIDAD Y LA UTILIDAD DEL ANÁLISIS CUANTITATIVO
-
La actividad turística o turismo es toda actividad que hacen las personas cuando se desplazan fuera de su entorno habitual, para una duración inferior a 12 meses y con la finalidad de no ejercer actividades remuneradas en el lugar de destino.
-
Problemas en la cuantificación: muchas de las actividades turísticas sirven a consumidores que pueden ser o no turistas ( restaurantes, tiendas diversas, etc.). No todas las personas que viajan son turistas.
-
Para intentar solucionar estos problemas, la Organización Mundial del Turismo (OMT), a partir de los años 80, comenzó a unificar, a nivel mundial, las definiciones básicas para la estadística de la actividad turística. Estas definiciones deben ser homogéneas y utilizadas de igual forma, en todo el mundo. La OMT también da unas clasificaciones sobre los turistas, que deben seguir todos los países y así, poder hacer comparaciones entre los diferentes lugares y tener unos análisis homogéneos. La OMT recomienda el uso de estas definiciones y clasificaciones a todos los países.
1.2.UNIDADES DE ANÁLISIS DE LA ACTIVIDAD TURÍSTICA
Residente: persona que está durante la mayor parte del año en un país o lugar.
Viajero: toda persona que se desplaza entre dos o más países diferentes, o entre dos o más lugares dentro de su país de residencia, pero fuera de su entorno habitual.
Visitante: Toda persona que se desplaza a un lugar diferente a su entorno habitual, por una duración inferior a 12 meses y cuya finalidad principal en el viaje NO es ejercer una actividad que sea remunerada en el lugar visitado.
Turista: es un visitante (que se desplaza a un lugar diferente a su entorno habitual, por una duración inferior a 12 meses y cuya finalidad principal en el viaje NO es ejercer una actividad que sea remunerada en el lugar visitado) que pernocta como mínimo una noche en el lugar visitado.
Excursionista: es un visitante (que se desplaza a un lugar diferente a su entorno habitual, por una duración inferior a 12 meses y cuya finalidad principal en el viaje NO es ejercer una actividad que sea remunerada en el lugar visitado) que realiza una visita de día y NO pernocta en el lugar visitado.
En otros viajeros englobamos:
-
Personas que viajan dentro de su entorno habitual (viajeros laborales fronterizos, trabajadores fronterizos, viajeros en vecindad directa de lugar de residencia),
-
Personas que cambian de lugar de residencia (Migrantes a largo plazo, y personas que se trasladan a otro lugar dentro de su país de residencia, ambos grupos con un propósito de estancia de más de 12 meses).
-
Personas sin lugar fijo de residencia (nómadas, vagabundos, refugiados).
-
Personas que viajan a lugares donde perciben remuneración (migrantes a corto plazo con propósito de estancia igual o inferior a 12 meses, trabajadores estacionales, conferenciantes, artistas de espectáculos, Au pair, )
-
Otros excluidos por convención (pasajeros de tránsito, miembros de las fuerzas armadas, representación de consulados, diplomáticos, prisioneros)
1.3.LA HETEROGENEIDAD DE LA ACTIVIDAD TURÍSTICA Y LA HOMOGENIZACIÓN DE CONCEPTOS.
Viaje: es el que realiza un individuo o un grupo, cada vez que deja su lugar de residencia habitual por un motivo o más, recorre una determinada distancia para visitar uno o más destinos, con uno o más medios de transporte, y vuelve a su residencia. (Un viaje de negocios es un viaje, pero no es turismo).
Viaje de vacaciones: es un viaje en el que el motivo principal es el ocio, e incluye cuatro pernoctaciones como mínimo.
Turismo interno: es el que realizan los residentes de un país que viajan dentro del propio país.
Turismo receptor: es el que realizan los no residentes que viajan dentro de un determinado país.
Turismo emisor: es el que realizan los residentes de un determinado país, que viajan a otro país.
[ OJO, si se hace un estudio de una zona en concreto, por ejemplo a nivel de las Islas Baleares, el concepto país debe entenderse como esa zona en concreto, en este caso, sólo las Islas Baleares]
TIPOLOGÍA DE TURISMO
TURISMO INTERIOR = TURISMO INTERNO + TURISMO RECEPTOR
TURISMO INTERIOR = el que realizan los residentes de un país que viajan dentro del propio país + el que realizan los no residentes que viajan dentro de un determinado país.
TURISMO NACIONAL = TURISMO INTERNO + TURISMO EMISOR
TURISMO NACIONAL = el que realizan los residentes de un país que viajan dentro del propio país + el que realizan los residentes de un determinado país, que viajan a otro país.
TURISMO INTERNACIONAL = TURISMO RECEPTOR + TURISMO EMISOR
TURISMO INTERNACIONAL = el que realizan los no residentes que viajan dentro de un determinado país + el que realizan los residentes de un determinado país, que viajan a otro país.
La definición de Turismo no acaba de determinar de una manera inequívoca y única, los principales componentes y unidades que la integran, por lo que es necesario unificar conceptos:
-
Unificar ciertas definiciones (ver material de apoyo 1)
-
Contabilizar las actividades y los bienes y servicios turísticos
Los bienes y servicios turísticos son los que se destinan a satisfacer las necesidades de los visitantes de un determinado país o región. Se dividen en:
-
Bienes y servicios primarios o puramente turísticos: son los que dependen totalmente de la actividad turística (hoteles, apartamentos...)
-
Bienes y servicios secundarios o complementarios: son los que dependen parcialmente de la actividad turística. Este tipo de bienes y servicios son los más difíciles de clasificar (por ej. un restaurante tendrá clientes que sean visitantes y otros que no lo sean, pero dependiendo de donde esté situado es posible que sólo tenga clientes visitantes o sólo clientes del lugar).
-
Actividades y servicios intermedios o indirectos: dependen indirectamente de la actividad turística (por ej. la construcción).
1.4.PROBLEMÁTICA DE LA ACTIVIDAD TURÍSTICA
-
Hay dificultad para conseguir datos creíbles para describir la magnitud y las consecuencias del turismo en la economía.
-
Hay una gran diversidad en el sector, lo que lleva a plantearse si el turismo es realmente un sector o un conjunto de sectores.
-
Hay grandes variaciones del fenómeno turístico según el lugar y la diversidad de tamaño de esos lugares.
-
Hay fragmentación y falta de organización en la actividad turística; es un sector muy complejo.
-
Es difícil hacer predicciones a medio y largo plazo debido al gran dinamismo del sector y a la exposición del sector a cambios imprevistos o imprevisibles (guerras, cambio de gustos del cliente, etc). Esta dificultad de predicción es característica del sector turístico, a pesar de que estas predicciones son necesarias y muy importantes para su funcionamiento.
Estos problemas se intentan solucionar o clarificar con la homogeneización de definiciones y clasificaciones.
OBJETIVO DE LA ASIGNATURA: TENER HERRAMIENTAS VÁLIDAS PARA TRABAJAR CON SEGURIDAD, ES DECIR, QUE A PARTIR DE UNOS DATOS, SE PUEDA TRABAJAR CON ELLOS Y SACAR CONCLUSIONES VÁLIDAS.
TEMA 2. LAS VARIABLES QUE MIDEN LA ACTIVIDAD TURÍSTICA
9/10/2008
2.1.VARIABLES E INDICADORES DE LA ACTIVIDAD TURÍSTICA.
VARIABLE: Es el conjunto de observaciones sobre una determinada característica (IMP). Por ejemplo, si se hace un estudio sobre la edad de los alumnos que hay en una clase, la característica es la edad del alumno y cada una de las edades será una observación, pero el conjunto de edades será la variable. Las variables deben estar bien definidas: en el ejemplo anterior lo correcto sería Variable: la edad de los alumnos de la clase de Análisis).
CONSTANTE: es una observación de un hecho concreto. Por ej: la edad de un alumno concreto.
INDICADOR: son variables que sin medir directamente una característica, nos aproximan a ella de una manera indirecta, recogiendo información que se relaciona con la que queremos obtener realmente. Por ejemplo: número de visitas a un destino como indicador de la fidelidad del turista a ese destino:
TIPOLOGÍA DE LAS VARIABLES: Es importante saber qué tipo de variable estamos analizando en cada momento, ya que según de qué tipo se trate, se pueden aplicar un tipo de normas y operaciones u otro.
Variables temporales: son las que se observan en varios períodos de tiempo consecutivos. Por ej: gasto total per cápita y día entre 1989 y 2004.
Variables transversales o atemporales: son las que se observan en un mismo momento del tiempo para varios individuos. Por ej: gasto total per cápita y día por nacionalidades en 2004.
Variables cualitativas (IMP): son las que expresan características o categorías de una cualidad y NO pueden expresarse numéricamente:
Variables cualitativas nominales son las que únicamente ponen nombre a una característica: sexo, nacionalidad, profesión, tipo alojamiento, modo de realización de la reserva, lugar de vacaciones del año anterior, motivo del viaje, intención de retorno, tipo de moneda... Estas variables NO se pueden ordenar.
Variables cualitativas ordinales son las que llevan asociadas un orden en las respuestas: tipo de paquete turístico seleccionado, categoría del establecimiento de alojamiento, opinión sobre los precios, impresión acerca del viaje, comparación de la calidad con anteriores visitas. Estas variables se pueden ordenar de forma creciente o decreciente: por ej estrellas de un hotel: 1, 2, 3, 4, 5) Si hablamos de cuántos hoteles de 2* hay en un lugar, será la frecuencia de una variable cuantitativa, pero si nos referimos sólo al tipo de hotel que es, será cualitativa.
Variables cuantitativas: son las que se expresan numéricamente y se puede operar matemáticamente con esos datos:
Variable cuantitativa discreta: son las que toman un número finito de valores. Son valores enteros y con valor máximo, como por ej. la edad, número de estrellas de los hoteles, días de estancia, número de viajes realizados, personas incluidas en el paquete turístico, etc.
Variable cuantitativa continua: son las que toman un número infinito de valores, por ej: el gasto turístico. Pueden ser cualquier tipo de valor: decimales, negativos, etc.
Hay variables que pueden ser de un tipo o de otro (cualitativa o cuantitativa) y nos puede interesar analizarlas como variables cuantitativas (pero no al revés). Salvo excepciones, la variable edad es una variable cuantitativa, pero podemos analizarla como cualitativa si la expresamos en forma de intervalos. O sea, una variable cuantitativa puede ser también cualitativa.
2.2.LA CUANTIFICACIÓN DE LA DEMANDA
Las variables que miden la demanda son aquéllas que miden el consumo de bienes o servicios turísticos por parte de los visitantes, ya sean turistas o excursionistas.
Indicadores de la demanda turística:
-
En unidades físicas: el flujo turístico o volumen turístico (nº de viajes, nº de pernoctaciones, nº de turistas, nº de...)
-
En unidades monetarias: gasto turístico, es decir, todo gasto de consumo efectuado por un visitante o a cuenta de un visitante, durante y para su desplazamiento y permanencia turística en el lugar de destino.
-
Gasto realizado en la ciudad o país de origen
-
Gasto realizado en el lugar de destino
-
Gasto total = gasto en origen + gasto en destino
2.3.LA CUANTIFICACIÓN DE LA OFERTA
La cuantificación de la oferta es más complicada que la de la demanda, debido a la gran diversidad de actividades que pueden ser clasificadas como turísticas. La actividad más destacada es la oferta hotelera, que es una actividad primaria o de primer nivel. La oferta hotelera se mide principalmente por la capacidad de alojamiento turístico:
-
Nº de establecimientos por categorías
-
Nº de plazas
-
Nº de habitaciones
-
Nº de meses de apertura a lo largo del año
El grado de utilización de la capacidad productiva hotelera se mide por los siguientes indicadores:
-
Nº de viajeros
-
Nº de pernoctaciones
Estos indicadores permiten calcular la TASA DE OCUPACIÓN que es la proporción de habitaciones o plazas/cama de un establecimiento de alojamiento colectivo de turismo, ocupadas durante un cierto período de tiempo:
Total de pernoctaciones
Tasa de ocupación = ----------------------------------------
Total de plazas X Nº de noches
Este cociente dará un número con varios decimales, pero aporta más información si lo transformamos en un porcentaje, multiplicándolo por 100:
Total de pernoctaciones
Tasa de ocupación en % = ---------------------------------------- X 100
Total de plazas X Nº de noches
El Total de pernoctaciones es el nº de noches que un turista se aloja en el establecimiento y el Nº de noches es el nº de días o noches del período que se considere (un mes, varios meses, un año). Este número debe ser exacto, es decir si se trata del mes de febrero se contabilizarán los 28 días, si es agosto 31, etc...
Ejemplo: Calcular la tasa de ocupación de un hotel de 250 plazas en el mes de marzo, que ha tenido 770 pernoctaciones:
Total de pernoctaciones 770
Tasa de ocupación = -------------------------------------- X 100 ==> --------------- X 100
Total de plazas X nº de noches 250 X 31
T.O. = 0,099 X 100 = 9,9 % ≈ 10%
Ejercicio: Calcular las pernoctaciones mensuales (mes estándar de 30 días) de un alojamiento turístico que tiene 25 habitaciones individuales, 15 dobles y 30 triples. Ocupa un 73% de su capacidad.
Total de pernoctaciones
Tasa de ocupación = ----------------------------------------------- X 100
Total de plazas X nº de noches
Total de pernoctaciones
73% = ----------------------------------------------- X 100
[25 + (15 X 2) + (30 X 3)] X 30 noches
Total de pernoctaciones 73 X 145 X 30
73% = ---------------------------- X 100 total pernoctaciones = ----------------- = 3175,5
145 X 30 100
total pernoctaciones = 3176 (se redondea)
Si se usa la fórmula sin porcentajes sería:
Total de pernoctaciones Total de pernoctaciones
0,73 = ----------------------------------------------- ==> 0,73 = -----------------------------
[25 + (15 X 2) + (30 X 3)] X 30 noches 145 x 30
0,73 x 145 x 30 = 3175.5 = total de pernoctaciones
Ejercicio: Un hotel presenta una T.O. del 16,76% con un total de 2345 pernoctaciones mensuales y abre 26 días de un mes de 31. Calcular el nº de plazas del hotel.
2345 234500
16,76% = ------------------------- X 100 16,76 = -------------------------
Total de plazas X 26 Total de plazas X 26
234500
16,76 X 26 X Total de plazas = 234500 Total de plazas = ------------------- = 538,1 plazas
16,76 X 26
538,1 plazas ≈ 269 habitaciones dobles
2.4. LAS CLASIFICACIONES UNIFORMES DE LAS ACTIVIDADES
Una clasificación uniforme de actividades consiste en la clasificación de todas las actividades económicas de manera exhaustiva, coherente y completa, de forma que no exista ambigüedad posible, en el sentido de que cada una ocupe un lugar y sólo uno en la clasificación. Esto permite:
-
Decidir si la producción de una empresa con una actividad económica determinada pertenece a un sector u otro.
-
Afrontar que existen productos y servicios que sin cambiar de naturaleza, parece que pueden estar clasificados en dos sectores diferentes.
A nivel mundial, existe la clasificación de actividades de la C.I.I.U. (Clasificación Industrial Internacional Uniforme de actividades, elaborada por la División de Estadística de la Secretaría de Naciones Unidas). Se puede consultar en la web de la OMT, www.world-tourism.org.
Los sectores de la C.I.I.U. más relacionados con el turismo, están desagregados en la C.I.U.A.T., que es otra clasificación más específica: Recoge la especificación de qué subsectores se dedican totalmente al turismo (T) y cuáles se dedican sólo parcialmente (P):
Otro sistema muy importante a nivel mundial y compatible con las anteriores clasificaciones, es la Clasificación Industrial General de Actividades Económicas de la Comunidad Europea (N.A.C.E.).
2.5.LAS ESTADÍSTICAS TURÍSTICAS Y SUS FUENTES
Antes de hacer un análisis turístico, hay que obtener la información que será objeto del estudio. Es necesario conocer las fuentes para la elaboración de la información (encuestas y cuestionarios) y las estadísticas sobre turismo que publican diversos organismos:
A nivel mundial:
OMT
Eurostat
A nivel estatal:
IET
INE
AENA
A nivel autonómico:
Conselleria de Turisme
Conselleria d'Economia, Hisenda i Innovació
Conceptos:
-
Población estadística: son todos aquellos elementos que se quieren analizar.
-
Muestra: es un subconjunto de elementos de la población. Tienen que ser representativos de la población ya que resulta muy costoso y difícil conocer todos los elementos de esa población.
-
Inferir: generalizar los resultados de la muestra a toda la población.
-
Unidad mostral: elemento o unidad que se escoge como elemento de estudio. Esta será la unidad que será entrevistada.
-
Encuesta: entrevista personal, telefónica o por correo postal, etc...
-
Cuestionario: conjunto de preguntas abiertas (la respuesta es libre por parte del entrevistado, por ej., Nacionalidad) o cerradas (hay que escoger la respuesta entre unas opciones determinadas).
Las estadísticas de turismo en España
El I.E.T. (Instituto de Estudios Turísticos) elabora tres encuestas fundamentales para el conocimiento del sector turístico en España: la encuesta sobre Movimientos en Frontera (FRONTUR), la encuesta sobre Movimientos Turísticos de los Españoles (FAMILITUR) y la encuesta sobre Gasto Turístico (EGATUR).
- FRONTUR cuantifica y caracteriza el número de visitantes que llegan a España por las distintas vías de acceso a las fronteras.
- FAMILITUR cuantifica y caracteriza los flujos de viajeros españoles entre las distintas Comunidades Autónomas y hacia el extranjero.
- EGATUR cuantifica el gasto realizado en el turismo receptor y el emisor.
El I.N.E. (Instituto Nacional de Estadística) es un organismo autónomo adscrito al Ministerio de Economía y Hacienda. Las principales estadísticas turísticas que realiza son:
-
Estadística de movimientos de viajeros en establecimientos hoteleros.
-
I.P.C., se extraen los I.P.H ( índice de precios por hoteles y otros establecimientos), I.P.R. (índice de precios de restaurantes y cafeterías) y el Índice de servicios turísticos. Estos 3 índices se combinan en el I.P.T.H. (índice de precios de turismo y hotelería). No hay que confundir estos datos con el Gasto Turístico.
La Conselleria de Turisme y la Conselleria d'Economia, Hisenda i Innovació del Govern Balear, realizan las siguientes encuestas:
-
Encuesta sobre el cálculo de turistas
-
Encuesta del gasto turístico de las Islas Baleares: determina el gasto turístico total que se hace en la CAIB durante todo un año. El gasto se puede desglosar según se haga en el lugar de origen o en el de destino. La población será aproximadamente de 10 millones de turistas y la muestra será de 5500 turistas. La muestra se estratifica en grupos según su nacionalidad y según la isla que visiten. La entrevista se realiza en el momento de la salida en el aeropuerto o en el puerto.
23/10/2008
Una variable puede ir acompañada de otros datos que serán frecuencias, pesos, ponderaciones.
Variables cualitativas nominales: sexo, tipo de moneda
Variables cualitativas ordinales: estrellas de un hotel
Por ej: se encuesta a 100 personas sobre el tipo de hotel en el que se han alojado:
Estrellas | Nº de personas | Frecuencia relativa |
1* | 15 | 15 % |
2* | 45 | 45% |
3* | 25 | 25% |
4* | 15 | 15% |
N= | 100 | Total =100% |
El número de personas que ha contestado sobre cada categoría de hotel sería la frecuencia.
No hay que confundir las variables con las frecuencias. Lo primero que hay que hacer siempre es identificar el tipo exacto de variable con el que vamos a trabajar.
Sexo | Frecuencia |
Hombre | 7 |
Mujer | 13 |
Las variables serían hombre o mujer y las frecuencias 7 y 13.
Una constante es la observación de un hecho concreto.
Necesitamos que la variable vaya acompañada de una frecuencia.
Variable cuantitativa temporal: gasto medio del año 2000 al 2002
Año | Gasto | frecuencia |
2000 | X | 1 |
2001 | Y | 1 |
2002 | Z | 1 |
En este caso la variable es “gasto” y sus frecuencias son unitarias, ya que los valores de la variable no se repiten.
| |||
| x | ||
| x | ||
x | |||
| |||
|
|
|
|
2000 | 2001 | 2002 |
Variable cuantitativa no temporal
Gasto de los alumnos de la clase en los viajes de este verano:
X €
Y €
Z €
W €
X €
Las frecuencias serían unitarias en los valores que no se repiten, excepto en X € que sí se repite.
Edad (en intervalos)
Edad | frecuencia |
0-10 | |
11-20 | |
21-30 |
Los intervalos se pueden tratar también como variable cualitativa.
El número de personas que están en cada intervalo sería la frecuencia.
TEMA 3. ANÁLISIS DESCRIPTIVO DE UNA VARIABLE
6/11/2008
HERRAMIENTAS DE ANÁLISIS UNIVARIANTE DE UNA VARIABLE: PARÁMETROS, ESTADÍSTICOS Y GRÁFICOS
Bibliografía: Tema 3 del libro y material de apoyo 2.
Análisis descriptivo o Estadística descriptiva: conjunto de técnicas para describir de forma resumida y ordenada el comportamiento de una variable:
- estadísticos
- gráficos
3.1. ANÁLISIS DESCRIPTIVO DE UNA VARIABLE CUALITATIVA
-
DISTRIBUCIÓN DE FRECUENCIAS (numérica y gráfica)
-
ESTADÍSTICOS DESCRIPTIVOS: moda y mediana
1er PASO. FRECUENCIA O FRECUENCIA ABSOLUTA (ni): número de veces que se repite uno de los valores de una variable (Xi). Por ejemplo, una encuesta de edad a un grupo de 100 personas:
Xi | ni |
-16 | 25 |
17-30 | 15 |
31-50 | 10 |
51-70 | 30 |
+70 | 20 |
N = | 100 personas |
25 personas de las 100 encuestadas, han contestado que tienen menos de 16 años.
15 personas de las 100 encuestadas, han contestado que tienen entre 17 y 30 años.
10 personas de las 100 encuestadas, han contestado que tienen entre 31 y 50 años.
30 personas de las 100 encuestadas, han contestado que tienen entre 51 y 70 años.
20 personas de las 100 encuestadas, han contestado que tienen más de 70 años.
2º PASO. FRECUENCIA RELATIVA (fi): es la frecuencia absoluta (ni) de cada categoría de la variable dividida por el número total de observaciones (N).
Xi | ni | fi = (ni/N) |
-16 | 25 | 0,25 |
17-30 | 15 | 0,15 |
31-50 | 10 | 0,1 |
51-70 | 30 | 0,3 |
+70 | 20 | 0,2 |
Total = | 1 |
Si tenemos las frecuencias relativas unitariamente (en tantos por 1), la suma de todas ellas debe dar 1. Si lo queremos representarlas en porcentajes, hay que multiplicar cada frecuencia relativa por 100, y la suma de todas ellas dará 100. Es recomendable hacerlo en porcentajes y comprobar siempre que la suma de todas es igual a 100.
Xi | ni | fi = (ni/N) | fi % |
-16 | 25 | 0,25 | 25% |
17-30 | 15 | 0,15 | 15% |
31-50 | 10 | 0,1 | 10% |
51-70 | 30 | 0,3 | 30% |
+70 | 20 | 0,2 | 20% |
Total = | 1 | 100 |
Distribución de frecuencias: registro de todos los posibles valores de la variable, junto con sus frecuencias asociadas. (Cuadro de Xi, ni, fi, fi %). La distribución de frecuencias suele ir acompañada de representaciones gráficas que facilitan y clarifican la lectura de la información.
DIAGRAMA DE BARRAS: representa cada una de las categorías de la variable (en el eje X) y su frecuencia relativa o absoluta (en el eje Y) en forma de rectángulos. Siempre hay que indicar qué tipo de frecuencia estamos empleando. Cuando se trata de variables cualitativas, las barras pueden ser de cualquier manera, no hay condición fija, simplemente que quede claro y estético. Siguiendo con el ejemplo anterior, quedaría así:
valores de la variable
PICTOGRAMA: es un círculo donde se representan las categorías de la variable, proporcionalmente a las frecuencias. Siempre se debe empezar a representar desde la línea de las 12 en punto y hacia la derecha (si se trata de variables nominales, se empieza igual pero el orden no es tan importante. Se puede hacer calculando los ángulos o bien por porcentajes (25, 50, 75%). Los pictogramas nos aportan datos por la forma en que están confeccionados (IMP)
Frecuencia relativa X 360º
Ángulo del pictograma = ------------------------------------- = Frecuencia relativa X 3,6
100
100 % 25%
75 % 50%
3er PASO. ESTADÍSTICOS DESCRIPTIVOS O DE RESUMEN: son los valores que aportan más información sobre la variable. Los estadísticos que más se utilizan son la Moda y la Mediana.
La MODA es aquella categoría de la variable que tiene una mayor frecuencia. Es aquel valor (unimodal) o valores (bimodal o multimodal) de la variable que tienen una mayor frecuencia.
Xi | ni |
Española | 40 |
Británica | 10 |
Alemana | 40 |
otros | 10 |
En este ejemplo sobre nacionalidades, la distribución sería bimodal (Española y Alemana) ya que hay dos valores cuyas frecuencias son las mayores.
Xi | ni |
-16 | 25 |
17-30 | 15 |
31-50 | 10 |
51-70 | 30 |
+70 | 20 |
En este ejemplo de las edades, 30 es la frecuencia mayor y el valor de la variable es “entre 51 y 70 años”. La moda de esta variable es “entre 51 y 70 años”. La variable “menor de 16 años” tiene una frecuencia muy alta, pero por debajo de la moda, pero el resto de variables quedan muy lejos de estos dos valores, por lo que “menor de 16” sería la casi-moda de esta distribución. En el pictograma podemos detectar la moda por el ángulo mayor.
La MEDIANA es aquel valor de la distribución que ocupa el valor central de la misma. Ordenados los valores de la variable (no de las frecuencias), de menor a mayor, la mediana define aquel punto que deja por debajo de sí mismo el 50% de las observaciones. Para poder calcular la mediana deben cumplirse dos condiciones:
-
Debe tratarse de una variable cualitativa ORDINAL
-
Hay que calcular las frecuencias relativas acumuladas (Fi = sumar cada frecuencia relativa con la siguiente hasta que de 100):
Xi | ni | fi = (ni/N) | fi % | Fi |
-16 | 25 | 0,25 | 25% | 25% |
17-30 | 15 | 0,15 | 15% | 40% |
31-50 | 10 | 0,1 | 10% | 50% |
51-70 | 30 | 0,3 | 30% | 80% |
+70 | 20 | 0,2 | 20% | 100% |
Total = | 1 | 100 |
Para saber la mediana, necesitamos el primer valor que contenga el 50%. En este caso, tenemos el valor exacto de 50%, lo que quiere decir que por encima de este valor está el 50% de las observaciones (no de valores) y por debajo, el otro 50%. La mediana de esta variable sería “entre 31 y 50 años”. Pero, si en lugar de las frecuencias, pusiéramos los valores en línea, quedaría:
-16, -16, -16,....., 17-30, 17-30, 17-30..., 31-50, 31-50, 31-50..., 51-70, 51-70....+ de 70....
25 veces 15 veces 10 veces 30 veces 20 veces
Si el número de observaciones es par, no hay mediana porque ese puesto quedaría vacío . Es este caso, como hay 100 observaciones, la mediana sería tanto el valor 31-50, como el valor 51-50, ya que la observación nº 50 sería 31-50, y la número 51 sería 51-70, ya que la mediana se encontraría entre la posición 50 y 51 de las observaciones. Si hubiera 99 observaciones, la mediana sería el valor que estuviera en la posición 50. Si cambiamos las frecuencias, queda:
Xi | ni | fi = (ni/N) | fi % | Fi |
-16 | 25 | 0,25 | 25% | 25% |
17-30 | 15 | 0,15 | 15% | 40% |
31-50 | 12 | 0,12 | 12% | 52% |
51-70 | 30 | 0,3 | 30% | 82% |
+70 | 18 | 0,18 | 18% | 100% |
Total = | 1 | 100 |
En este caso, no habría duda de que la mediana es 31-50, porque el valor 52% supera el 50% de las observaciones.
EJEMPLO:
Nacionalidad | ni |
Alemana | 1500 |
Británica | 1980 |
Española | 420 |
Francesa | 200 |
otros | 900 |
1er paso:
Nacionalidad | ni | fi % | Fi |
Alemana | 1500 | 30% | 30 |
Británica | 1980 | 39,6% | 69,6 |
Española | 420 | 8,4% | 78 |
Francesa | 200 | 4% | 82 |
otros | 900 | 18% | 100 |
N = 5000
2º paso: Diagrama de barras:
Pictograma:
Con las frecuencias acumuladas podemos ir señalando aproximadamente los ángulos, suponiendo que el circulo está dividido en 4 partes iguales:
30 | Un poco más del 25% |
69,6 | Menos del 75 % |
78 | Más del 75% |
82 | |
100 |
La moda de la variable Nacionalidad es “Británica” y habría también una casi-moda que sería “Alemana”. La mediana no se puede calcular porque se trata de una variable cualitativa nominal. No se puede calcular la mediana porque esta variable no se puede ordenar de menor a mayor y además si cambiáramos el orden de las nacionalidades, la mediana cambiaría de lugar con cada cambio.
EJEMPLO: (los valores de No sabe/no contesta sólo se consideran si son muy significativos)
¿Qué le ha parecido el viaje? | ni |
Nada satisfactorio | 6 |
Poco Satisfactorio | 31 |
Satisfactorio | 96 |
Muy satisfactorio | 90 |
¿Qué le ha parecido el viaje? | ni | fi % | Fi |
Nada satisfactorio | 6 | 2,69 | 2,7 |
Poco Satisfactorio | 31 | 13,90 | 16,6 |
Satisfactorio | 96 | 43,049 | 59,6 |
Muy satisfactorio | 90 | 40,35 | 100 |
N = 223
Diagrama de barras:
Pictograma:
La moda es “satisfecho” y casi-moda “muy satisfecho”.
Según las frecuencias acumuladas, el valor que contiene el 50% es “Satisfecho” con una Fi del 59,6% (la variable es cualitativa ordinal y está ordenada de menor a mayor). En el pictograma podemos saber cuál es la mediana, por el valor que está en el punto del 50% del círculo.
EJERCICIO:
Precio del viaje | ni |
Económico | 480 |
Normal | 2970 |
Caro | 1395 |
Distribución de frecuencias:
Precio del viaje | ni | fi % | Fi |
Económico | 480 | 9,9% | 9,9 |
Normal | 2970 | 61,3% | 71,2 |
Caro | 1395 | 28,79% | 100 |
N = 4845
Diagrama de barras:
Pictograma:
Moda: “Normal” es la variable con mayor frecuencia.
Mediana: Es una variable cualitativa ordinal y ya está ordenada de menor a mayor. Según las frecuencias acumuladas y el pictograma, el 1er valor que está por encima del 50% es de la variable “Normal”.
Si se trata de una variable cualitativa ordinal, se ordena dicha variable (no las frecuencias) de menor a mayor y se indican los cuartiles (ver pág 28).
13/11/2008
3.2.ANÁLISIS DESCRIPTIVO DE UNA VARIABLE CUANTITATIVA
La distribución de frecuencias de las variables cuantitativas se calcula igual que con las variables cualitativas. La diferencia es que con las variables cuantitativas es posible obtener estadísticos adicionales a la moda y la mediana, que facilitan su descripción. Para la elaboración de frecuencias es necesario, aunque no siempre, agrupar los valores de la variable en intervalos.
Siempre hay que ordenar la variable de menor a mayor.
1er paso: distribución de frecuencias:
Cuando los valores son unitarios (que su frecuencia sea 1) no es necesario hacer la distribución de frecuencias, y tampoco hay moda (porque todos los valores tienen la misma frecuencia, que sería uno). En el caso de la mediana de una variable cuantitativa, si los valores son pares, hay que hacer la media aritmética de los valores centrales, pero si son impares, la mediana será un solo valor.
Ejemplo:
Edad : 20, 21, 23, 23, 25, 27, 28, 29, 29, 30
Moda: 23 y 29 son los valores con mayores frecuencias (distribución bimodal).
Mediana: como el número de valores es par (ya están ordenados de menor a mayor) la mediana estaría entre 25 y 27, por lo que hay que calcular la media aritmética:
25 + 27
---------- = 26
2
Si el número de valores fuera impar, la mediana sería un solo valor.
Para tratar variables que toman gran cantidad de valores, el procedimiento usual consiste en agrupar los valores en intervalos. La distribución de frecuencias se realizaría tomando como referencia, los distintos intervalos de la variable (marca de clase).
La marca de clase es un nº que representa a un intervalo. Es el valor medio y central del intervalo y se calcula con la semisuma de los valores del intervalo. Cuando calculamos la marca de clase, ésta será Xi, para poder trabajar con el intervalo.
Edad | Marca de clase (Xi) |
[1,19] | 10 |
[20,39] | 29,5 |
[40,59] | 49,5 |
[60,79] | 69,5 |
+ 79 | 89,5 |
(1 + 19 ) / 2 = 10
(20 + 39 ) / 2 = 29,5
(40 + 59 ) / 2 = 49,5
(60 + 79 ) / 2 = 69,5
+ 79 es lo mismo que [80,∞]. = 89,5
Para poder saber la marca de clase, en el caso [80,∞], observamos cómo son las de los otros intervalos, qué criterio cumplen. Vemos que las otras marcas de clase son el primer nº del intervalo más 9,5. Para el intervalo [80,∞] haremos lo mismo, y su marca de clase será 89,5. Los intervalos [...] son cerrados, mientras que + 79 sería un intervalo abierto.
2º paso: representación gráfica: HISTOGRAMA
La representación gráfica de la distribución de frecuencias de una variable continua (son las que toman un número infinito de valores) se representa mediante el histograma. El histograma es como un diagrama de barras, pero cada una de las barras es un rectángulo cuya área es la frecuencia relativa, es decir:
ni
Área = Base x Altura = --------
N
Donde la base es la amplitud del intervalo y la altura es:
1 ni
Altura = ---------- x --------
base N
Para que la representación gráfica sea más sencilla, le damos valor 1 a la base del rectángulo y así conseguimos que el área sea igual a la altura:
ni ni ni
Base x Altura = -------- 1 x altura = -------- altura = -------
N N N
En el histograma no se deja espacio entre las barras, a diferencia del diagrama de barras anterior:
fi |
| |||||||||
|
| |||||||||
|
| |||||||||
|
| |||||||||
|
|
| ||||||||
|
| |||||||||
|
| |||||||||
Xi = 1 |
ESTADÍSTICOS DESCRIPTIVOS: POSICIÓN, DISPERSIÓN Y FORMA
3.3. ESTADÍSTICOS O MEDIDAS DE POSICIÓN (centrales y no centrales)
Ofrecen información de dónde se sitúan los valores “característicos” de la variable.
MEDIDAS DE POSICIÓN CENTRAL: moda, mediana, media aritmética, media ponderada y media geométrica.
Por ej. si los días de vacaciones que han tenido 10 turistas son:
13,14,15,16,17,25,26,26,29,31
La moda será 26 (es la que tiene mayor frecuencia) y la mediana (valor que se sitúa en el punto medio de la distribución) como hay un nº par de observaciones, será la media de los valores centrales 17 y 25, es decir, 21 días [(17 + 25) / 2].
Media aritmética: suma de todos los valores de la variable, dividida por el total de observaciones. Se distingue de la mediana en que utiliza en su cálculo todas las observaciones de la muestra:
∑ Xi
_ i →1
X = --------------------
n
Xi = valores de la variable
n = número total de observaciones
Si usamos distribuciones de frecuencias, la fórmula quedaría:
∑ Xi * ni
_ i →1
X = --------------------
n
Xi = valores de la variable
n = número total de observaciones = ∑ni = N
ni = frecuencia absoluta
Con la 1º fórmula sería:
∑ Xi
_ i →1 13 + 14 + 15 + 16 +17 +25 +26 +26 +29 +31
X = ----------- = -------------------------------------------------------
n 10
Con la 2ª fórmula:
∑ Xi * ni
_ i →1 13*1 + 14*1 + 15*1 + 16*1 +17*1 +25*1 +(26* 2) +29*1 +31*1
X = ----------- = -------------------------------------------------------------------------------
n 10
Supongamos que tenemos las siguientes observaciones:
10,10,10,15,15,20,20,20,20,20,21
La moda sería 20 y la mediana sería 20
_
La media aritmética (X) sería:
∑ Xi
_ i →1 10+10+10+15+15+20+20+20+20+20+21
X = ----------- = --------------------------------------------------
n 11
Si pasamos las observaciones a una distribución de frecuencias, quedaría (con los valores de la variable ordenados de menor a mayor, no las frecuencias):
Xi | ni |
10 | 3 |
15 | 2 |
20 | 5 |
21 | 1 |
n = 11
Y calcularíamos la media aritmética:
∑ Xi * ni
_ i →1 (10*3) + (15*2) + (20*5) + (21* 1)
X = ----------- = ---------------------------------------------
n 11
Si hay muchos datos, es mejor emplear esta segunda fórmula.
PROPIEDADES DE LA MEDIA ARITMÉTICA (IMP)
- La suma de las desviaciones de los valores de la variable (diferencias entre cada valor y la media aritmética), respecto a la media es igual a cero:
n _
∑ ( Xi - x) = 0
i = 1
Xi | ni | media arit | Xi - media arit |
10 | 3 | 16,45 | -6,45 |
15 | 2 | 16,45 | -1,45 |
20 | 5 | 16,45 | 3,55 |
21 | 1 | 16,45 | 4,55 |
∑ (Xi - media arit )= | 0 |
-
Si a los valores de la variable se les suma una constante, la media de los valores transformados se incrementa en esa cantidad:
Xi | Xi + 5 |
10 | 15 |
15 | 20 |
20 | 25 |
21 | 26 |
∑ Xi+5 * ni
_ i →1 (15*3) + (20*2) + (25*5) + (26* 1)
Xi + 5 = -------------- = --------------------------------------------- = 21,45
n 10
_ _
Xi + 5 = Xi + 5 = 16,45 + 5 = 21,45
-
Si los valores se multiplican por una constante, la media de los valores transformados será la media original multiplicada por esa constante:
Xi | Xi * 2 |
10 | 20 |
15 | 30 |
20 | 40 |
21 | 42 |
∑ Xi+2 * ni
_ i →1 (20*3) + (30*2) + (40*5) + (42* 1)
Xi*2 = ---------------- = --------------------------------------------- = 32,9
n 10
_ _
Xi*2 = Xi * 2 = 16,45 * 2 = 32,9
Media ponderada: los valores promediados son ponderados mediante un peso determinado. Si tenemos p valores distintos de la variable Xi y a cada uno de ellos se le da un peso wi, la media ponderada se define como:
Las observaciones de una variable también podrían ponderarse por sus frecuencias relativas: wi = ni/n, es decir, por la importancia relativa de cada valor en la distribución
En ocasiones, la ponderación tiene que ver con el peso en la población de las distintas observaciones. Supongamos, por ejemplo, que se dispone del gasto turístico diario de tres personas que representan a los turistas que han visitado tres municipios distintos de una región. El gasto de cada uno de ellos es de 200, 200 y 100 euros. Si se pidiese calcular el gasto turístico medio diario en la región, una opción directa sería la siguiente:
En ese período, el número de turistas que ha visitado cada municipio ha sido 10.000, 20.000 y 1.000.000 turistas, respectivamente. Resultaría lógico utilizar una media ponderada, donde el gasto de cada turista de la muestra sería asignado a todos los turistas del correspondiente municipio:
Dependiendo del peso que empleemos, la media aritmética saldrá distinta.
Media geométrica: se utiliza para calcular los promedios de valores que son porcentajes, tasas, tipos de interés, números índices..., es decir, valores que representan variaciones acumulativas, de un período anterior. Cada valor se eleva a su frecuencia relativa y se hace raíz cuadrada n.
Por ej: 15%, 18%, 20%
g =
Los valores los pondríamos en tantos por 1 y haríamos la raíz 3, porque hay 3 valores.
MEDIDAS DE POSICIÓN (NO CENTRALES): CUARTILES, DECILES, Y PERCENTILES
Los cuartiles (primer, segundo y tercer cuartil) son los valores que (con la variable ordenada de menor a mayor) dejan por debajo de su posición el 25%, 50% y 75% de las frecuencias acumuladas, respectivamente. Los cuartiles dividen la variable en cuatro grupos con igual número de observaciones (el 25% de valores más bajos, el 25% siguiente,…).
Los deciles dividen la muestra en porcentajes del 10, 20, ..., hasta el 90 por ciento.
Los percentiles amplían esta idea para definirse sobre porcentajes del 1, 2, 3, …, hasta el 99 por ciento.
Xi | fi | Fi % | |||
10 | 29 | 29 | 1er cuartil | 1y 2º decil | 1-28 percentil |
20 | 15 | 44 |
| 3 y 4º decil | 29-43 percentil |
30 | 19 | 63 | 2º cuartil | 5 y 6º decil | 44-62 percentil |
40 | 22 | 85 | 3er cuartil | 7 y 8º decil | 63-84 percentil |
50 | 15 | 100 |
| 9º decil | 85-99 percentil |
Los deciles y percentiles se emplean poco. Sirven cuando hay muchísimos valores.
EQUIVALENCIAS IMPORTANTES:(examen)
Mediana = Segundo cuartil = 50 percentil
Primer cuartil = 25 percentil
Tercer cuartil = 75 percentil
Hay 3 cuartiles
Hay 9 deciles
Hay 99 percentiles
3.4. MEDIDAS O ESTADÍSTICOS DE DISPERSIÓN
Estas medidas son útiles cuando la media no es representativa de lo que ocurre en los datos y necesitamos saber cuán cerca o lejos de la media se sitúan esos datos, es decir, su dispersión. Las medidas de posición ofrecen información de dónde se sitúan los valores “característicos” de la variable, pero las medidas de posición deben complementarse con las medidas de dispersión de la variable: Rango, rango intercuartílico, varianza, desviación típica o estándar, y coeficiente de variación.
Rango: El rango de una variable es la diferencia entre el mayor y el menor valor de las observaciones (valores de la variable, no de las frecuencias):
Rango = X MAX -X MIN
Como medida de dispersión el rango es muy sensible a los valores extremos. Si comparamos dos variables, la que tenga un rango mayor, será la más dispersa y la que tenga rango menor, tendrá menos dispersión o más concentración.
Rango intercuartílico: es la diferencia entre el tercer y primer cuartil de la variable. En ese intervalo se incluyen, por tanto, el 50% de las observaciones situadas en la zona central de la distribución:
Rango IQ = Q3 - Q1
| 50 % central = RIQ |
| |
100 % de las observaciones |
Por lo tanto, nos da información sobre cuán concentrados o dispersos están los valores centrales.(IMP)
Varianza: La varianza es el promedio de las desviaciones de la variable con respecto a la media al cuadrado, es decir, que indica cuán concentrados o dispersos son los valores respecto a la media aritmética:
Si utilizamos frecuencias absolutas, hay que multiplicar la fórmula por ni:
n _
∑ (Xi- x)2 * ni
i = 1
Sx2 = ------------------
N
La varianza es la medida de dispersión más importante para indicar la distancia de las observaciones respecto a la media aritmética. A mayor varianza, mayor dispersión. Su valor depende de la unidad de medida de la variable. La varianza de una sola distribución no nos aporta mucha información por sí sola, pero es muy útil para compararla con otras distribuciones.
Otra forma de calcular la varianza es:
N = n = ∑ni
PROPIEDADES DE LA VARIANZA:(examen)
-
La varianza es siempre positiva (al ser el cuadrado de un número, aunque éste fuera negativo, el resultado sería positivo)
-
Es sensible a los valores extremos porque es una medida de dispersión.
-
Si a los valores de la variable se les suma una constante c, la varianza de los valores modificados no se modifica, es decir, que seguiría siendo la misma.
Sc +x2 = Sx2
-
Si a los valores de la variable se les multiplica por una constante c, la varianza de los valores modificados queda multiplicada por el cuadrado de la constante:
Sc *x2 = c2 * Sx2
-
Otra forma de calcular la varianza, si empleamos frecuencias absolutas es:
n
∑ Xi2* ni
i = 1 _
Sx2 = -------------- - x 2
N
Xi | ni | Xi*ni | Xi2 | Xi2*ni |
|
|
|
|
|
|
|
|
|
|
Desviación típica o Estándar: es la raíz cuadrada de la varianza y tiene la misma unidad de medida que la variable.
Como medidas de dispersión, la desviación estándar y la varianza muestran su utilidad, especialmente, cuando se emplean de manera comparativa.
Coeficiente de variación (MUY IMP.): es la relación entre la desviación estándar (medida de dispersión) y la media aritmética de la variable (medida de posición). Facilita la discusión de la importancia de la dispersión de una variable. Hay que expresarlo en tantos por ciento (para hacerlo se multiplica por 100).
sx
CV en % = _ * 100
X
Resulta de especial interés en dos circunstancias:
-
Cuando se quieren comparar distribuciones de variables con diferentes unidades de medida.
-
Cuando se comparan distribuciones que, aun teniendo igual unidad de medida, toman valores muy distintos.
El resultado del coeficiente de variación en tantos por ciento, debe compararse con la media aritmética para determinar si el % resultante es grande o pequeño. Este coeficiente no depende de la unidad de medida de la variable, por eso sirve para comparar distribuciones y unidades de medidas diferentes. Cuanto mayor sea el C.V., mayor será la dispersión.
Si por ej., el C.V. da 0,02, lo multiplicamos por 100 para ponerlo en %, lo que nos daría 2%. Esto significa que el C.V. es de un 2% respecto a la media aritmética, lo que sería un porcentaje bastante bajo.
Como medidas de dispersión, la desviación estándar y la varianza son útiles para comparar diferentes distribuciones:
3.5. SIMETRÍA DE UNA DISTRIBUCIÓN (histogramas)EXAMEN
Según su forma, las distribuciones pueden dividirse en simétricas, asimétricas por la derecha y asimétricas por la izquierda. Las distribuciones simétricas tiene la misma forma a izquierda y derecha de la mediana. Las distribuciones unimodales asimétricas por la derecha tiene más valores a la derecha del intervalo modal que a su izquierda. Una distribución con la forma contraria es asimétrica por la izquierda.
Aunque existen estadísticos que describen la simetría (o asimetría) de la distribución, los valores de la media, mediana y moda de la variable facilitan también esta información. En una distribución simétrica la media, la mediana y la moda tienden a coincidir, mientras que en las distribuciones asimétricas se dispersan:
MEDIDAS DE ASIMETRÍA Y MEDIDAS DE APUNTAMIENTO O CURTOSIS
Existen medidas de forma que proporcionan información numérica sobre dos características de la distribución: su simetría y su apuntamiento o curtosis. El apuntamiento o curtosis se refiere a la importancia de la concentración de las observaciones en la zona central de la variable, mostrándose con ello más o menos apuntada.
Las distribuciones simétricas tiene la misma forma a izquierda y derecha de la mediana. Cualquier medida que recoja alteraciones de esta situación proporcionará una cuantificación de la asimetría de la distribución. Una primera propuesta podría ser la siguiente:
n _
∑ (Xi- x)
i = 1
------------------
N
en tanto que define un promedio de las desviaciones de la variable con respecto al valor medio. En el caso de que se dieran muchas observaciones por encima de la media, se esperaría un valor positivo, mientras que una mayor proporción de valores por debajo de la media proporcionaría un valor negativo. El problema es que si se cumple una de las propiedades de la media aritmética, que es
- La suma de las desviaciones de los valores de la variable (diferencias entre cada valor y la media aritmética), respecto a la media es igual a cero:
n _
∑ ( Xi - x) = 0
i = 1
Una modificación alternativa es tomar las desviaciones de la variable respecto a la media, pero elevadas a alguna potencia. Al elevar las desviaciones al cuadrado se obtiene la expresión de la varianza, una medida de dispersión de los valores respecto a la media, pero que no ayuda a señalar la posición de las observaciones a derecha o izquierda de la medida de posición central. El cubo de las desviaciones, al respetar el signo de la diferencia de la operación ( Xi - media arit.), permite promediar tanto la importancia de la desviación como su dirección. Se utilizaría por tanto, un estadístico conocido como el momento de orden tres con respecto a la media (m3):
n _
∑ (Xi- x)3
i = 1
m3 = ------------------
N
(Esta fórmula habría que multiplicarla por ni si empleamos frecuencias absolutas).
Xi | ni | Xi*ni | Xi2 | Xi2* ni | (Xi - media)3 | (Xi - media)3* ni |
-
Si m3 es igual a cero, es simétrica.
-
Si m3 es > cero, es asimétrica por la derecha
-
Si m3 es < cero, es asimétrica por la izquierda
MEDIDA DE ASIMETRÍA DE FISHER
Con la siguiente fórmula se evita que la medida varíe si se produce un cambio de escala, y se normaliza mediante el cubo de la desviación estándar:
m3
g1 = --------
Sx3
-
Si g1 es igual a cero, es simétrica.
-
Si g1 es > cero, es asimétrica por la derecha
-
Si g1 es < cero, es asimétrica por la izquierda
MEDIDA DE ASIMETRÍA DE PEARSON
Relaciona la media aritmética y la moda respecto a la desviación estándar:
_
X - moda
AS = -----------
SX
-
Si AS es igual a cero, es simétrica.
-
Si AS es > cero, es asimétrica por la derecha
Si AS es < cero, es asimétrica por la izquierda
MEDIDAS DE APUNTAMIENTO O CURTOSIS
Se aplican a distribuciones simétricas y unimodales, pretenden medir hasta qué punto las observaciones de la variable se acumulan en la parte central de la distribución.
En las distribuciones mesocúrticas, la curtosis es igual a 3. (Distribución normal)
Coeficiente de curtosis: permite la comparación directa con la distribución normal:
RESUMEN:
Variables cualitativas nominales: Moda. Variables cualitativas ordinales: Moda y mediana. Variables cuantitativas temporales y atemporales: TODO
Si un valor se repite, significa que hay frecuencia. Si no se repite, su frecuencia es 1. Si no hay muchas frecuencias, no vale la pena calcular los deciles ni los percentiles.
Las frecuencias acumuladas sólo sirven para la mediana.
Si la moda tiene un valor próximo a los demás valores, hay que indicarlo. También hay que indicar cuán diferente es la moda de los demás valores.
La varianza por sí sola no aporta mucha información. El coeficiente de variación indica el % de variabilidad.
De cada fórmula, hay que sacar una conclusión sobre la información que aporta.
TEMA 4. ANÁLISIS CONJUNTO DE DOS VARIABLES CUALITATIVAS
11/12/2008
El análisis conjunto de dos variables consiste en averiguar la relación que existe entre esas variables. Cruzar los datos de dos variables aporta mucha más información que una sola variable.
4.1. OBTENCIÓN DE INFORMACIÓN A TRAVÉS DE ENCUESTAS
Después de realizar una encuesta, si queremos averiguar si hay relación de dependencia o no entre dos variables, es decir, intentar establecer cuál es la variable que influye en la otra, lo primero que hay que saber es si esas variables son cualitativas o si son cuantitativas:
-
Si son CUALITATIVAS, se estudia la ASOCIACIÓN entre ellas.
-
Si son CUANTITATIVAS, se estudia la CORRELACIÓN o RELACIÓN LINEAL que hay entre ellas.
-
En el caso de que una variable sea cualitativa y la otra sea cuantitativa, se tratarán ambas variables como cualitativas. Si la variable es cuantitativa, pero se puede tratar como cualitativa ordinal (definiéndola en intervalos de valores) se estudiaría también la asociación. Hay variables cuantitativas que se pueden estudiar como cualitativas, pero no ocurre lo mismo al revés.
4.2. RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS.
1º. CONSTRUCCIÓN DE LA TABLA DE CONTINGENCIA.
(Se puede hacer lo mismo con las variables cuantitativas)
Para describir la relación entre dos variables cualitativas, se emplea la tabla de frecuencias conjunta o tabla de contingencia. Se considera que cada una de las variables puede tomar una serie de valores mutuamente excluyentes. Como en el caso de la estadística univariante, la primera manera de resumir la información es el puro cómputo. Empleando una tabla de doble entrada se muestran todas las posibles combinaciones de las categorías de las dos variables, anotando en cada una de las celdas resultantes el número de casos que pertenecen a las dos categorías. En las tablas de contingencia se muestran las frecuencias (absolutas o relativas) en las que ocurren las categorías de filas y columnas.
Ejemplo. Con el objetivo de conocer el nivel de satisfacción de los turistas que han pasado sus vacaciones en una región, se ha realizado una encuesta en la que se pregunta al turista si está satisfecho de sus vacaciones. Las posibles respuestas a la pregunta son Mucho, Bastante, Poco y Nada. Considerando que la satisfacción alcanzada puede estar en función de la zona concreta donde se ha realizado la estancia, se ha cruzado la pregunta sobre satisfacción con una variable que identifica cuatro zonas de la región.
ZONA 1 | ZONA 2 | ZONA 3 | ZONA 4 | |
MUCHO | 395 | 593 | 358 | 200 |
BASTANTE | 100 | 182 | 120 | 94 |
POCO | 167 | 233 | 102 | 90 |
NADA | 212 | 249 | 118 | 115 |
Esta tabla se interpretaría por ej., que 395 turistas que se alojaron en la zona 1 les ha gustado mucho el viaje o bien que 395 turistas a los que les ha gustado mucho el viaje, se alojaron en la zona 1.
Las variables se pueden colocar indistintamente en la vertical o en la horizontal de la tabla. O sea, se podrían colocar las zonas en la vertical y el grado de satisfacción en la horizontal.
2º. CALCULAR LAS DISTRIBUCIONES MARGINALES: Son las frecuencias (absolutas y relativas) de cada una de las variables. Para ello es suficiente con sumar todas las celdas correspondientes a cada una de las filas o de las columnas.
ZONA 1 | ZONA 2 | ZONA 3 | ZONA 4 | dist. Marginal satisfacción | |
MUCHO | 395 | 593 | 358 | 200 | 1546 |
BASTANTE | 100 | 182 | 120 | 94 | 496 |
POCO | 167 | 233 | 102 | 90 | 592 |
NADA | 212 | 249 | 118 | 115 | 694 |
dist. Marginal Zonas | 874 | 1257 | 698 | 499 | 3328 |
En la fila “distribución marginal Zonas” está la suma de los totales de cada zona, es decir, la suma de cada columna. En la columna “distribución marginal Satisfacción del viaje”, está la suma de los totales de cada grado, es decir, la suma de cada fila.
En las distribuciones marginales, podemos saber cuál es la moda de cada variable. En el caso de las zonas, la moda es la Zona 2 y en el caso de la satisfacción la moda es “Mucho”.
El dato 3328 es el total de frecuencias, es decir N o n.
3º. TABLA DE DISTRIBUCIÓN DE FRECUENCIAS RELATIVAS:
Consiste en calcular las frecuencias relativas de cada una de las celdas, respecto al total de observaciones(n). Estos datos se ponen en una tabla nueva. Las frecuencias relativas se calculan ni/n si se calculan en tantos por uno, y se multiplica por 100 para ponerlo en %.
Por ej:
La tabla de distribuciones marginales es:
ZONA 1 | ZONA 2 | ZONA 3 | ZONA 4 | dist. Marginal satisf. | |
MUCHO | 395 | 593 | 358 | 200 | 1546 |
BASTANTE | 100 | 182 | 120 | 94 | 496 |
POCO | 167 | 233 | 102 | 90 | 592 |
NADA | 212 | 249 | 118 | 115 | 694 |
dist. Marginal zonas | 874 | 1257 | 698 | 499 | 3328 |
El cálculo para la primera casilla sería:
395
------ = 0,1187 * 100 = 11,87
3328
La tabla de distribución de frecuencias relativas sería:
ZONA 1 | ZONA 2 | ZONA 3 | ZONA 4 | TOTAL | |
MUCHO | 11,87 | 17,82 | 10,76 | 6,01 | 46,45 |
BASTANTE | 3 | 5,47 | 3,61 | 2,82 | 14,90 |
POCO | 5,02 | 7 | 3,06 | 2,70 | 17,79 |
NADA | 6,37 | 7,48 | 3,55 | 3,46 | 20,85 |
TOTAL | 26,26 | 37,77 | 20,97 | 14,99 | 100 |
Las frecuencias relativas se suman por filas y por columnas. Para comprobar si está bien calculado, la suma de la fila Total y la suma de la columna Total, debe ser igual a 100.
Una vez se ha completado la tabla, se comentan los datos, como cuál es el porcentaje mayor y el menor, etc. En este caso, el 17,82% de turistas, que se alojaron en la zona 2, les gustó mucho el viaje y el 2,7%, que estaban en la zona 4, les gustó poco el viaje. Pero a un 46,45% de los turistas, les gustó mucho el viaje (sin distinguir zona) y un 37,77% de los turistas se alojó en la zona 2.
4º. TABLA DE PERFILES FILA (PORCENTAJES FILA):
Recogen las frecuencias relativas de cada una de las celdas con respecto al total de las filas. Estos datos se ponen en una tabla nueva. Ahora se dividen los valores de la tabla original, entre el total de la fila de la tabla original. Los perfiles fila se calculan en tantos por uno, y se multiplica por 100 para ponerlo en %.
La tabla de distribuciones marginales es:
ZONA 1 | ZONA 2 | ZONA 3 | ZONA 4 | dist. Marginal Satisfacción. | |
MUCHO | 395 | 593 | 358 | 200 | 1546 |
BASTANTE | 100 | 182 | 120 | 94 | 496 |
POCO | 167 | 233 | 102 | 90 | 592 |
NADA | 212 | 249 | 118 | 115 | 694 |
dist. Marginal Zonas | 874 | 1257 | 698 | 499 | 3328 |
El cálculo para la primera casilla sería:
395
------ = 0,2555 * 100 = 25,55
1546
Los perfiles fila se suman por filas. Para comprobar si está bien calculado, la suma de cada una de las filas debe ser igual a 100. Si vemos una tabla con una columna en la que todos los datos son 100, nos indica que es una tabla de perfiles fila.
La tabla de perfiles fila quedaría:
ZONA 1 | ZONA 2 | ZONA 3 | ZONA 4 | TOTAL | |
MUCHO | 25,55 | 38,36 | 23,16 | 12,94 | 100 |
BASTANTE | 20,16 | 36,69 | 24,19 | 18,95 | 100 |
POCO | 28,21 | 39,36 | 17,23 | 15,20 | 100 |
NADA | 30,55 | 35,88 | 17,00 | 16,57 | 100 |
Hay que tener cuidado cuando se interpretan las tablas de perfilas fila. En este caso, de los datos de la fila “Nada” se interpretarían que del total de turistas que no les ha gustado nada el viaje, el 17% se ha alojado en la zona 3.
Cada dato de la fila, es un parcial del 100% de la fila.
5º. TABLA DE PERFILES COLUMNA (PORCENTAJES COLUMNA):
Recogen las frecuencias relativas de cada una de las celdas con respecto al total de las columnas. Estos datos se ponen en una tabla nueva. Ahora se dividen los valores de la tabla original, entre el total dela columna de la tabla original. Los perfiles columna se calculan en tantos por uno, y se multiplica por 100 para ponerlo en %.
La tabla de distribuciones marginales es:
ZONA 1 | ZONA 2 | ZONA 3 | ZONA 4 | dist. Marginal Satisfacción. | |
MUCHO | 395 | 593 | 358 | 200 | 1546 |
BASTANTE | 100 | 182 | 120 | 94 | 496 |
POCO | 167 | 233 | 102 | 90 | 592 |
NADA | 212 | 249 | 118 | 115 | 694 |
dist. Marginal Zonas | 874 | 1257 | 698 | 499 | 3328 |
El cálculo para la primera casilla sería:
395
------ = 0,4519 * 100 = 45,19
874
Los perfiles columna se suman por columnas. Para comprobar si está bien calculado, la suma de cada una de las columnas debe ser igual a 100. Si vemos una tabla con una fila en la que todos los datos son 100, nos indica que es una tabla de perfiles columna.
La tabla de perfiles columna quedaría:
ZONA 1 | ZONA 2 | ZONA 3 | ZONA 4 | |
MUCHO | 45,19 | 47,18 | 51,29 | 40,08 |
BASTANTE | 11,44 | 14,48 | 17,19 | 18,84 |
POCO | 19,11 | 18,54 | 14,61 | 18,04 |
NADA | 24,26 | 19,81 | 16,91 | 23,05 |
TOTAL | 100 | 100 | 100 | 100 |
En este caso, los datos de la columna “zona 2” se interpretarían como que de todos los turistas alojados en la zona 2, el 14,48% ha dicho que les ha gustado bastante el viaje.
Cada dato de la columna, es un parcial del 100% de la columna.
EJERCICIO: Se ha pedido a 219 usuarios de un servicio si han quedado satisfechos o no, teniendo en cuenta si ya lo habían utilizado antes. Hacer la descripción de datos de la siguiente tabla:
REPETIDORES | NO REPETIDORES | |
SATISFECHOS | 86 | 43 |
NO SATISFECHOS | 36 | 54 |
219 = n o N
Distribuciones marginales según repetición y satisfacción:
REPETIDORES | NO REPETIDORES | DIST. MARGINAL SATIS. | |
SATISFECHOS | 86 | 43 | 129 |
NO SATISFECHOS | 36 | 54 | 90 |
DISTRIBUCIÓN MARGINAL REP. | 122 | 97 | 219 |
La moda es “repetidores” y en cuanto a la satisfacción, la moda es “satisfechos”.
Frecuencias relativas: Todas las casillas se dividen entre N (219):
REPETIDORES | NO REPETIDORES | TOTAL | |
SATISFECHOS | 39,27 | 19,63 | 58,90 |
NO SATISFECHOS | 16,44 | 24,66 | 41,10 |
TOTAL | 55,71 | 44,29 | 100 |
El 39,27% de los encuestados eran repetidores y están satisfechos y el 16,44 también son repetidores y no están satisfechos.
Perfiles fila: ahora se divide por los nº marginales:
REPETIDORES | NO REPETIDORES | TOTAL | |
SATISFECHOS | 66,67 | 33,33 | 100,00 |
NO SATISFECHOS | 40,00 | 60,00 | 100,00 |
Del total de satisfechos, un 66,67% son repetidores. Del total de los no satisfechos, el 60% no son repetidores.
Perfiles Columna:
REPETIDORES | NO REPETIDORES | |
SATISFECHOS | 70,49 | 44,33 |
NO SATISFECHOS | 29,51 | 55,67 |
TOTAL | 100,00 | 100,00 |
Del total de repetidores, un 70,49% están satisfechos y del total de no repetidores un 55,67% no están satisfechos.
4.3. ESTADÍSTICOS DE ASOCIACIÓN. INDEPENDENCIA Y ASOCIACIÓN
18/12/2008
Estadísticos de asociación para variables cualitativas nominales u ordinales:
chi-cuadrado
C de contingencia
lambda
Estadísticos de asociación para variables ordinales:
Gamma
CHI- CUADRADO Y C DE CONTINGENCIA
Una medida sintética del grado de asociación se calcula a partir de la comparación entre los valores observados y los valores que uno esperaría encontrar en el caso de inexistencia de asociación.
Las frecuencias esperadas son el producto de las frecuencias marginales dividido entre el total de observaciones N:
ni x nj
eij = ------------
n
Ahora en cada casilla tendremos las dos frecuencias: la absoluta observada y la esperada:
Tabla de distribuciones marginales:
ZONA 1 | ZONA 2 | ZONA 3 | ZONA 4 | dist. Marginal satisf. | |
MUCHO | 395 | 593 | 358 | 200 | 1546 |
BASTANTE | 100 | 182 | 120 | 94 | 496 |
POCO | 167 | 233 | 102 | 90 | 592 |
NADA | 212 | 249 | 118 | 115 | 694 |
dist. Marginal zonas | 874 | 1257 | 698 | 499 | 3328 |
Los cálculos de las frecuencias esperadas serían, entre otros:
1546 x 874 1546 x 1257
------------- = 406,1 --------------- = 583,93
-
3328
496 x 874 496 x 1257
------------- = 130,26 --------------- = 184,37
-
3328
Tabla de frecuencias esperadas:
ZONA 1 | ZONA 2 | ZONA 3 | ZONA 4 | dist. Marginal satisfacción | |
MUCHO | 406,01 | 583,93 | 324,25 | 231,81 | 1546 |
BASTANTE | 130,26 | 187,34 | 104,03 | 74,37 | 496 |
POCO | 155,47 | 223,6 | 124,16 | 88,764 | 592 |
NADA | 182,26 | 262,13 | 145,56 | 104,06 | 694 |
dist. Marginal zonas | 874 | 1257 | 698 | 499 | 3328 |
CHI-CUADRADO
Se calcula a partir de las frecuencias absolutas (nij) observadas y de las esperadas (eij). Este estadístico suma para todas las celdas la diferencia, elevada al cuadrado, entre la frecuencia observada y la esperada. Si no existe ningún grado de asociación entre las variables cualitativas, los valores esperados serían iguales a los valores observados, con lo que el valor del estadísticos en este caso sería igual a cero.
ZONA 1 | ZONA 2 | ZONA 3 | ZONA 4 | dist. Marginal satisf. | |
MUCHO | 395 | 593 | 358 | 200 | 1546 |
BASTANTE | 100 | 182 | 120 | 94 | 496 |
POCO | 167 | 233 | 102 | 90 | 592 |
NADA | 212 | 249 | 118 | 115 | 694 |
dist. Marginal zonas | 874 | 1257 | 698 | 499 | 3328 |
Para cada casilla calculamos:
(395- 406,01)2 (593- 583,93)2
-------------------- = 0,2986 -------------------- = 0,1409
406,01 583,93
Tabla de chi- cuadrado:
ZONA 1 | ZONA 2 | ZONA 3 | ZONA 4 | |
MUCHO | 0,2986 | 0,1409 | 3,5127 | 4,3644 |
BASTANTE | 7,0294 | 0,1523 | 2,452 | 5,1812 |
POCO | 0,8549 | 0,3951 | 3,9562 | 0,0172 |
NADA | 4,8533 | 0,6574 | 5,2169 | 1,1505 |
La suma de todas estas cantidades proporciona el valor del estadístico chi-cuadrado, que en este caso es igual a 40,233. Dado que este valor no está cercano a cero, puede afirmarse que existe algún tipo de asociación entre las dos variables. En este caso, se puede afirmar que el nivel de satisfacción que el turista declara, tiene algún tipo de relación con la zona de estancia de sus vacaciones.
El problema de este estadístico es que aunque tiene un límite inferior (cero), no proporciona un límite superior que permita referirnos al grado de asociación existente. Muchos estadísticos tiene una mayor utilidad si definen límites (tanto superior como inferior) a los que tomar como referencia. En este caso, el límite inferior es cero e indica la ausencia total de dependencia (o asociación) entre las dos variables, pero desconocemos el límite superior que puede tomar y, por tanto, no podríamos afirmar si la asociación detectada es fuerte o débil. Es decir que sólo nos indica si existe asociación o no entre las dos variables.
χ2 ≈ 0 ==> no hay asociación
χ2 ≠ 0 ==> hay asociación
C DE CONTINGENCIA
El estadístico C de Contingencia es una alternativa al estadístico Chi- cuadrado. El coeficiente C toma su valor mínimo cuando χ2 es cero, es decir, si entre las dos variables no existe asociación. El valor máximo del coeficiente, que se da cuando existe una asociación completa entre las variables, depende del número de modalidades de las variables. El máximo que puede alcanzar el coeficiente es uno (correspondiente a dos variables con infinitos valores).
El coeficiente C de contingencia toma valores entre 0 y 1. Valores de C cercanos a 0 indican un grado de asociación pequeño. Valores cercanos a uno serían síntoma de asociación entre las variables.
0 ≤ C ≤ 1
El límite máximo del coeficiente C es:
El mínimo (I, J) significa que hay que coger el número que sea menor del total de columnas o filas. Si hay 3 columnas y 2 filas, escogemos el 2. El límite máximo de C sirve para poder comparar el valor de C con su valor máximo.
Por ej: 0 ≤ C ≤ 0,739 y el coeficiente C tiene un valor de 0,534 calcularemos el porcentaje de C respecto a su valor máximo:
0,534
------- x 100 = 72,26% de C
0,739
Al poder comparar el valor de C entre 0 y 100 podremos decidir si el tipo de asociación es muy débil, débil, fuerte o muy fuerte.
EJEMPLO: Se ha pedido a 219 usuarios de un servicio si han quedado satisfechos o no, teniendo en cuenta si ya lo habían utilizado antes. Hacer la descripción de datos de la siguiente tabla:
REPETIDORES | NO REPETIDORES | |
SATISFECHOS | 86 | 43 |
NO SATISFECHOS | 36 | 54 |
219 = n o N
Los valores esperados serán:
REPETIDORES | NO REPETIDORES | DIST. MARGINAL SATIS. | |
SATISFECHOS | 71,8630137 | 57,1369863 | 129 |
NO SATISFECHOS | 50,1369863 | 39,8630137 | 90 |
DISTRIBUCIÓN MARGINAL REP. | 122 | 97 | 219 |
La tabla de chi-cuadrado será:
REPETIDORES | NO REPETIDORES | |
SATISFECHOS | 2,781 | 3,498 |
NO SATISFECHOS | 3,986 | 5,014 |
La suma de estos valores, es decir, chi-cuadrado es 15,279.
Y el estadístico C de contingencia es:
15,279
--------------- = 0,255
219 + 15,279
Su posible valor máximo es:
1
1 - -------- = 0,707
2
El % de C sería:
0,255
------- x 100 = 36%
0,707
Es decir, que el estadístico alcanza un 36% de su máximo, indicando que hay una asociación moderada entre la satisfacción respecto al servicio y el haber sido usuario anterior.
TEMA 5. ANÁLISIS CONJUNTO DE DOS VARIABLES CUANTITATIVAS
15/01/2009
5.1. RELACIÓN ENTRE DOS VARIABLES CUANTITATIVAS. REPRESENTACIÓN GRÁFICA.
En el caso de las variables cuantitativas, estudiamos su relación, no su asociación.
Relación lineal: relación entre dos variables que puede representarse aproximadamente como una línea recta.
La asociación no implica causalidad
Dos tipos de asociación lineal: positiva y negativa.
Estas variables siempre serán unitarias, por lo que no habrá frecuencias. Tendremos parejas de valores (X,Y) que se pueden representar en un eje de coordenadas.
Si los puntos están exactamente sobre la recta, diremos que la relación lineal es exacta y la ecuación de la recta sería:
Yi = a + b Xi
Si los puntos están dispersos, en forma de nube, se dice que no existe relación lineal:
Pueden existir otros tipos de relaciones entre las variables: parabólicas, etc...
5.2.MEDIDAS O ESTADÍSTICOS DE RELACIÓN LINEAL: COVARIANZA Y CORRELACIÓN
COVARIANZA: mide la dispersión entre las dos variables estudiadas, es decir, que mide la dispersión entre ambas variables.
Con esta fórmula, necesitaremos calcular la media de cada variable y hacer la siguientes columnas:
X | Y | _ Xi - x | _ Yi -y | _ _ (Xi - x)* (Yi -y) |
x1 | y1 | |||
x2 | y2 | |||
xn | yn |
∑=
Hay otra fórmula que es más fácil y rápida, y que ayuda a evitar errores para calcular la covarianza, que es:
Para aplicar esta fórmula, nos basta calcular la media de cada variable y los productos de las variables X e Y.
X | Y |
Xi *Yi |
x1 | y1 | |
x2 | y2 | |
xn | yn |
n ∑=
PROPIEDADES DE LA COVARIANZA:
-
No tiene limite inferior ni superior (puede ser positiva o negativa)
-
Depende de las unidades de medida de las variables, por lo que no se puede comparar rápidamente con una cifra estándar que permita hablar de mucha o poca relación.
-
El signo de la covarianza es importante porque determina la pendiente de la recta y nos indica el tipo de relación:
Covarianza positiva (sxy > 0) ==>Asociación lineal positiva.
Covarianza negativa (sxy < 0) ==>Asociación lineal negativa.
Covarianza nula (sxy = 0) ==>Asociación lineal inexistente.
Lo que no nos indica es cómo es la recta, es decir, no indica cuán dispersos están los puntos respecto a la recta (IMP).
Otras Propiedades de la covarianza:
-
Si se suma a la variable X una constante b y a la variable Y una constante c, la covarianza entre las dos nuevas variables transformadas será igual a la covarianza original.
-
Si se multiplica la variable X por una constante b y la variable Y por una constante c, la covarianza entre las dos nuevas variables transformadas será igual a la covarianza original multiplicada por las constantes bc.
-
La covarianza de una variable y una constante es cero.
COEFICIENTE DE CORRELACIÓN DE PEARSON (COEFICIENTE DE CORRELACIÓN LINEAL SIMPLE)
Es el cociente entre la covarianza y el producto de las desviaciones estándar de las 2 variables.
OJO, en esta fórmula empleamos desviaciones típicas, no varianzas. La fórmula desarrollada sería:
O sea, que la fórmula más sencilla es (hay que tener en cuenta que n es el número de observaciones):
X | Y | _ x2 | _ y2 | Xi *Yi | _ n * x2 | _ n * y2 |
Xi 2 |
x1 | y1 | x12 | |||||
x2 | y2 | x22 | |||||
xn | yn | xn2 |
∑Xi2=
PROPIEDADES DEL COEFICIENTE DE CORRELACIÓN (examen):
-
Tendrá el mismo signo que la covarianza
-
Su valor está entre -1 y 1
-
No depende de las unidades de medida de las variables
Asociación lineal positiva ==> Sxy> 0 ==> rxy>0
Asociación lineal negativa ==> Sxy< 0 ==> rxy <0
Ausencia de asociación lineal ==> Sxy= 0 ==> rxy =0
- El valor del coeficiente de correlación entre dos variables no se modifica si una (o ambas) variables se multiplica por una constante.
- El coeficiente de correlación toma valores en el intervalo -1 y 1. Los valores máximo y mínimo se alcanzan cuando se da una relación lineal exacta entre las dos variables, de tipo positivo o de tipo negativo, respectivamente. (Cuanto más cerca esté de cero, peor).
- Valores del coeficiente próximos a 1 indican la existencia de una asociación positiva fuerte entre las variables; valores cercanos a -1 indican la existencia de una asociación negativa fuerte entre las variables; valores cercanos a cero señalan la ausencia de una asociación lineal.
El coeficiente de correlación toma valores entre -1 y 1.
rxy = 1 Asociación lineal exacta de tipo positivo.
rxy = -1 Asociación lineal exacta de tipo negativo.
rxy = 0 Ausencia de asociación lineal.
Por ejemplo:
Si rxy = 0,95 ==> asociación lineal positiva fuerte
Si rxy = 0,6 ==> asociación lineal positiva moderada
Si rxy = 0,2 ==> asociación lineal positiva leve
Ejemplo:
COEFICIENTE DE CORRELACIÓN DE RANGOS DE SPEARMAN (sólo para variables cuantitativas continuas)
Los rangos de cada variable son los valores que se les da, teniendo en cuenta el orden que tendrían los valores de las variables, si las ordenáramos de menor a mayor. Con ello se obtiene una medida de grado de relación en los posicionamientos de las observaciones de las dos variables. Tiene las mismas características que el coeficiente de Pearson.
Si por ejemplo, tenemos estas dos variables:
X | Y |
19 | 73 |
55 | 110 |
110 | 9 |
3 | 230 |
220 | 150 |
n = 5
Y ordenamos de menor a mayor cada una de ellas:
X | Y | Rgx | Rgy |
19 | 73 | 2 | 2 |
55 | 110 | 3 | 3 |
110 | 9 | 4 | 1 |
3 | 230 | 1 | 5 |
220 | 150 | 5 | 4 |
n = 5
En el caso de que se repitan valores, no se les asignarían rangos consecutivos, sino que haríamos el promedio de los rangos que les corresponderían y les asignaríamos el mismo rango a todos los valores repetidos y los rangos promediados ya no se asignarían a ningún otro valor:
X | Rgx |
7 | 3 |
9 | 5 |
4 | 2 |
9 | 5 |
3 | 1 |
9 | 5 |
10 | 7 |
12 | 8 |
El valor 9 se repite 3 veces y ocuparía los rangos 4, 5 y 6, por lo tanto el nuevo rango se calcularía:
4 + 5 + 6 15
------------- = ------- = 5
-
3
La fórmula para calcular el coeficiente de correlación de los rangos de las variables o correlación de Spearman es:
n
6 * ∑ di2
i = 1
RSpearman = ρ = 1 - ---------------
n3 - n
Donde n es el número de observaciones y di es la diferencia entre los rangos:
di = Rango(Xi) - Rango (Yi)
Según el ejemplo anterior, calcularíamos:
X | Y | Rgx | Rgy | di | di2 |
19 | 73 | 2 | 2 | 0 | 0 |
55 | 110 | 3 | 3 | 0 | 0 |
110 | 9 | 4 | 1 | 3 | 9 |
3 | 230 | 1 | 5 | -4 | 16 |
220 | 150 | 5 | 4 | 1 | 1 |
n = 5 ∑= 26
6 * 26 156
ρ = 1 - ---------- = 1 - ------- = -0,3
53 - 5 120
Para estas variables, el coeficiente de correlación de Pearson sale - 0,153, pero hay que tener en cuenta que ambos coeficientes no tienen por qué tener valores parecidos.
EJEMPLO: Calcular la covarianza según este cuadro de datos:
X | Y | _ Xi - x | _ Yi -y | _ _ (Xi - x)* (Yi -y) |
x1 | y1 | -2 | -6 | 12 |
x2 | y2 | -1 | -3 | 3 |
x3 | y3 | -4 | -2 | 8 |
x4 | y4 | 0 | -5 | 0 |
x5 | y5 | 2 | -4 | -8 |
x6 | y6 | 3 | 6 | 18 |
x7 | y7 | 2 | 4 | 8 |
∑= 41
41
sxy = ------- = 5,857
7
La covarianza es positiva y por lo tanto, podría existir relación lineal positiva entre estas dos variables. Para saber si hay asociación lineal y de qué tipo, tendríamos que calcular la correlación de Pearson.
EJEMPLO: si la covarianza entre dos variables es 0,558, la varianza de X es 0,5 y la de Y es 0,75, calcular el coeficiente de correlación de Pearson.
sXY 0,558
rXY = ---------- = -------------- = 0,907
sX * sY 0,5 * 0,75
OJO, como la varianza es sx2 hay que hacer la raíz cuadrada, para calcular las desviaciones estándar.
El comentario sobre el resultado sería que hay una fuerte correlación lineal positiva entre las variables X e Y.
(ver otros ejemplo del libro, tema 5)
5.3. RELACIÓN DE CAUSALIDAD O DE DEPENDENCIA
La asociación entre dos variables no implica causalidad o dependencia entre ellas. Proponer una relación de dependencia (suponer que una es dependiente de la otra) supone añadir una hipótesis adicional. Normalmente llamamos Y a la variable dependiente y calculamos sus valores en función de X, que es la variable independiente. No hay que confundir asociación con dependencia.
Cuando la variable X toma valores, ocasiona variaciones en la variable Y, por lo tanto, Y depende de X. Se estudian los valores de Y con los diferentes valores de X con la función de la recta. Ajustar una recta (examen)a una nube de puntos supone determinar los valores de a y b. Esta recta se llama recta de regresión simple.
Si creemos que la variable X es causa de la variable Y, escribimos la relación como:
Yi = a+bX, i = 1, 2, …, n
Y: variable endógena, variable dependiente o variable a explicar.
X: variable exógena, variable independiente o variable explicativa.
La recta Yi = a + bX se conoce como recta de regresión simple.
a: es el valor que tomaría la variable Y cuando el valor de X es cero. Se conoce como término independiente de la regresión.
b: mide el impacto que una variación en una unidad de la variable X tiene sobre la variable Y. Se conoce como la pendiente de la recta.
Pendiente positiva Pendiente negativa
b
b
x1 x2 x2 x1
Las observaciones se pueden situar más o menos sobre la recta, aunque difícilmente lo harán de manera perfecta. Cuanto más cerca estén las observaciones de la recta, mejor, pero puede que sólo haya algunos puntos sobre la recta, o incluso que no haya ninguno. La distancia del punto a la recta se llama error de ajuste. El punto sería el valor observado y el punto sobre la recta sería el valor ajustado.
El ajuste de una recta puede expresarse como:
Yi = a + bXi + ei
Error de ajuste: diferencia entre los valores observados y los valores ajustados:
ei = Yi - a - bXi
En este marco de causalidad resulta necesario disponer no sólo de una medida de grado de asociación (el coeficiente de correlación lineal), sino además de los valores numéricos de a y b. El valor de a es el valor que tomaría la variable Y cuando el valor de X es cero. El valor de b mide el impacto que una variación en una unidad de la variable X tiene sobre la variable Y y es la pendiente de la recta:
∆Yi
b = ---------
∆Xi
5.4. OBTENCIÓN DE a Y b POR MÍNIMOS CUADRADOS ORDINARIOS (M.C.O)
El mínimo error global de un ajuste se obtiene utilizando los valores de a y b que minimizan la siguiente expresión:
n n
Mínimo∑ei 2 = ∑(Yi - a - bXi)2
i = 1 i = 1
Los valores de a y b deben elegirse para que se alcance el mínimo de la suma de cuadrados de los errores. Este principio se denomina de mínimos cuadrados ordinarios (mco). Las fórmulas para a y b que se obtienen como resultados son las siguientes:
_ _
a = y - bx
n _ _
∑( Xi - x) * (Yi - y)
i = 1
b = --------------------------
n _
∑( Xi - x) 2
i = 1
-
Es conveniente calcular primero la b
-
Es importante decidir cuál va a ser la variable independiente (X)
Una fórmula más sencilla sería (examen):
n _ _
∑( Xi * Yi) -(n* x * y)
i = 1 sXY
b = ------------------------------ = ----------
n _ sX2
∑ Xi2 - (n* x2)
i = 1
Con esta fórmula, las columnas que debemos calcular son:
X | Y | Xi * Yi | Xi2 |
EJEMPLO:
n=10
X | Y |
17 | -21 |
20 | -20 |
23 | -23 |
24 | -24 |
24 | -30 |
25 | -31 |
25 | -25 |
26 | -18 |
28 | -27 |
30 | -29 |
Calculamos las medias de las variables y después x*y y x2:
_ 242 242 _ -248 -248
x = ----------- = ---------- = 24,2 y = ----------- = ---------- = -24,8
n 10 n 10
X | Y | X*Y | X2 | |
17 | -21 | -357 | 289 | |
20 | -20 | -400 | 400 | |
23 | -23 | -529 | 529 | |
24 | -24 | -576 | 576 | |
24 | -30 | -720 | 576 | |
25 | -31 | -775 | 625 | |
25 | -25 | -625 | 625 | |
26 | -18 | -468 | 676 | |
28 | -27 | -756 | 784 | |
30 | -29 | -870 | 900 | |
sumatorios | 242 | -248 | -6076 | 5980 |
Ahora, ya se puede calcular a y b de la recta:
n _ _
∑( Xi * Yi) -(n* x * y)
i = 1 (-6076) - (10*24,2*(-24,8))
b = ----------------------------- = ------------------------------------ = -0,6 (pendiente neg.)
n _ 5980 - (10* (24,2)2)
∑ Xi2 - (n* x2)
i = 1
_ _
a = y - bx ==> a = (-24,8) - ((-0,6)*24,2) ==> a = -10,2
El ajuste de la recta sería:
Yi = a + bXi Y = -10,2 + (-0,6)X Y = -10,2 -0,6X
La pendiente es negativa y un incremento de X disminuiría en 0,6 unidades el valor de Y. Cuando X aumenta, Y disminuye y cuando X disminuye, Y aumenta.
5.5. COEFICIENTE DE DETERMINACIÓN: BONDAD DEL AJUSTE LINEAL
Este estadístico mide hasta qué punto la variable exógena X de la regresión explica o determina la evolución de la variable endógena Y.
Entre el coeficiente de correlación lineal (coeficiente de correlación de Pearson) rxy y el coeficiente de determinación R2, se da la siguiente relación:
El coeficiente de determinación toma valores entre 0 y 1. Valores cercanos a cero indican que el ajuste es insuficiente, valores cercanos a uno se interpretarán como un buen ajuste del modelo.
El coeficiente de determinación mide la bondad del ajuste de una recta a una nube de puntos. El coeficiente de correlación lineal (coeficiente de correlación Pearson) mide el grado de asociación lineal entre dos variables.
Un coeficiente de correlación lineal igual a 1 o -1 indica que los puntos están situados sobre una recta (con pendiente positiva o negativa respectivamente) y esta situación se reflejaría en el coeficiente de determinación con un valor igual a 1 (ajuste perfecto de la recta). Si el coeficiente lineal o el coeficiente de determinación son iguales a cero, no existirá una relación lineal entre las dos variables.
-
Si no existe relación lineal entre X e Y: r XY = 0 y R2 = 0
(valores de 0 o cercanos a 0)
-
Si existe una relación lineal positiva exacta entre X e Y: r XY = 1 y R2 = 1
(valores de 1 o cercanos a 1)
-
Si existe una relación lineal negativa exacta entre X e Y: r XY = -1 y R2 = 1
(valores de 1 o cercanos a 1)
Por ejemplo, si los valores son de 0,5 diríamos que la relación lineal es moderada.
HACER EJEMPLOS DEL LIBRO. TEMA 6.
EJEMPLO: A una muestra de ciudadanos se les ha solicitado su opinión sobre la actual situación turística en su región (entre 1 y 5: 1, mala; 5 excelente) y el efecto que creen que tendrá un impuesto turístico (entre 1 y 5: 1, la situación empeorará mucho; 5 la situación mejorará mucho). En este caso, el efecto del impuesto en la situación turística es la variable dependiente.
n | ∑xi | ∑yi | ∑xi* yi | ∑xi2 | ∑yi2 |
20 | 57 | 49 | 131 | 181 | 127 |
_ 57 57 _ 49 49
x = ----------- = ---------- = 2,85 y = ----------- = ---------- = 2,45
n 20 n 20
Ahora, ya se puede calcular a y b de la recta:
n _ _
∑( Xi *Yi) -(n* x * y)
i = 1 131- (20* 2,85* 2,45) -8,65
b = ----------------------------- = ----------------------------- = ------ = -0,46 (pendiente neg.)
n _ 1812 - (20* 2,852) 18,55
∑ Xi2 - (n* x2)
i = 1
_ _
a = y - bx ==> a = 2,45 - ((-0,46)*2,85) ==> a = 3,778
La recta de regresión sería:
Yi = a + bXi Y = 3,778 + (-0,46)X Y = 3,778 -0,46X
Cuanto más valoramos la situación turística (X) menos se valora el efecto del impuesto (Y). La recta tiene pendiente negativa, por lo tanto, cuanto mayor es X, menor es Y.
Ahora calculamos rxy:
131 - (20*2,85* 2,45) -8,65
rxy = ----------------------------------------------- = ------------- = -0,76
4,30 * 2,63
181- (20*2,852) * 127- (20*2,452)
R2 = rxy2 R2 = -0,762 R2 = 0,5776 ≈ 0,58 ==> 0,58 * 100 = 58%
El resultado de R2 indica que la recta es entre moderada y buena. La percepción de la situación turística explica bastante bien la valoración del efecto del impuesto, observándose que cuanto mejor se considera la situación actual, peor valoración se hace del impuesto.
EJEMPLOS IMPORTANTES:
La demanda turística (gasto turístico, número de turistas, etc) es siempre una variable dependiente de las siguientes variables independientes:
Con pendiente negativa: los precios del paquete turístico y Precios relativos país destino/ país emisor. Cuando estos precios suben, el gasto turístico y número de turistas bajan.
Con pendiente positiva: tipo de cambio de moneda, Precios relativos de los países competidores (comparando precios turísticos), Precios de los paquetes de los competidores y Renta del país emisor. Cuando estas variables suben, el gasto turístico y el número de turistas suben. Cuando estas variables bajan, el gasto turístico y el número de turistas también bajan.
Demanda i = a + b* Renta i
Demanda i = a + b* Precio del Paquete i
¡¡¡OJO PARA LAS FÓRMULAS!!!: NO ES LO MISMO ∑Xi2 QUE ( ∑ Xi)2
Lo que aparece en las fórmulas es ∑Xi2 ES:
Xi | Xi2 |
X1 | X12 |
X2 | X22 |
Xn | Xn2 |
∑Xi2=
El fallo es hacer ( ∑ Xi)2:
Xi |
X1 |
X2 |
Xn |
∑( Xi) = .....y después al cuadrado
26/02/2009
TEMA 6. LA EVOLUCIÓN TEMPORAL DE UNA VARIABLE CUANTITATIVA
Cuando se estudia la evolución temporal de una variable cuantitativa, se estudian a la vez dos variables. Una de las variables es el tiempo, que siempre es cuantitativo y la otra es cualquier variable cuantitativa que cambia a lo largo del tiempo.
6.1. LA PERSPECTIVA TEMPORAL EN EL ANÁLISIS DE UNA VARIABLE.
Lo que interesa es observar los valores de una determinada variable a través del tiempo, para estudiar su evolución. Es decir, que lo que se quiere es conocer qué ha sucedido en el pasado, qué sucede en el presente y hacer predicciones de lo que puede suceder en el futuro, siendo ésta última la opción más interesante.
Se trata de estudiar los valores de la variable en diferentes momentos del tiempo.
VARIABLE TEMPORAL: también llamadas series temporales, cronológicas o históricas. En este caso, estudiamos variables temporales cuantitativas.
TIEMPO: elemento fundamental en una serie temporal. Es una variable discreta que siempre toma valores consecutivos y variando de uno en uno (de día en día, de mes en mes, de trimestre en trimestre, de año en año...)
Por ejemplo, si tenemos la siguiente serie mensual:
ENERO | |
FEBRERO | |
MARZO | |
ABRIL | |
2001 | MAYO |
JUNIO | |
JULIO | |
AGOSTO | |
SEPTIEMBRE | |
OCTUBRE | |
NOVIEMBRE | |
DICIEMBRE | |
ENERO | |
FEBRERO | |
MARZO | |
ABRIL | |
MAYO | |
2002 | JUNIO |
JULIO | |
AGOSTO | |
SEPTIEMBRE | |
OCTUBRE | |
NOVIEMBRE | |
DICIEMBRE |
La variable Tiempo: enero, febrero, marzo... no nos sirve para trabajar con ella, por lo tanto, se le asignan números consecutivos, que serán los valores de la variable tiempo (t):
ENERO | 1 | |
FEBRERO | 2 | |
MARZO | 3 | |
ABRIL | 4 | |
2001 | MAYO | 5 |
JUNIO | 6 | |
JULIO | 7 | |
AGOSTO | 8 | |
SEPTIEMBRE | 9 | |
OCTUBRE | 10 | |
NOVIEMBRE | 11 | |
DICIEMBRE | 12 | |
ENERO | 13 | |
FEBRERO | 14 | |
MARZO | 15 | |
ABRIL | 16 | |
MAYO | 17 | |
2002 | JUNIO | 18 |
JULIO | 19 | |
AGOSTO | 20 | |
SEPTIEMBRE | 21 | |
OCTUBRE | 22 | |
NOVIEMBRE | 23 | |
DICIEMBRE | 24 |
Si se trata de una serie anual:
1900 | 1 |
1901 | 2 |
1902 | 3 |
1903 | 4 |
1904 | 5 |
1905 | 6 |
1906 | 7 |
1907 | 8 |
1908 | 9 |
Y se haría lo mismo si tuviéramos otras medidas de tiempo, como horas, semanas, etc. En la tabla, añadiríamos otra columna para los valores de la variable Xi, por ejemplo temperaturas.
Siempre se tienen en cuenta dos variables, pero una de ellas Yi, se estudia asociada a la otra (tiempo). La variable dependiente será Yi, y la independiente será el tiempo.
Los gráficos de las variables temporales aportan mucha información. En este estudio, la variable Xi se pone en el eje vertical y la variable tiempo (t) se pone en el eje horizontal:
6.2. COMPONENTES SISTEMÁTICAS DE UNA SERIE TEMPORAL
-
Tendencia
-
Estacionalidad
-
Ciclo
No todas las series temporales siguen el mismo patrón de comportamiento, pero se pueden sistematizar algunas características de su comportamiento.
Tendencia: es la evolución GLOBAL de una serie temporal dentro del período que se observa. Es la evolución de la serie en el largo plazo. En turismo, muchas series tienen un comportamiento tendencia claramente creciente. La tendencia puede ser creciente, decreciente o constante (estancada). En el gráfico anterior, vemos que crece en los meses de verano y después decrece. Cuando se estudia la tendencia, hay que responder a dos preguntas: ¿hay tendencia?, y si la hay, ¿de qué tipo es la tendencia?.
Estacionalidad o Componente estacional: representa el conjunto de pautas que ocurren de modo muy similar, en los mismos períodos (meses, trimestres, etc.), repitiéndose sistemáticamente cada año. (OJO: no tiene sentido hablar de estacionalidad si son datos anuales). Para poder estudiar la estacionalidad necesitaremos los datos de dos años, como mínimo. En general, el comportamiento estacional de las series temporales se debe al clima, las costumbres vacacionales, sociales y religiosas y a los efectos del calendario. Cuando se estudia la estacionalidad, hay que responder a dos preguntas: ¿hay estacionalidad? y si la hay, ¿de qué tipo es la estacionalidad?.
Ciclo o componente cíclica: representa las oscilaciones que se repiten cada cierto número de años. Sólo se busca ciclo en las series anuales. Siempre consideraremos que si existe ciclo, se encuentra incluido en la tendencia. Cuando se estudia el ciclo, hay que responder si hay ciclo o no lo hay. (OJO: no tiene sentido hablar de ciclo si NO son datos anuales).
6.3. COMPONENTE NO SISTEMÁTICA DE UNA SERIE TEMPORAL
Irregularidad o componente irregular: incluye las variaciones aleatorias de la serie. Esta componente refleja los movimientos de muy corto plazo. Es decir, todo lo que se produce entre observaciones consecutivas, pero que no se reproduce de forma similar en los mismos períodos en años diferentes:
En este gráfico, vemos una irregularidad en el mes de julio, es un valor que se “dispara” respecto a los demás.
EJEMPLO: Tenemos el siguiente gráfico que representa las ventas de un restaurante a lo largo de cada trimestre entre los años 2000 y 2002 (examen):
-
La tendencia es creciente. (hay que mirarlo en general, sube durante los tres primeros trimestres y baja en el cuarto durante los 3 años).
-
Estacionalidad: el tercer trimestre de los tres años tiene ventas muy superiores.
-
Ciclos: sólo hay información de tres años y no basta para establecer si hay ciclo. Lo ideal es tener la información de 6 o 7 años.
-
Irregularidad: no se observan irregularidades en este gráfico.
6.4. ANÁLISIS DE LA TENDENCIA Y DE ESTACIONALIDAD
El hecho de que en una misma serie temporal haya varias componentes (tendencia, estacionalidad e irregularidad), hace que el análisis de cada una de estas componentes por separado, resulte muy complicado.
Por lo tanto, es conveniente aislar cada una de estas componentes. En el ámbito turístico es muy frecuente que las series combinen estacionalidad, tendencia e irregularidad, aunque algunas series pueden no tener estacionalidad.
Debido a eso, se distingue entre series con tendencia y estacionalidad y series sólo con tendencia. Tendencia y estacionalidad son las componentes más importantes.
SERIES TEMPORALES CON TENDENCIA E IRREGULARIDAD (SIN ESTACIONALIDAD)
En el caso de series que sólo tienen tendencia e irregularidad, aislar la tendencia significa eliminar la irregularidad.
Si una serie no tiene estacionalidad y por tanto, muestra un crecimiento o un decrecimiento en el tiempo, se trata de determinar la relación existente entre la propia serie y el tiempo, es decir, ajustar la tendencia a una recta. La recta de regresión será:
Vt = a + b*t
Es decir, la recta de las ventas en función del tiempo será igual a la variable a más la variable b multiplicada por el tiempo. Siempre hay que calcular la bondad del ajuste lineal (R2). La b indica la pendiente de la recta y también el tipo de tendencia:
b positiva ==> pendiente positiva ==> tendencia creciente
b negativa ==> pendiente negativa ==> tendencia decreciente
Es importante tener claro cuál es la variable dependiente (por ej, las ventas de un restaurante) y cuál es la variable independiente (t). Normalmente, la variable independiente se llama X, pero en este caso, la llamaremos t de tiempo y en los gráficos se representa en el eje horizontal. La variable dependiente suele llamarse Y, pero en este caso la llamaremos en función del dato que nos den, por ej V de ventas del restaurante y en los gráficos se representará en el eje vertical.
SERIES TEMPORALES CON ESTACIONALIDAD Y CON TENDENCIA CONSTANTE O CON UNA LIGERA TENDENCIA LINEAL
En este caso, aislar la tendencia significa eliminar la irregularidad y la estacionalidad.
El coeficiente estacional es la media aritmética (diaria, semanal, mensual, trimestral..) menos la media aritmética global:
coeficiente estacional = media aritmética - media aritmética global
EJEMPLO: Tenemos los siguientes datos de ventas de 4 años (necesitamos información de dos años como mínimo):
trimestre | ventas | |
1997 | I | 20 |
II | 107 | |
III | 136 | |
IV | 45 | |
1998 | I | 23 |
II | 109 | |
III | 144 | |
IV | 51 | |
1999 | I | 22 |
II | 115 | |
III | 145 | |
IV | 53 | |
2000 | I | 19 |
II | 115 | |
III | 143 | |
IV | 52 |
Confeccionamos una nueva tabla para poder hacer las operaciones. En esta tabla, ya se observa la estacionalidad y el tercer trimestre es el más alto en los cuatro años:
1997 | 1998 | 1999 | 2000 | |
I | 20 | 23 | 22 | 19 |
II | 107 | 109 | 115 | 115 |
III | 136 | 144 | 145 | 143 |
IV | 45 | 51 | 53 | 52 |
__
1º Calculamos la media aritmética trimestral Vt (porque los datos son trimestrales):
1997 | 1998 | 1999 | 2000 | media Vt | |
I | 20 | 23 | 22 | 19 | 21 |
II | 107 | 109 | 115 | 115 | 111,5 |
III | 136 | 144 | 145 | 143 | 142 |
IV | 45 | 51 | 53 | 52 | 50,25 |
__
2º Calculamos la media global. Se puede hacer sumando la Vt y se hace la media o bien, se suman todos lo valores y se divide entre n:
21 + 111,5 + 142 + 50, 25
-------------------------------------- = 81,1875 es la media global
4
3º Calculamos el coeficiente estacional, es decir cada media trimestral menos la global (por este orden, ya que el signo del resultado es importante):
1997 | 1998 | 1999 | 2000 | media Vt | coef. Estacional | |
I | 20 | 23 | 22 | 19 | 21 | -60,1875 |
II | 107 | 109 | 115 | 115 | 111,5 | 30,3125 |
III | 136 | 144 | 145 | 143 | 142 | 60,8125 |
IV | 45 | 51 | 53 | 52 | 50,25 | -30,9375 |
media global | 81,1875 |
La temporada más baja en ventas es la del coeficiente negativo más pequeño (-60,1875).
La temporada más alta en ventas es la del coeficiente positivo más grande (60,8125).
4º Desestacionalizar: eliminar la estacionalidad de la serie. A cada valor (en este caso, trimestral) hay que restarle el coeficiente estacional correspondiente:
-
A las ventas del primer trimestre, restarle el coeficiente estacional del primer trimestre.
-
A las ventas del segundo trimestre, restarle el coeficiente estacional del segundo trimestre.
-
A las ventas del tercer trimestre, restarle el coeficiente estacional del tercer trimestre.
-
A las ventas del cuarto trimestre, restarle el coeficiente estacional del cuarto trimestre.
trimestre | ventas | Desestacionalizar |
I | 20 | 80,1875 |
II | 107 | 76,6875 |
III | 136 | 75,1875 |
IV | 45 | 75,9375 |
I | 23 | 83,1875 |
II | 109 | 78,6875 |
III | 144 | 83,1875 |
IV | 51 | 81,9375 |
I | 22 | 82,1875 |
II | 115 | 84,6875 |
III | 145 | 84,1875 |
IV | 53 | 83,9375 |
I | 19 | 79,1875 |
II | 115 | 84,6875 |
III | 143 | 82,1875 |
IV | 52 | 82,9375 |
6.5. TASAS DE VARIACIÓN O DE CRECIMIENTO
Las tasas de variación implican siempre una proporción y sirven para establecer comparaciones temporales; esto implica la comparación de los valores de una variable en diferentes momentos del tiempo. Las tasas siempre son cocientes o proporciones y deben expresarse en %.
Ejemplos:
Plazas ocupadas
Tasa de ocupación hotelera = ---------------------------- X 100
Plazas ofertadas
Nº de ocupados
Tasa de paro = ---------------------------- X 100
Población activa
Tasa de variación de un período respecto al inmediatamente anterior: La tasa de variación porcentual o relativa expresa, en términos relativos, el incremento (o decremento) de un valor respecto a su valor previo y se calcula:
Por ejemplo, la tasa de variación del IV trimestre respecto al III trimestre de 1997 de la tabla anterior, sería:
Ventas IV trim - Ventas III trimestre
TIV = ------------------------------------------------- X 100
Ventas III trimestre
45 - 136
TIV = ----------------- X 100 = -66,91%
136
El resultado indica un decrecimiento de casi el 67%
Tasa de variación de un período respecto al mismo periodo del año anterior: tasa interanual: expresa la variación de una valor de la variable respecto al valor del año anterior.
La tasa interanual para una serie mensual es:
La tasa interanual para una serie trimestral es:
Por ejemplo, la variación interanual del primer trimestre de 1999, respecto al del año anterior de los datos del ejemplo anterior, sería:
Ventas I trim1999 - Ventas I trim1998
TI, 1999 = ------------------------------------------------- X 100
Ventas I trim1998
22 - 23
TI, 1999 = --------------- X 100 = - 4,5%
23
El resultado indica un decrecimiento interanual del 4,5%.
6.6. NÚMEROS ÍNDICE
(A PARTIR DE LAS TASAS DE VARIACIÓN)
Para facilitar la comparación de una variable en diferentes momentos del tiempo, hace falta analizar la evolución de cada variable en referencia a un mismo momento dado.
Un número índice representa la variación (creciente o decreciente) que experimenta en cada período una variable con referencia a un instante temporal, que se considera como referencia, llamado período base del índice.
Un índice simple es el cociente entre las dos magnitudes que se quieren comparar.
De forma general, si Yt es una serie temporal cualquiera, el índice de la variable en el período t con período base 0, puede expresarse de la siguiente forma:
Un índice de precios calculado para el período base toma el valor de 100 (examen):
Y0
I 0,0 = ------------ X 100 = 100
Y0
Por lo tanto, 100 es el número de referencia. Si calculamos un índice de precios y el resultado es 85, significa que ha habido una disminución del 15% (85 - 100 = -15). Si el resultado el 110, significa que ha aumentado un 10% (110 - 100 = 10).
Los índices compuestos sintetizan, en un solo índice, la evolución conjunta de varias magnitudes. Se calculan a base de integrar en un solo conjunto de índices simples, consiguiendo un indicador agregado a partir de índices individuales.
Los índices de precios compuestos agregan en un solo índice los precios de k productos (examen):
Índices Compuestos Ponderados. Se da una importancia diferente a los precios de distintos productos. Se calculan las medias ponderadas.
Ejemplo. Índices de Precios al Consumo. Los índices de precios al consumo son índices de precios compuestos y ponderados que se calculan muy frecuentemente a través de estas dos alternativas de cálculo (examen):
Índice de Laspeyres (L): El Índice de Laspeyres usa como ponderación el consumo de los productos en el año base (qi0).
Índice de Paasche (P): El Índice de Paasche utiliza los consumos del año para el que se calcula el índice (qit).
Pit y Pi0 son los precios y qit y qi0 las cantidades consumidas de cada producto en el año actual y en el año base, respectivamente. El Índice de Laspeyres usa como ponderación el consumo de los productos en el año base. El Índice de Paasche utiliza los consumos del año para el que se calcula el índice.
Índice de Fischer: es la media geométrica de los índices anteriores.
Ft,0 = L t,0 X P t,0
Los índices de Fisher y Paasche son muy costosos de calcular. En España, se utiliza en índice de Laspeyres para calcular el IPC.
ÍNDICE DE PRECIOS AL CONSUMO (ESPAÑA)
El INE (Instituto Nacional del Estadística) elabora mensualmente el IPC de España. Con este indicador se quiere medir la variación de los precios de los bienes y servicios que forman la cesta de la compra de la población residente en viviendas familiares españolas. Esta cesta de la compra es el conjunto de artículos que se consumen de forma mayoritaria en una familia durante todo un año. El año base actual es el 2001 y el anterior fue 1992.
Los productos consumidos se han clasificado en 12 grupos integrados por un total de 471 artículos. Las cantidades de cada uno de esos artículos consumidas por las familias, proporcionan sus ponderaciones.
De estos 12 grandes grupos, el subgrupo Servicios Turísticos está incluido en el grupo 9 Ocio y cultura. También hay que destacar el grupo 11 Hoteles, cafés y restaurantes, que incluirían alojamiento y parte de la oferta complementaria. Con los precios de los productos de cada grupo y subgrupo, el INE elabora el Índice de Precio de Turismo (IPT). Hay que tener en cuenta que el IPC se refiere a los precios que pagan las familias residentes en España y no los turistas. Hay productos que sólo son consumidos por turistas, como los souvenirs, pero no hay estudios sobre esa variación de precios.
Análisis cuantitativo de la Actividad turística 2
55
77
Frecuencia relativa X (360/100) = x grados
O lo que es lo mismo:
Frecuencia relativa X 3,6 = x grados
30 x 3,6 = 108º
39,6 x 3,6 =142,56º
8,4 x 3,6 = 30,24º
4 x 3,6 = 14,4º
18 x 3,6 = 64,8 º
25%
75 % 50%
| ||||
2 | x | |||
| ||||
1 |
| x | x | x |
|
|
|
| |
X | Y | Z | W |
Descargar
Enviado por: | MAKOKI |
Idioma: | castellano |
País: | España |