Análisis Cuantitativo de la Actividad Turística

Unidades para el Análisis. Problemática. Variabels. Demanda. Oferta. Clasificaciones. Coceptos. España

  • Enviado por: MAKOKI
  • Idioma: castellano
  • País: España España
  • 73 páginas

publicidad
cursos destacados
Iníciate en LOGIC PRO 9
Iníciate en LOGIC PRO 9
Vamos a ver de manera muy sencilla y en un breve paseo de poco más de una hora como funciona uno de los...
Ver más información

Cómo montar un Ordenador
Cómo montar un Ordenador
En este curso te guiamos de una forma muy práctica y gráfica, para que puedas realizar el montaje de tu...
Ver más información


ANÁLISIS CUANTITATIVO

DE LA

ACTIVIDAD TURÍSTICA


ÍNDICE:

TEMA 1. ANÁLISIS DE LA ACTIVIDAD TURÍSTICA

  • LA NECESIDAD Y LA UTILIDAD DEL ANÁLISIS CUANTITATIVO......................1

  • UNIDADES DE ANÁLISIS DE LA ACTIVIDAD TURÍSTICA.....................................2

  • HETEROGENEIDAD DE LA ACTIVIDAD TURÍSTICA Y LA HOMOGENEIZACIÓN DE CONCEPTOS......................................................................3

  • PROBLEMÁTICA DE LA ACTIVIDAD TURÍSTICA...................................................4

  • TEMA 2. LAS VARIABLES QUE MIDEN LA ACTIVIDAD TURÍSTICA

    2.1. VARIABLES E INDICADORES DE LA ACTIVIDAD TURÍSTICA.............................5

    2.2. LA CUANTIFICACIÓN DE LA DEMANDA..................................................................7

    2.3. LA CUANTIFICACIÓN DE LA OFERTA.......................................................................8

    2.4. LAS CLASIFICACIONES UNIFORMES DE LAS ACTIVIDADES............................10

    2.5. LAS ESTADÍSTICAS TURÍSTICAS Y SUS FUENTES...............................................11

    TEMA 3. ANÁLISIS DESCRIPTIVO DE UNA VARIABLE

    3.1. ANÁLISIS DESCRIPTIVO DE UNA VARIABLE CUALITATIVA............................15

    3.2. ANÁLISIS DESCRIPTIVO DE UNA VARIABLE CUANTITATIVA.........................22

    3.3. ESTADÍSTICOS O MEDIDAS DE POSICIÓN (centrales y no centrales)....................24

    3.4. ESTADÍSTICOS O MEDIDAS DE DISPERSIÓN........................................................29

    3.5. SIMETRÍA DE UNA DISTRIBUCIÓN. HISTOGRAMAS...........................................33

    TEMA 4. ANÁLISIS CONJUNTO DE DOS VARIABLES CUALITATIVAS

    4.1. OBTENCIÓN DE INFORMACIÓN A TRAVÉS DE ENCUESTAS............................37

    4.2. RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS.........................................38

    4.3. ESTADÍSTICOS DE ASOCIACIÓN. INDEPENDENCIA Y ASOCIACIÓN..............44

    TEMA 5. ANÁLISIS CONJUNTO DE DOS VARIABLES CUANTITATIVAS

    5.1. RELACIÓN ENTRE DOS VARIABLES CUANTITATIVAS. Representación...........49

    5.2. MEDIDAS O ESTADÍSTICOS DE RELACIÓN LINEAL: Covarianza y correlación.50

    5.3. RELACIÓN DE CAUSALIDAD O DE DEPENDENCIA.............................................57

    5.4. OBTENCIÓN DE A Y B POR MÍNIMOS CUADRADOS...........................................58

    5.5. COEFICIENTE DE DETERMINACIÓN: Bondad del ajuste lineal..............................60

    TEMA 6. LA EVOLUCIÓN TEMPORAL DE UNA VARIABLE CUANTITATIVA

    6.1. LA PERSPECTIVA TEMPORAL EN EL ANÁLISIS DE UNA VARIABLE.............63

    6.2. COMPONENTES SISTEMÁTICAS DE UNA SERIE TEMPORAL...........................65

    6.3. COMPONENTE NO SISTEMÁTICA DE UNA SERIE TEMPORAL.........................66

    6.4. ANÁLISIS DE LA TENDENCIA Y DE ESTACIONALIDAD....................................67

    6.5. TASAS DE VARIACIÓN O DE CRECIMIENTO........................................................70

    6.6.NÚMEROS ÍNDICE........................................................................................................72

    PREGUNTAS DE EXAMEN..............................................................................................75


    TEMA 1. ANÁLISIS DE LA ACTIVIDAD TURÍSTICA

    02/10/2008

    1.1.LA NECESIDAD Y LA UTILIDAD DEL ANÁLISIS CUANTITATIVO

    • La actividad turística o turismo es toda actividad que hacen las personas cuando se desplazan fuera de su entorno habitual, para una duración inferior a 12 meses y con la finalidad de no ejercer actividades remuneradas en el lugar de destino.

    • Problemas en la cuantificación: muchas de las actividades turísticas sirven a consumidores que pueden ser o no turistas ( restaurantes, tiendas diversas, etc.). No todas las personas que viajan son turistas.

    • Para intentar solucionar estos problemas, la Organización Mundial del Turismo (OMT), a partir de los años 80, comenzó a unificar, a nivel mundial, las definiciones básicas para la estadística de la actividad turística. Estas definiciones deben ser homogéneas y utilizadas de igual forma, en todo el mundo. La OMT también da unas clasificaciones sobre los turistas, que deben seguir todos los países y así, poder hacer comparaciones entre los diferentes lugares y tener unos análisis homogéneos. La OMT recomienda el uso de estas definiciones y clasificaciones a todos los países.

    1.2.UNIDADES DE ANÁLISIS DE LA ACTIVIDAD TURÍSTICA

    Residente: persona que está durante la mayor parte del año en un país o lugar.

    Viajero: toda persona que se desplaza entre dos o más países diferentes, o entre dos o más lugares dentro de su país de residencia, pero fuera de su entorno habitual.

    Visitante: Toda persona que se desplaza a un lugar diferente a su entorno habitual, por una duración inferior a 12 meses y cuya finalidad principal en el viaje NO es ejercer una actividad que sea remunerada en el lugar visitado.

    Turista: es un visitante (que se desplaza a un lugar diferente a su entorno habitual, por una duración inferior a 12 meses y cuya finalidad principal en el viaje NO es ejercer una actividad que sea remunerada en el lugar visitado) que pernocta como mínimo una noche en el lugar visitado.

    Excursionista: es un visitante (que se desplaza a un lugar diferente a su entorno habitual, por una duración inferior a 12 meses y cuya finalidad principal en el viaje NO es ejercer una actividad que sea remunerada en el lugar visitado) que realiza una visita de día y NO pernocta en el lugar visitado.


    'Anlisis Cuantitativo de la Actividad Turstica'

    En otros viajeros englobamos:

    • Personas que viajan dentro de su entorno habitual (viajeros laborales fronterizos, trabajadores fronterizos, viajeros en vecindad directa de lugar de residencia),

    • Personas que cambian de lugar de residencia (Migrantes a largo plazo, y personas que se trasladan a otro lugar dentro de su país de residencia, ambos grupos con un propósito de estancia de más de 12 meses).

    • Personas sin lugar fijo de residencia (nómadas, vagabundos, refugiados).

    • Personas que viajan a lugares donde perciben remuneración (migrantes a corto plazo con propósito de estancia igual o inferior a 12 meses, trabajadores estacionales, conferenciantes, artistas de espectáculos, Au pair, )

    • Otros excluidos por convención (pasajeros de tránsito, miembros de las fuerzas armadas, representación de consulados, diplomáticos, prisioneros)

    1.3.LA HETEROGENEIDAD DE LA ACTIVIDAD TURÍSTICA Y LA HOMOGENIZACIÓN DE CONCEPTOS.

    Viaje: es el que realiza un individuo o un grupo, cada vez que deja su lugar de residencia habitual por un motivo o más, recorre una determinada distancia para visitar uno o más destinos, con uno o más medios de transporte, y vuelve a su residencia. (Un viaje de negocios es un viaje, pero no es turismo).

    Viaje de vacaciones: es un viaje en el que el motivo principal es el ocio, e incluye cuatro pernoctaciones como mínimo.

    Turismo interno: es el que realizan los residentes de un país que viajan dentro del propio país.

    Turismo receptor: es el que realizan los no residentes que viajan dentro de un determinado país.

    Turismo emisor: es el que realizan los residentes de un determinado país, que viajan a otro país.

    [ OJO, si se hace un estudio de una zona en concreto, por ejemplo a nivel de las Islas Baleares, el concepto país debe entenderse como esa zona en concreto, en este caso, sólo las Islas Baleares]

    TIPOLOGÍA DE TURISMO

    TURISMO INTERIOR = TURISMO INTERNO + TURISMO RECEPTOR

    TURISMO INTERIOR = el que realizan los residentes de un país que viajan dentro del propio país + el que realizan los no residentes que viajan dentro de un determinado país.

    TURISMO NACIONAL = TURISMO INTERNO + TURISMO EMISOR

    TURISMO NACIONAL = el que realizan los residentes de un país que viajan dentro del propio país + el que realizan los residentes de un determinado país, que viajan a otro país.

    TURISMO INTERNACIONAL = TURISMO RECEPTOR + TURISMO EMISOR

    TURISMO INTERNACIONAL = el que realizan los no residentes que viajan dentro de un determinado país + el que realizan los residentes de un determinado país, que viajan a otro país.

    La definición de Turismo no acaba de determinar de una manera inequívoca y única, los principales componentes y unidades que la integran, por lo que es necesario unificar conceptos:

    • Unificar ciertas definiciones (ver material de apoyo 1)

    • Contabilizar las actividades y los bienes y servicios turísticos

    Los bienes y servicios turísticos son los que se destinan a satisfacer las necesidades de los visitantes de un determinado país o región. Se dividen en:

    • Bienes y servicios primarios o puramente turísticos: son los que dependen totalmente de la actividad turística (hoteles, apartamentos...)

    • Bienes y servicios secundarios o complementarios: son los que dependen parcialmente de la actividad turística. Este tipo de bienes y servicios son los más difíciles de clasificar (por ej. un restaurante tendrá clientes que sean visitantes y otros que no lo sean, pero dependiendo de donde esté situado es posible que sólo tenga clientes visitantes o sólo clientes del lugar).

    • Actividades y servicios intermedios o indirectos: dependen indirectamente de la actividad turística (por ej. la construcción).

    1.4.PROBLEMÁTICA DE LA ACTIVIDAD TURÍSTICA

    • Hay dificultad para conseguir datos creíbles para describir la magnitud y las consecuencias del turismo en la economía.

    • Hay una gran diversidad en el sector, lo que lleva a plantearse si el turismo es realmente un sector o un conjunto de sectores.

    • Hay grandes variaciones del fenómeno turístico según el lugar y la diversidad de tamaño de esos lugares.

    • Hay fragmentación y falta de organización en la actividad turística; es un sector muy complejo.

    • Es difícil hacer predicciones a medio y largo plazo debido al gran dinamismo del sector y a la exposición del sector a cambios imprevistos o imprevisibles (guerras, cambio de gustos del cliente, etc). Esta dificultad de predicción es característica del sector turístico, a pesar de que estas predicciones son necesarias y muy importantes para su funcionamiento.

    Estos problemas se intentan solucionar o clarificar con la homogeneización de definiciones y clasificaciones.

    OBJETIVO DE LA ASIGNATURA: TENER HERRAMIENTAS VÁLIDAS PARA TRABAJAR CON SEGURIDAD, ES DECIR, QUE A PARTIR DE UNOS DATOS, SE PUEDA TRABAJAR CON ELLOS Y SACAR CONCLUSIONES VÁLIDAS.

    TEMA 2. LAS VARIABLES QUE MIDEN LA ACTIVIDAD TURÍSTICA

    9/10/2008

    2.1.VARIABLES E INDICADORES DE LA ACTIVIDAD TURÍSTICA.

    VARIABLE: Es el conjunto de observaciones sobre una determinada característica (IMP). Por ejemplo, si se hace un estudio sobre la edad de los alumnos que hay en una clase, la característica es la edad del alumno y cada una de las edades será una observación, pero el conjunto de edades será la variable. Las variables deben estar bien definidas: en el ejemplo anterior lo correcto sería Variable: la edad de los alumnos de la clase de Análisis).

    CONSTANTE: es una observación de un hecho concreto. Por ej: la edad de un alumno concreto.

    INDICADOR: son variables que sin medir directamente una característica, nos aproximan a ella de una manera indirecta, recogiendo información que se relaciona con la que queremos obtener realmente. Por ejemplo: número de visitas a un destino como indicador de la fidelidad del turista a ese destino:

    'Anlisis Cuantitativo de la Actividad Turstica'

    TIPOLOGÍA DE LAS VARIABLES: Es importante saber qué tipo de variable estamos analizando en cada momento, ya que según de qué tipo se trate, se pueden aplicar un tipo de normas y operaciones u otro.

    Variables temporales: son las que se observan en varios períodos de tiempo consecutivos. Por ej: gasto total per cápita y día entre 1989 y 2004.

    Variables transversales o atemporales: son las que se observan en un mismo momento del tiempo para varios individuos. Por ej: gasto total per cápita y día por nacionalidades en 2004.

    'Anlisis Cuantitativo de la Actividad Turstica'

    Variables cualitativas (IMP): son las que expresan características o categorías de una cualidad y NO pueden expresarse numéricamente:

    Variables cualitativas nominales son las que únicamente ponen nombre a una característica: sexo, nacionalidad, profesión, tipo alojamiento, modo de realización de la reserva, lugar de vacaciones del año anterior, motivo del viaje, intención de retorno, tipo de moneda... Estas variables NO se pueden ordenar.

    Variables cualitativas ordinales son las que llevan asociadas un orden en las respuestas: tipo de paquete turístico seleccionado, categoría del establecimiento de alojamiento, opinión sobre los precios, impresión acerca del viaje, comparación de la calidad con anteriores visitas. Estas variables se pueden ordenar de forma creciente o decreciente: por ej estrellas de un hotel: 1, 2, 3, 4, 5) Si hablamos de cuántos hoteles de 2* hay en un lugar, será la frecuencia de una variable cuantitativa, pero si nos referimos sólo al tipo de hotel que es, será cualitativa.

    Variables cuantitativas: son las que se expresan numéricamente y se puede operar matemáticamente con esos datos:

    Variable cuantitativa discreta: son las que toman un número finito de valores. Son valores enteros y con valor máximo, como por ej. la edad, número de estrellas de los hoteles, días de estancia, número de viajes realizados, personas incluidas en el paquete turístico, etc.

    Variable cuantitativa continua: son las que toman un número infinito de valores, por ej: el gasto turístico. Pueden ser cualquier tipo de valor: decimales, negativos, etc.

    Hay variables que pueden ser de un tipo o de otro (cualitativa o cuantitativa) y nos puede interesar analizarlas como variables cuantitativas (pero no al revés). Salvo excepciones, la variable edad es una variable cuantitativa, pero podemos analizarla como cualitativa si la expresamos en forma de intervalos. O sea, una variable cuantitativa puede ser también cualitativa.

    2.2.LA CUANTIFICACIÓN DE LA DEMANDA

    Las variables que miden la demanda son aquéllas que miden el consumo de bienes o servicios turísticos por parte de los visitantes, ya sean turistas o excursionistas.

    Indicadores de la demanda turística:

    • En unidades físicas: el flujo turístico o volumen turístico (nº de viajes, nº de pernoctaciones, nº de turistas, nº de...)

    • En unidades monetarias: gasto turístico, es decir, todo gasto de consumo efectuado por un visitante o a cuenta de un visitante, durante y para su desplazamiento y permanencia turística en el lugar de destino.

      • Gasto realizado en la ciudad o país de origen

      • Gasto realizado en el lugar de destino

      • Gasto total = gasto en origen + gasto en destino

    2.3.LA CUANTIFICACIÓN DE LA OFERTA

    La cuantificación de la oferta es más complicada que la de la demanda, debido a la gran diversidad de actividades que pueden ser clasificadas como turísticas. La actividad más destacada es la oferta hotelera, que es una actividad primaria o de primer nivel. La oferta hotelera se mide principalmente por la capacidad de alojamiento turístico:

    • Nº de establecimientos por categorías

    • Nº de plazas

    • Nº de habitaciones

    • Nº de meses de apertura a lo largo del año

    El grado de utilización de la capacidad productiva hotelera se mide por los siguientes indicadores:

    • Nº de viajeros

    • Nº de pernoctaciones

    Estos indicadores permiten calcular la TASA DE OCUPACIÓN que es la proporción de habitaciones o plazas/cama de un establecimiento de alojamiento colectivo de turismo, ocupadas durante un cierto período de tiempo:

    Total de pernoctaciones

    Tasa de ocupación = ----------------------------------------

    Total de plazas X Nº de noches

    Este cociente dará un número con varios decimales, pero aporta más información si lo transformamos en un porcentaje, multiplicándolo por 100:

    Total de pernoctaciones

    Tasa de ocupación en % = ---------------------------------------- X 100

    Total de plazas X Nº de noches

    El Total de pernoctaciones es el nº de noches que un turista se aloja en el establecimiento y el Nº de noches es el nº de días o noches del período que se considere (un mes, varios meses, un año). Este número debe ser exacto, es decir si se trata del mes de febrero se contabilizarán los 28 días, si es agosto 31, etc...

    Ejemplo: Calcular la tasa de ocupación de un hotel de 250 plazas en el mes de marzo, que ha tenido 770 pernoctaciones:

    Total de pernoctaciones 770

    Tasa de ocupación = -------------------------------------- X 100 ==> --------------- X 100

    Total de plazas X nº de noches 250 X 31

    T.O. = 0,099 X 100 = 9,9 % ≈ 10%

    Ejercicio: Calcular las pernoctaciones mensuales (mes estándar de 30 días) de un alojamiento turístico que tiene 25 habitaciones individuales, 15 dobles y 30 triples. Ocupa un 73% de su capacidad.

    Total de pernoctaciones

    Tasa de ocupación = ----------------------------------------------- X 100

    Total de plazas X nº de noches

    Total de pernoctaciones

    73% = ----------------------------------------------- X 100

    [25 + (15 X 2) + (30 X 3)] X 30 noches

    Total de pernoctaciones 73 X 145 X 30

    73% = ---------------------------- X 100 total pernoctaciones = ----------------- = 3175,5

    145 X 30 100

    total pernoctaciones = 3176 (se redondea)

    Si se usa la fórmula sin porcentajes sería:

    Total de pernoctaciones Total de pernoctaciones

    0,73 = ----------------------------------------------- ==> 0,73 = -----------------------------

    [25 + (15 X 2) + (30 X 3)] X 30 noches 145 x 30

    0,73 x 145 x 30 = 3175.5 = total de pernoctaciones

    Ejercicio: Un hotel presenta una T.O. del 16,76% con un total de 2345 pernoctaciones mensuales y abre 26 días de un mes de 31. Calcular el nº de plazas del hotel.

    2345 234500

    16,76% = ------------------------- X 100 16,76 = -------------------------

    Total de plazas X 26 Total de plazas X 26

    234500

    16,76 X 26 X Total de plazas = 234500 Total de plazas = ------------------- = 538,1 plazas

    16,76 X 26

    538,1 plazas ≈ 269 habitaciones dobles

    2.4. LAS CLASIFICACIONES UNIFORMES DE LAS ACTIVIDADES

    Una clasificación uniforme de actividades consiste en la clasificación de todas las actividades económicas de manera exhaustiva, coherente y completa, de forma que no exista ambigüedad posible, en el sentido de que cada una ocupe un lugar y sólo uno en la clasificación. Esto permite:

    • Decidir si la producción de una empresa con una actividad económica determinada pertenece a un sector u otro.

    • Afrontar que existen productos y servicios que sin cambiar de naturaleza, parece que pueden estar clasificados en dos sectores diferentes.

    A nivel mundial, existe la clasificación de actividades de la C.I.I.U. (Clasificación Industrial Internacional Uniforme de actividades, elaborada por la División de Estadística de la Secretaría de Naciones Unidas). Se puede consultar en la web de la OMT, www.world-tourism.org.

    'Anlisis Cuantitativo de la Actividad Turstica'

    Los sectores de la C.I.I.U. más relacionados con el turismo, están desagregados en la C.I.U.A.T., que es otra clasificación más específica: Recoge la especificación de qué subsectores se dedican totalmente al turismo (T) y cuáles se dedican sólo parcialmente (P):

    'Anlisis Cuantitativo de la Actividad Turstica'

    Otro sistema muy importante a nivel mundial y compatible con las anteriores clasificaciones, es la Clasificación Industrial General de Actividades Económicas de la Comunidad Europea (N.A.C.E.).

    2.5.LAS ESTADÍSTICAS TURÍSTICAS Y SUS FUENTES

    Antes de hacer un análisis turístico, hay que obtener la información que será objeto del estudio. Es necesario conocer las fuentes para la elaboración de la información (encuestas y cuestionarios) y las estadísticas sobre turismo que publican diversos organismos:

    A nivel mundial:

    OMT

    Eurostat

    A nivel estatal:

    IET

    INE

    AENA

    A nivel autonómico:

    Conselleria de Turisme

    Conselleria d'Economia, Hisenda i Innovació

    Conceptos:

    • Población estadística: son todos aquellos elementos que se quieren analizar.

    • Muestra: es un subconjunto de elementos de la población. Tienen que ser representativos de la población ya que resulta muy costoso y difícil conocer todos los elementos de esa población.

    • Inferir: generalizar los resultados de la muestra a toda la población.

    • Unidad mostral: elemento o unidad que se escoge como elemento de estudio. Esta será la unidad que será entrevistada.

    • Encuesta: entrevista personal, telefónica o por correo postal, etc...

    • Cuestionario: conjunto de preguntas abiertas (la respuesta es libre por parte del entrevistado, por ej., Nacionalidad) o cerradas (hay que escoger la respuesta entre unas opciones determinadas).

    Las estadísticas de turismo en España

    El I.E.T. (Instituto de Estudios Turísticos) elabora tres encuestas fundamentales para el conocimiento del sector turístico en España: la encuesta sobre Movimientos en Frontera (FRONTUR), la encuesta sobre Movimientos Turísticos de los Españoles (FAMILITUR) y la encuesta sobre Gasto Turístico (EGATUR).

    - FRONTUR cuantifica y caracteriza el número de visitantes que llegan a España por las distintas vías de acceso a las fronteras.

    - FAMILITUR cuantifica y caracteriza los flujos de viajeros españoles entre las distintas Comunidades Autónomas y hacia el extranjero.

    - EGATUR cuantifica el gasto realizado en el turismo receptor y el emisor.

    El I.N.E. (Instituto Nacional de Estadística) es un organismo autónomo adscrito al Ministerio de Economía y Hacienda. Las principales estadísticas turísticas que realiza son:

    • Estadística de movimientos de viajeros en establecimientos hoteleros.

    • I.P.C., se extraen los I.P.H ( índice de precios por hoteles y otros establecimientos), I.P.R. (índice de precios de restaurantes y cafeterías) y el Índice de servicios turísticos. Estos 3 índices se combinan en el I.P.T.H. (índice de precios de turismo y hotelería). No hay que confundir estos datos con el Gasto Turístico.

    La Conselleria de Turisme y la Conselleria d'Economia, Hisenda i Innovació del Govern Balear, realizan las siguientes encuestas:

    • Encuesta sobre el cálculo de turistas

    • Encuesta del gasto turístico de las Islas Baleares: determina el gasto turístico total que se hace en la CAIB durante todo un año. El gasto se puede desglosar según se haga en el lugar de origen o en el de destino. La población será aproximadamente de 10 millones de turistas y la muestra será de 5500 turistas. La muestra se estratifica en grupos según su nacionalidad y según la isla que visiten. La entrevista se realiza en el momento de la salida en el aeropuerto o en el puerto.

    23/10/2008

    Una variable puede ir acompañada de otros datos que serán frecuencias, pesos, ponderaciones.

    Variables cualitativas nominales: sexo, tipo de moneda

    Variables cualitativas ordinales: estrellas de un hotel

    Por ej: se encuesta a 100 personas sobre el tipo de hotel en el que se han alojado:

    Estrellas

    Nº de personas

    Frecuencia relativa

    1*

    15

    15 %

    2*

    45

    45%

    3*

    25

    25%

    4*

    15

    15%

    N=

    100

    Total =100%

    El número de personas que ha contestado sobre cada categoría de hotel sería la frecuencia.

    No hay que confundir las variables con las frecuencias. Lo primero que hay que hacer siempre es identificar el tipo exacto de variable con el que vamos a trabajar.

    Sexo

    Frecuencia

    Hombre

    7

    Mujer

    13

    Las variables serían hombre o mujer y las frecuencias 7 y 13.

    Una constante es la observación de un hecho concreto.

    Necesitamos que la variable vaya acompañada de una frecuencia.

    Variable cuantitativa temporal: gasto medio del año 2000 al 2002

    Año

    Gasto

    frecuencia

    2000

    X

    1

    2001

    Y

    1

    2002

    Z

    1

    En este caso la variable es “gasto” y sus frecuencias son unitarias, ya que los valores de la variable no se repiten.

     

     

    x

     

    x

    x

     

     

     

     

     

    2000

    2001

    2002

    Variable cuantitativa no temporal

  • Gasto de los alumnos de la clase en los viajes de este verano:

  • X €

    Y €

    Z €

    W €

    X €

    Las frecuencias serían unitarias en los valores que no se repiten, excepto en X € que sí se repite.

  • Edad (en intervalos)

  • Edad

    frecuencia

    0-10

    11-20

    21-30

    Los intervalos se pueden tratar también como variable cualitativa.

    El número de personas que están en cada intervalo sería la frecuencia.

    TEMA 3. ANÁLISIS DESCRIPTIVO DE UNA VARIABLE

    6/11/2008

    HERRAMIENTAS DE ANÁLISIS UNIVARIANTE DE UNA VARIABLE: PARÁMETROS, ESTADÍSTICOS Y GRÁFICOS

    Bibliografía: Tema 3 del libro y material de apoyo 2.

    Análisis descriptivo o Estadística descriptiva: conjunto de técnicas para describir de forma resumida y ordenada el comportamiento de una variable:

    - estadísticos

    - gráficos

    3.1. ANÁLISIS DESCRIPTIVO DE UNA VARIABLE CUALITATIVA

    • DISTRIBUCIÓN DE FRECUENCIAS (numérica y gráfica)

    • ESTADÍSTICOS DESCRIPTIVOS: moda y mediana

    1er PASO. FRECUENCIA O FRECUENCIA ABSOLUTA (ni): número de veces que se repite uno de los valores de una variable (Xi). Por ejemplo, una encuesta de edad a un grupo de 100 personas:

    Xi

    ni

    -16

    25

    17-30

    15

    31-50

    10

    51-70

    30

    +70

    20

    N =

    100 personas

    25 personas de las 100 encuestadas, han contestado que tienen menos de 16 años.

    15 personas de las 100 encuestadas, han contestado que tienen entre 17 y 30 años.

    10 personas de las 100 encuestadas, han contestado que tienen entre 31 y 50 años.

    30 personas de las 100 encuestadas, han contestado que tienen entre 51 y 70 años.

    20 personas de las 100 encuestadas, han contestado que tienen más de 70 años.

    2º PASO. FRECUENCIA RELATIVA (fi): es la frecuencia absoluta (ni) de cada categoría de la variable dividida por el número total de observaciones (N).

    Xi

    ni

    fi = (ni/N)

    -16

    25

    0,25

    17-30

    15

    0,15

    31-50

    10

    0,1

    51-70

    30

    0,3

    +70

    20

    0,2

    Total =

    1

    Si tenemos las frecuencias relativas unitariamente (en tantos por 1), la suma de todas ellas debe dar 1. Si lo queremos representarlas en porcentajes, hay que multiplicar cada frecuencia relativa por 100, y la suma de todas ellas dará 100. Es recomendable hacerlo en porcentajes y comprobar siempre que la suma de todas es igual a 100.

    Xi

    ni

    fi = (ni/N)

    fi %

    -16

    25

    0,25

    25%

    17-30

    15

    0,15

    15%

    31-50

    10

    0,1

    10%

    51-70

    30

    0,3

    30%

    +70

    20

    0,2

    20%

    Total =

    1

    100

    Distribución de frecuencias: registro de todos los posibles valores de la variable, junto con sus frecuencias asociadas. (Cuadro de Xi, ni, fi, fi %). La distribución de frecuencias suele ir acompañada de representaciones gráficas que facilitan y clarifican la lectura de la información.

    DIAGRAMA DE BARRAS: representa cada una de las categorías de la variable (en el eje X) y su frecuencia relativa o absoluta (en el eje Y) en forma de rectángulos. Siempre hay que indicar qué tipo de frecuencia estamos empleando. Cuando se trata de variables cualitativas, las barras pueden ser de cualquier manera, no hay condición fija, simplemente que quede claro y estético. Siguiendo con el ejemplo anterior, quedaría así:

    valores de la variable

    PICTOGRAMA: es un círculo donde se representan las categorías de la variable, proporcionalmente a las frecuencias. Siempre se debe empezar a representar desde la línea de las 12 en punto y hacia la derecha (si se trata de variables nominales, se empieza igual pero el orden no es tan importante. Se puede hacer calculando los ángulos o bien por porcentajes (25, 50, 75%). Los pictogramas nos aportan datos por la forma en que están confeccionados (IMP)

    Frecuencia relativa X 360º

    Ángulo del pictograma = ------------------------------------- = Frecuencia relativa X 3,6

    100

    100 % 25%

    75 % 50%

    3er PASO. ESTADÍSTICOS DESCRIPTIVOS O DE RESUMEN: son los valores que aportan más información sobre la variable. Los estadísticos que más se utilizan son la Moda y la Mediana.

    La MODA es aquella categoría de la variable que tiene una mayor frecuencia. Es aquel valor (unimodal) o valores (bimodal o multimodal) de la variable que tienen una mayor frecuencia.

    Xi

    ni

    Española

    40

    Británica

    10

    Alemana

    40

    otros

    10

    En este ejemplo sobre nacionalidades, la distribución sería bimodal (Española y Alemana) ya que hay dos valores cuyas frecuencias son las mayores.

    Xi

    ni

    -16

    25

    17-30

    15

    31-50

    10

    51-70

    30

    +70

    20

    En este ejemplo de las edades, 30 es la frecuencia mayor y el valor de la variable es “entre 51 y 70 años”. La moda de esta variable es “entre 51 y 70 años”. La variable “menor de 16 años” tiene una frecuencia muy alta, pero por debajo de la moda, pero el resto de variables quedan muy lejos de estos dos valores, por lo que “menor de 16” sería la casi-moda de esta distribución. En el pictograma podemos detectar la moda por el ángulo mayor.

    La MEDIANA es aquel valor de la distribución que ocupa el valor central de la misma. Ordenados los valores de la variable (no de las frecuencias), de menor a mayor, la mediana define aquel punto que deja por debajo de sí mismo el 50% de las observaciones. Para poder calcular la mediana deben cumplirse dos condiciones:

    • Debe tratarse de una variable cualitativa ORDINAL

    • Hay que calcular las frecuencias relativas acumuladas (Fi = sumar cada frecuencia relativa con la siguiente hasta que de 100):

    Xi

    ni

    fi = (ni/N)

    fi %

    Fi

    -16

    25

    0,25

    25%

    25%

    17-30

    15

    0,15

    15%

    40%

    31-50

    10

    0,1

    10%

    50%

    51-70

    30

    0,3

    30%

    80%

    +70

    20

    0,2

    20%

    100%

    Total =

    1

    100

    Para saber la mediana, necesitamos el primer valor que contenga el 50%. En este caso, tenemos el valor exacto de 50%, lo que quiere decir que por encima de este valor está el 50% de las observaciones (no de valores) y por debajo, el otro 50%. La mediana de esta variable sería “entre 31 y 50 años”. Pero, si en lugar de las frecuencias, pusiéramos los valores en línea, quedaría:

    -16, -16, -16,....., 17-30, 17-30, 17-30..., 31-50, 31-50, 31-50..., 51-70, 51-70....+ de 70....

    25 veces 15 veces 10 veces 30 veces 20 veces

    Si el número de observaciones es par, no hay mediana porque ese puesto quedaría vacío . Es este caso, como hay 100 observaciones, la mediana sería tanto el valor 31-50, como el valor 51-50, ya que la observación nº 50 sería 31-50, y la número 51 sería 51-70, ya que la mediana se encontraría entre la posición 50 y 51 de las observaciones. Si hubiera 99 observaciones, la mediana sería el valor que estuviera en la posición 50. Si cambiamos las frecuencias, queda:

    Xi

    ni

    fi = (ni/N)

    fi %

    Fi

    -16

    25

    0,25

    25%

    25%

    17-30

    15

    0,15

    15%

    40%

    31-50

    12

    0,12

    12%

    52%

    51-70

    30

    0,3

    30%

    82%

    +70

    18

    0,18

    18%

    100%

    Total =

    1

    100

    En este caso, no habría duda de que la mediana es 31-50, porque el valor 52% supera el 50% de las observaciones.

    EJEMPLO:

    Nacionalidad

    ni

    Alemana

    1500

    Británica

    1980

    Española

    420

    Francesa

    200

    otros

    900

    1er paso:

    Nacionalidad

    ni

    fi %

    Fi

    Alemana

    1500

    30%

    30

    Británica

    1980

    39,6%

    69,6

    Española

    420

    8,4%

    78

    Francesa

    200

    4%

    82

    otros

    900

    18%

    100

    N = 5000

    2º paso: Diagrama de barras:

    Pictograma:

    'Anlisis Cuantitativo de la Actividad Turstica'

    Con las frecuencias acumuladas podemos ir señalando aproximadamente los ángulos, suponiendo que el circulo está dividido en 4 partes iguales:

    30

    Un poco más del 25%

    69,6

    Menos del 75 %

    78

    Más del 75%

    82

    100


    La moda de la variable Nacionalidad es “Británica” y habría también una casi-moda que sería “Alemana”. La mediana no se puede calcular porque se trata de una variable cualitativa nominal. No se puede calcular la mediana porque esta variable no se puede ordenar de menor a mayor y además si cambiáramos el orden de las nacionalidades, la mediana cambiaría de lugar con cada cambio.

    EJEMPLO: (los valores de No sabe/no contesta sólo se consideran si son muy significativos)

    ¿Qué le ha parecido el viaje?

    ni

    Nada satisfactorio

    6

    Poco Satisfactorio

    31

    Satisfactorio

    96

    Muy satisfactorio

    90

    ¿Qué le ha parecido el viaje?

    ni

    fi %

    Fi

    Nada satisfactorio

    6

    2,69

    2,7

    Poco Satisfactorio

    31

    13,90

    16,6

    Satisfactorio

    96

    43,049

    59,6

    Muy satisfactorio

    90

    40,35

    100

    N = 223

    Diagrama de barras:

    'Anlisis Cuantitativo de la Actividad Turstica'

    Pictograma:

    La moda es “satisfecho” y casi-moda “muy satisfecho”.

    Según las frecuencias acumuladas, el valor que contiene el 50% es “Satisfecho” con una Fi del 59,6% (la variable es cualitativa ordinal y está ordenada de menor a mayor). En el pictograma podemos saber cuál es la mediana, por el valor que está en el punto del 50% del círculo.

    EJERCICIO:

    Precio del viaje

    ni

    Económico

    480

    Normal

    2970

    Caro

    1395

    Distribución de frecuencias:

    Precio del viaje

    ni

    fi %

    Fi

    Económico

    480

    9,9%

    9,9

    Normal

    2970

    61,3%

    71,2

    Caro

    1395

    28,79%

    100

    N = 4845

    Diagrama de barras:

    'Anlisis Cuantitativo de la Actividad Turstica'

    Pictograma:

    'Anlisis Cuantitativo de la Actividad Turstica'

    Moda: “Normal” es la variable con mayor frecuencia.

    Mediana: Es una variable cualitativa ordinal y ya está ordenada de menor a mayor. Según las frecuencias acumuladas y el pictograma, el 1er valor que está por encima del 50% es de la variable “Normal”.

    Si se trata de una variable cualitativa ordinal, se ordena dicha variable (no las frecuencias) de menor a mayor y se indican los cuartiles (ver pág 28).

    13/11/2008

    3.2.ANÁLISIS DESCRIPTIVO DE UNA VARIABLE CUANTITATIVA

    La distribución de frecuencias de las variables cuantitativas se calcula igual que con las variables cualitativas. La diferencia es que con las variables cuantitativas es posible obtener estadísticos adicionales a la moda y la mediana, que facilitan su descripción. Para la elaboración de frecuencias es necesario, aunque no siempre, agrupar los valores de la variable en intervalos.

    Siempre hay que ordenar la variable de menor a mayor.

    1er paso: distribución de frecuencias:

    Cuando los valores son unitarios (que su frecuencia sea 1) no es necesario hacer la distribución de frecuencias, y tampoco hay moda (porque todos los valores tienen la misma frecuencia, que sería uno). En el caso de la mediana de una variable cuantitativa, si los valores son pares, hay que hacer la media aritmética de los valores centrales, pero si son impares, la mediana será un solo valor.

    Ejemplo:

    Edad : 20, 21, 23, 23, 25, 27, 28, 29, 29, 30

    Moda: 23 y 29 son los valores con mayores frecuencias (distribución bimodal).

    Mediana: como el número de valores es par (ya están ordenados de menor a mayor) la mediana estaría entre 25 y 27, por lo que hay que calcular la media aritmética:

    25 + 27

    ---------- = 26

    2

    Si el número de valores fuera impar, la mediana sería un solo valor.

    Para tratar variables que toman gran cantidad de valores, el procedimiento usual consiste en agrupar los valores en intervalos. La distribución de frecuencias se realizaría tomando como referencia, los distintos intervalos de la variable (marca de clase).

    La marca de clase es un nº que representa a un intervalo. Es el valor medio y central del intervalo y se calcula con la semisuma de los valores del intervalo. Cuando calculamos la marca de clase, ésta será Xi, para poder trabajar con el intervalo.

    Edad

    Marca de clase (Xi)

    [1,19]

    10

    [20,39]

    29,5

    [40,59]

    49,5

    [60,79]

    69,5

    + 79

    89,5

    (1 + 19 ) / 2 = 10

    (20 + 39 ) / 2 = 29,5

    (40 + 59 ) / 2 = 49,5

    (60 + 79 ) / 2 = 69,5

    + 79 es lo mismo que [80,∞]. = 89,5

    Para poder saber la marca de clase, en el caso [80,∞], observamos cómo son las de los otros intervalos, qué criterio cumplen. Vemos que las otras marcas de clase son el primer nº del intervalo más 9,5. Para el intervalo [80,∞] haremos lo mismo, y su marca de clase será 89,5. Los intervalos [...] son cerrados, mientras que + 79 sería un intervalo abierto.

    2º paso: representación gráfica: HISTOGRAMA

    La representación gráfica de la distribución de frecuencias de una variable continua (son las que toman un número infinito de valores) se representa mediante el histograma. El histograma es como un diagrama de barras, pero cada una de las barras es un rectángulo cuya área es la frecuencia relativa, es decir:

    ni

    Área = Base x Altura = --------

    N

    Donde la base es la amplitud del intervalo y la altura es:

    1 ni

    Altura = ---------- x --------

    base N

    Para que la representación gráfica sea más sencilla, le damos valor 1 a la base del rectángulo y así conseguimos que el área sea igual a la altura:

    ni ni ni

    Base x Altura = -------- 1 x altura = -------- altura = -------

    N N N

    En el histograma no se deja espacio entre las barras, a diferencia del diagrama de barras anterior:

    fi

     

     

     

     

     

     

     

     

     

     

     

     

     

     

    Xi = 1

    ESTADÍSTICOS DESCRIPTIVOS: POSICIÓN, DISPERSIÓN Y FORMA

    3.3. ESTADÍSTICOS O MEDIDAS DE POSICIÓN (centrales y no centrales)

    Ofrecen información de dónde se sitúan los valores “característicos” de la variable.

    MEDIDAS DE POSICIÓN CENTRAL: moda, mediana, media aritmética, media ponderada y media geométrica.

    Por ej. si los días de vacaciones que han tenido 10 turistas son:

    13,14,15,16,17,25,26,26,29,31

    La moda será 26 (es la que tiene mayor frecuencia) y la mediana (valor que se sitúa en el punto medio de la distribución) como hay un nº par de observaciones, será la media de los valores centrales 17 y 25, es decir, 21 días [(17 + 25) / 2].

    Media aritmética: suma de todos los valores de la variable, dividida por el total de observaciones. Se distingue de la mediana en que utiliza en su cálculo todas las observaciones de la muestra:

    ∑ Xi

    _ i →1

    X = --------------------

    n

    Xi = valores de la variable

    n = número total de observaciones

    Si usamos distribuciones de frecuencias, la fórmula quedaría:

    ∑ Xi * ni

    _ i →1

    X = --------------------

    n

    Xi = valores de la variable

    n = número total de observaciones = ∑ni = N

    ni = frecuencia absoluta

    Con la 1º fórmula sería:

    ∑ Xi

    _ i →1 13 + 14 + 15 + 16 +17 +25 +26 +26 +29 +31

    X = ----------- = -------------------------------------------------------

    n 10

    Con la 2ª fórmula:

    ∑ Xi * ni

    _ i →1 13*1 + 14*1 + 15*1 + 16*1 +17*1 +25*1 +(26* 2) +29*1 +31*1

    X = ----------- = -------------------------------------------------------------------------------

    n 10

    Supongamos que tenemos las siguientes observaciones:

    10,10,10,15,15,20,20,20,20,20,21

    La moda sería 20 y la mediana sería 20

    _

    La media aritmética (X) sería:

    ∑ Xi

    _ i →1 10+10+10+15+15+20+20+20+20+20+21

    X = ----------- = --------------------------------------------------

    n 11

    Si pasamos las observaciones a una distribución de frecuencias, quedaría (con los valores de la variable ordenados de menor a mayor, no las frecuencias):

    Xi

    ni

    10

    3

    15

    2

    20

    5

    21

    1

    n = 11

    Y calcularíamos la media aritmética:

    ∑ Xi * ni

    _ i →1 (10*3) + (15*2) + (20*5) + (21* 1)

    X = ----------- = ---------------------------------------------

    n 11

    Si hay muchos datos, es mejor emplear esta segunda fórmula.

    PROPIEDADES DE LA MEDIA ARITMÉTICA (IMP)

    - La suma de las desviaciones de los valores de la variable (diferencias entre cada valor y la media aritmética), respecto a la media es igual a cero:

    n _

    ∑ ( Xi - x) = 0

    i = 1

    Xi

    ni

    media arit

    Xi - media arit

    10

    3

    16,45

    -6,45

    15

    2

    16,45

    -1,45

    20

    5

    16,45

    3,55

    21

    1

    16,45

    4,55

    ∑ (Xi - media arit )=

    0

    • Si a los valores de la variable se les suma una constante, la media de los valores transformados se incrementa en esa cantidad:

    Xi

    Xi + 5

    10

    15

    15

    20

    20

    25

    21

    26

    ∑ Xi+5 * ni

    _ i →1 (15*3) + (20*2) + (25*5) + (26* 1)

    Xi + 5 = -------------- = --------------------------------------------- = 21,45

    n 10

    _ _

    Xi + 5 = Xi + 5 = 16,45 + 5 = 21,45

    • Si los valores se multiplican por una constante, la media de los valores transformados será la media original multiplicada por esa constante:

    Xi

    Xi * 2

    10

    20

    15

    30

    20

    40

    21

    42

    ∑ Xi+2 * ni

    _ i →1 (20*3) + (30*2) + (40*5) + (42* 1)

    Xi*2 = ---------------- = --------------------------------------------- = 32,9

    n 10

    _ _

    Xi*2 = Xi * 2 = 16,45 * 2 = 32,9

    Media ponderada: los valores promediados son ponderados mediante un peso determinado. Si tenemos p valores distintos de la variable Xi y a cada uno de ellos se le da un peso wi, la media ponderada se define como:

    'Anlisis Cuantitativo de la Actividad Turstica'

    Las observaciones de una variable también podrían ponderarse por sus frecuencias relativas: wi = ni/n, es decir, por la importancia relativa de cada valor en la distribución

    En ocasiones, la ponderación tiene que ver con el peso en la población de las distintas observaciones. Supongamos, por ejemplo, que se dispone del gasto turístico diario de tres personas que representan a los turistas que han visitado tres municipios distintos de una región. El gasto de cada uno de ellos es de 200, 200 y 100 euros. Si se pidiese calcular el gasto turístico medio diario en la región, una opción directa sería la siguiente:

    En ese período, el número de turistas que ha visitado cada municipio ha sido 10.000, 20.000 y 1.000.000 turistas, respectivamente. Resultaría lógico utilizar una media ponderada, donde el gasto de cada turista de la muestra sería asignado a todos los turistas del correspondiente municipio:

    Dependiendo del peso que empleemos, la media aritmética saldrá distinta.

    Media geométrica: se utiliza para calcular los promedios de valores que son porcentajes, tasas, tipos de interés, números índices..., es decir, valores que representan variaciones acumulativas, de un período anterior. Cada valor se eleva a su frecuencia relativa y se hace raíz cuadrada n.

    'Anlisis Cuantitativo de la Actividad Turstica'

    Por ej: 15%, 18%, 20%

    g =

    Los valores los pondríamos en tantos por 1 y haríamos la raíz 3, porque hay 3 valores.

    MEDIDAS DE POSICIÓN (NO CENTRALES): CUARTILES, DECILES, Y PERCENTILES

    Los cuartiles (primer, segundo y tercer cuartil) son los valores que (con la variable ordenada de menor a mayor) dejan por debajo de su posición el 25%, 50% y 75% de las frecuencias acumuladas, respectivamente. Los cuartiles dividen la variable en cuatro grupos con igual número de observaciones (el 25% de valores más bajos, el 25% siguiente,…).

    Los deciles dividen la muestra en porcentajes del 10, 20, ..., hasta el 90 por ciento.

    Los percentiles amplían esta idea para definirse sobre porcentajes del 1, 2, 3, …, hasta el 99 por ciento.

    Xi

    fi

    Fi %

    10

    29

    29

    1er cuartil

    1y 2º decil

    1-28 percentil

    20

    15

    44

     

    3 y 4º decil

    29-43 percentil

    30

    19

    63

    2º cuartil

    5 y 6º decil

    44-62 percentil

    40

    22

    85

    3er cuartil

    7 y 8º decil

    63-84 percentil

    50

    15

    100

     

    9º decil

    85-99 percentil

    Los deciles y percentiles se emplean poco. Sirven cuando hay muchísimos valores.

    EQUIVALENCIAS IMPORTANTES:(examen)

    Mediana = Segundo cuartil = 50 percentil

    Primer cuartil = 25 percentil

    Tercer cuartil = 75 percentil

    Hay 3 cuartiles

    Hay 9 deciles

    Hay 99 percentiles

    3.4. MEDIDAS O ESTADÍSTICOS DE DISPERSIÓN

    Estas medidas son útiles cuando la media no es representativa de lo que ocurre en los datos y necesitamos saber cuán cerca o lejos de la media se sitúan esos datos, es decir, su dispersión. Las medidas de posición ofrecen información de dónde se sitúan los valores “característicos” de la variable, pero las medidas de posición deben complementarse con las medidas de dispersión de la variable: Rango, rango intercuartílico, varianza, desviación típica o estándar, y coeficiente de variación.

    Rango: El rango de una variable es la diferencia entre el mayor y el menor valor de las observaciones (valores de la variable, no de las frecuencias):

    Rango = X MAX -X MIN

    Como medida de dispersión el rango es muy sensible a los valores extremos. Si comparamos dos variables, la que tenga un rango mayor, será la más dispersa y la que tenga rango menor, tendrá menos dispersión o más concentración.

    Rango intercuartílico: es la diferencia entre el tercer y primer cuartil de la variable. En ese intervalo se incluyen, por tanto, el 50% de las observaciones situadas en la zona central de la distribución:

    Rango IQ = Q3 - Q1

     

    50 % central = RIQ

     

    100 % de las observaciones

    Por lo tanto, nos da información sobre cuán concentrados o dispersos están los valores centrales.(IMP)

    Varianza: La varianza es el promedio de las desviaciones de la variable con respecto a la media al cuadrado, es decir, que indica cuán concentrados o dispersos son los valores respecto a la media aritmética:

    'Anlisis Cuantitativo de la Actividad Turstica'

    Si utilizamos frecuencias absolutas, hay que multiplicar la fórmula por ni:

    n _

    ∑ (Xi- x)2 * ni

    i = 1

    Sx2 = ------------------

    N

    La varianza es la medida de dispersión más importante para indicar la distancia de las observaciones respecto a la media aritmética. A mayor varianza, mayor dispersión. Su valor depende de la unidad de medida de la variable. La varianza de una sola distribución no nos aporta mucha información por sí sola, pero es muy útil para compararla con otras distribuciones.

    Otra forma de calcular la varianza es:

    'Anlisis Cuantitativo de la Actividad Turstica'

    N = n = ∑ni

    PROPIEDADES DE LA VARIANZA:(examen)

    • La varianza es siempre positiva (al ser el cuadrado de un número, aunque éste fuera negativo, el resultado sería positivo)

    • Es sensible a los valores extremos porque es una medida de dispersión.

    • Si a los valores de la variable se les suma una constante c, la varianza de los valores modificados no se modifica, es decir, que seguiría siendo la misma.

    Sc +x2 = Sx2

    • Si a los valores de la variable se les multiplica por una constante c, la varianza de los valores modificados queda multiplicada por el cuadrado de la constante:

    Sc *x2 = c2 * Sx2

    • Otra forma de calcular la varianza, si empleamos frecuencias absolutas es:

    n

    ∑ Xi2* ni

    i = 1 _

    Sx2 = -------------- - x 2

    N

    Xi

    ni

    Xi*ni

    Xi2

    Xi2*ni

     

     

     

     

     

     

     

     

     

     

    Desviación típica o Estándar: es la raíz cuadrada de la varianza y tiene la misma unidad de medida que la variable.

    'Anlisis Cuantitativo de la Actividad Turstica'

    Como medidas de dispersión, la desviación estándar y la varianza muestran su utilidad, especialmente, cuando se emplean de manera comparativa.

    Coeficiente de variación (MUY IMP.): es la relación entre la desviación estándar (medida de dispersión) y la media aritmética de la variable (medida de posición). Facilita la discusión de la importancia de la dispersión de una variable. Hay que expresarlo en tantos por ciento (para hacerlo se multiplica por 100).

    'Anlisis Cuantitativo de la Actividad Turstica'

    sx

    CV en % = _ * 100

    X

    Resulta de especial interés en dos circunstancias:

    • Cuando se quieren comparar distribuciones de variables con diferentes unidades de medida.

    • Cuando se comparan distribuciones que, aun teniendo igual unidad de medida, toman valores muy distintos.

    El resultado del coeficiente de variación en tantos por ciento, debe compararse con la media aritmética para determinar si el % resultante es grande o pequeño. Este coeficiente no depende de la unidad de medida de la variable, por eso sirve para comparar distribuciones y unidades de medidas diferentes. Cuanto mayor sea el C.V., mayor será la dispersión.

    Si por ej., el C.V. da 0,02, lo multiplicamos por 100 para ponerlo en %, lo que nos daría 2%. Esto significa que el C.V. es de un 2% respecto a la media aritmética, lo que sería un porcentaje bastante bajo.

    Como medidas de dispersión, la desviación estándar y la varianza son útiles para comparar diferentes distribuciones:

    'Anlisis Cuantitativo de la Actividad Turstica'

    'Anlisis Cuantitativo de la Actividad Turstica'
    3.5. SIMETRÍA DE UNA DISTRIBUCIÓN (histogramas)EXAMEN

    Según su forma, las distribuciones pueden dividirse en simétricas, asimétricas por la derecha y asimétricas por la izquierda. Las distribuciones simétricas tiene la misma forma a izquierda y derecha de la mediana. Las distribuciones unimodales asimétricas por la derecha tiene más valores a la derecha del intervalo modal que a su izquierda. Una distribución con la forma contraria es asimétrica por la izquierda.

    Aunque existen estadísticos que describen la simetría (o asimetría) de la distribución, los valores de la media, mediana y moda de la variable facilitan también esta información. En una distribución simétrica la media, la mediana y la moda tienden a coincidir, mientras que en las distribuciones asimétricas se dispersan:

    MEDIDAS DE ASIMETRÍA Y MEDIDAS DE APUNTAMIENTO O CURTOSIS

    Existen medidas de forma que proporcionan información numérica sobre dos características de la distribución: su simetría y su apuntamiento o curtosis. El apuntamiento o curtosis se refiere a la importancia de la concentración de las observaciones en la zona central de la variable, mostrándose con ello más o menos apuntada.

    Las distribuciones simétricas tiene la misma forma a izquierda y derecha de la mediana. Cualquier medida que recoja alteraciones de esta situación proporcionará una cuantificación de la asimetría de la distribución. Una primera propuesta podría ser la siguiente:

    n _

    ∑ (Xi- x)

    i = 1

    ------------------

    N

    en tanto que define un promedio de las desviaciones de la variable con respecto al valor medio. En el caso de que se dieran muchas observaciones por encima de la media, se esperaría un valor positivo, mientras que una mayor proporción de valores por debajo de la media proporcionaría un valor negativo. El problema es que si se cumple una de las propiedades de la media aritmética, que es

    - La suma de las desviaciones de los valores de la variable (diferencias entre cada valor y la media aritmética), respecto a la media es igual a cero:

    n _

    ∑ ( Xi - x) = 0

    i = 1

    Una modificación alternativa es tomar las desviaciones de la variable respecto a la media, pero elevadas a alguna potencia. Al elevar las desviaciones al cuadrado se obtiene la expresión de la varianza, una medida de dispersión de los valores respecto a la media, pero que no ayuda a señalar la posición de las observaciones a derecha o izquierda de la medida de posición central. El cubo de las desviaciones, al respetar el signo de la diferencia de la operación ( Xi - media arit.), permite promediar tanto la importancia de la desviación como su dirección. Se utilizaría por tanto, un estadístico conocido como el momento de orden tres con respecto a la media (m3):

    n _

    ∑ (Xi- x)3

    i = 1

    m3 = ------------------

    N

    (Esta fórmula habría que multiplicarla por ni si empleamos frecuencias absolutas).

    Xi

    ni

    Xi*ni

    Xi2

    Xi2* ni

    (Xi - media)3

    (Xi - media)3* ni

    • Si m3 es igual a cero, es simétrica.

    • Si m3 es > cero, es asimétrica por la derecha

    • Si m3 es < cero, es asimétrica por la izquierda

    MEDIDA DE ASIMETRÍA DE FISHER

    Con la siguiente fórmula se evita que la medida varíe si se produce un cambio de escala, y se normaliza mediante el cubo de la desviación estándar:

    m3

    g1 = --------

    Sx3

    • Si g1 es igual a cero, es simétrica.

    • Si g1 es > cero, es asimétrica por la derecha

    • Si g1 es < cero, es asimétrica por la izquierda

    MEDIDA DE ASIMETRÍA DE PEARSON

    Relaciona la media aritmética y la moda respecto a la desviación estándar:

    _

    X - moda

    AS = -----------

    SX

    • Si AS es igual a cero, es simétrica.

    • Si AS es > cero, es asimétrica por la derecha

    Si AS es < cero, es asimétrica por la izquierda

    MEDIDAS DE APUNTAMIENTO O CURTOSIS

    Se aplican a distribuciones simétricas y unimodales, pretenden medir hasta qué punto las observaciones de la variable se acumulan en la parte central de la distribución.

    'Anlisis Cuantitativo de la Actividad Turstica'

    'Anlisis Cuantitativo de la Actividad Turstica'

    En las distribuciones mesocúrticas, la curtosis es igual a 3. (Distribución normal)

    Coeficiente de curtosis: permite la comparación directa con la distribución normal:

    'Anlisis Cuantitativo de la Actividad Turstica'

    'Anlisis Cuantitativo de la Actividad Turstica'

    RESUMEN:

    Variables cualitativas nominales: Moda. Variables cualitativas ordinales: Moda y mediana. Variables cuantitativas temporales y atemporales: TODO

    Si un valor se repite, significa que hay frecuencia. Si no se repite, su frecuencia es 1. Si no hay muchas frecuencias, no vale la pena calcular los deciles ni los percentiles.

    Las frecuencias acumuladas sólo sirven para la mediana.

    Si la moda tiene un valor próximo a los demás valores, hay que indicarlo. También hay que indicar cuán diferente es la moda de los demás valores.

    La varianza por sí sola no aporta mucha información. El coeficiente de variación indica el % de variabilidad.

    De cada fórmula, hay que sacar una conclusión sobre la información que aporta.

    TEMA 4. ANÁLISIS CONJUNTO DE DOS VARIABLES CUALITATIVAS

    11/12/2008

    El análisis conjunto de dos variables consiste en averiguar la relación que existe entre esas variables. Cruzar los datos de dos variables aporta mucha más información que una sola variable.

    4.1. OBTENCIÓN DE INFORMACIÓN A TRAVÉS DE ENCUESTAS

    Después de realizar una encuesta, si queremos averiguar si hay relación de dependencia o no entre dos variables, es decir, intentar establecer cuál es la variable que influye en la otra, lo primero que hay que saber es si esas variables son cualitativas o si son cuantitativas:

    • Si son CUALITATIVAS, se estudia la ASOCIACIÓN entre ellas.

    • Si son CUANTITATIVAS, se estudia la CORRELACIÓN o RELACIÓN LINEAL que hay entre ellas.

    • En el caso de que una variable sea cualitativa y la otra sea cuantitativa, se tratarán ambas variables como cualitativas. Si la variable es cuantitativa, pero se puede tratar como cualitativa ordinal (definiéndola en intervalos de valores) se estudiaría también la asociación. Hay variables cuantitativas que se pueden estudiar como cualitativas, pero no ocurre lo mismo al revés.

    4.2. RELACIÓN ENTRE DOS VARIABLES CUALITATIVAS.

    1º. CONSTRUCCIÓN DE LA TABLA DE CONTINGENCIA.

    (Se puede hacer lo mismo con las variables cuantitativas)

    Para describir la relación entre dos variables cualitativas, se emplea la tabla de frecuencias conjunta o tabla de contingencia. Se considera que cada una de las variables puede tomar una serie de valores mutuamente excluyentes. Como en el caso de la estadística univariante, la primera manera de resumir la información es el puro cómputo. Empleando una tabla de doble entrada se muestran todas las posibles combinaciones de las categorías de las dos variables, anotando en cada una de las celdas resultantes el número de casos que pertenecen a las dos categorías. En las tablas de contingencia se muestran las frecuencias (absolutas o relativas) en las que ocurren las categorías de filas y columnas.

    Ejemplo. Con el objetivo de conocer el nivel de satisfacción de los turistas que han pasado sus vacaciones en una región, se ha realizado una encuesta en la que se pregunta al turista si está satisfecho de sus vacaciones. Las posibles respuestas a la pregunta son Mucho, Bastante, Poco y Nada. Considerando que la satisfacción alcanzada puede estar en función de la zona concreta donde se ha realizado la estancia, se ha cruzado la pregunta sobre satisfacción con una variable que identifica cuatro zonas de la región.

    ZONA 1

    ZONA 2

    ZONA 3

    ZONA 4

    MUCHO

    395

    593

    358

    200

    BASTANTE

    100

    182

    120

    94

    POCO

    167

    233

    102

    90

    NADA

    212

    249

    118

    115

    Esta tabla se interpretaría por ej., que 395 turistas que se alojaron en la zona 1 les ha gustado mucho el viaje o bien que 395 turistas a los que les ha gustado mucho el viaje, se alojaron en la zona 1.

    Las variables se pueden colocar indistintamente en la vertical o en la horizontal de la tabla. O sea, se podrían colocar las zonas en la vertical y el grado de satisfacción en la horizontal.

    2º. CALCULAR LAS DISTRIBUCIONES MARGINALES: Son las frecuencias (absolutas y relativas) de cada una de las variables. Para ello es suficiente con sumar todas las celdas correspondientes a cada una de las filas o de las columnas.

    ZONA 1

    ZONA 2

    ZONA 3

    ZONA 4

    dist. Marginal satisfacción

    MUCHO

    395

    593

    358

    200

    1546

    BASTANTE

    100

    182

    120

    94

    496

    POCO

    167

    233

    102

    90

    592

    NADA

    212

    249

    118

    115

    694

    dist. Marginal Zonas

    874

    1257

    698

    499

    3328

    En la fila “distribución marginal Zonas” está la suma de los totales de cada zona, es decir, la suma de cada columna. En la columna “distribución marginal Satisfacción del viaje”, está la suma de los totales de cada grado, es decir, la suma de cada fila.

    En las distribuciones marginales, podemos saber cuál es la moda de cada variable. En el caso de las zonas, la moda es la Zona 2 y en el caso de la satisfacción la moda es “Mucho”.

    El dato 3328 es el total de frecuencias, es decir N o n.

    3º. TABLA DE DISTRIBUCIÓN DE FRECUENCIAS RELATIVAS:

    Consiste en calcular las frecuencias relativas de cada una de las celdas, respecto al total de observaciones(n). Estos datos se ponen en una tabla nueva. Las frecuencias relativas se calculan ni/n si se calculan en tantos por uno, y se multiplica por 100 para ponerlo en %.

    Por ej:

    La tabla de distribuciones marginales es:

    ZONA 1

    ZONA 2

    ZONA 3

    ZONA 4

    dist. Marginal satisf.

    MUCHO

    395

    593

    358

    200

    1546

    BASTANTE

    100

    182

    120

    94

    496

    POCO

    167

    233

    102

    90

    592

    NADA

    212

    249

    118

    115

    694

    dist. Marginal zonas

    874

    1257

    698

    499

    3328

    El cálculo para la primera casilla sería:

    395

    ------ = 0,1187 * 100 = 11,87

    3328

    La tabla de distribución de frecuencias relativas sería:

    ZONA 1

    ZONA 2

    ZONA 3

    ZONA 4

    TOTAL

    MUCHO

    11,87

    17,82

    10,76

    6,01

    46,45

    BASTANTE

    3

    5,47

    3,61

    2,82

    14,90

    POCO

    5,02

    7

    3,06

    2,70

    17,79

    NADA

    6,37

    7,48

    3,55

    3,46

    20,85

    TOTAL

    26,26

    37,77

    20,97

    14,99

    100

    Las frecuencias relativas se suman por filas y por columnas. Para comprobar si está bien calculado, la suma de la fila Total y la suma de la columna Total, debe ser igual a 100.

    Una vez se ha completado la tabla, se comentan los datos, como cuál es el porcentaje mayor y el menor, etc. En este caso, el 17,82% de turistas, que se alojaron en la zona 2, les gustó mucho el viaje y el 2,7%, que estaban en la zona 4, les gustó poco el viaje. Pero a un 46,45% de los turistas, les gustó mucho el viaje (sin distinguir zona) y un 37,77% de los turistas se alojó en la zona 2.

    4º. TABLA DE PERFILES FILA (PORCENTAJES FILA):

    Recogen las frecuencias relativas de cada una de las celdas con respecto al total de las filas. Estos datos se ponen en una tabla nueva. Ahora se dividen los valores de la tabla original, entre el total de la fila de la tabla original. Los perfiles fila se calculan en tantos por uno, y se multiplica por 100 para ponerlo en %.

    La tabla de distribuciones marginales es:

    ZONA 1

    ZONA 2

    ZONA 3

    ZONA 4

    dist. Marginal Satisfacción.

    MUCHO

    395

    593

    358

    200

    1546

    BASTANTE

    100

    182

    120

    94

    496

    POCO

    167

    233

    102

    90

    592

    NADA

    212

    249

    118

    115

    694

    dist. Marginal Zonas

    874

    1257

    698

    499

    3328

    El cálculo para la primera casilla sería:

    395

    ------ = 0,2555 * 100 = 25,55

    1546

    Los perfiles fila se suman por filas. Para comprobar si está bien calculado, la suma de cada una de las filas debe ser igual a 100. Si vemos una tabla con una columna en la que todos los datos son 100, nos indica que es una tabla de perfiles fila.

    La tabla de perfiles fila quedaría:

    ZONA 1

    ZONA 2

    ZONA 3

    ZONA 4

    TOTAL

    MUCHO

    25,55

    38,36

    23,16

    12,94

    100

    BASTANTE

    20,16

    36,69

    24,19

    18,95

    100

    POCO

    28,21

    39,36

    17,23

    15,20

    100

    NADA

    30,55

    35,88

    17,00

    16,57

    100

    Hay que tener cuidado cuando se interpretan las tablas de perfilas fila. En este caso, de los datos de la fila “Nada” se interpretarían que del total de turistas que no les ha gustado nada el viaje, el 17% se ha alojado en la zona 3.

    Cada dato de la fila, es un parcial del 100% de la fila.

    5º. TABLA DE PERFILES COLUMNA (PORCENTAJES COLUMNA):

    Recogen las frecuencias relativas de cada una de las celdas con respecto al total de las columnas. Estos datos se ponen en una tabla nueva. Ahora se dividen los valores de la tabla original, entre el total dela columna de la tabla original. Los perfiles columna se calculan en tantos por uno, y se multiplica por 100 para ponerlo en %.

    La tabla de distribuciones marginales es:

    ZONA 1

    ZONA 2

    ZONA 3

    ZONA 4

    dist. Marginal Satisfacción.

    MUCHO

    395

    593

    358

    200

    1546

    BASTANTE

    100

    182

    120

    94

    496

    POCO

    167

    233

    102

    90

    592

    NADA

    212

    249

    118

    115

    694

    dist. Marginal Zonas

    874

    1257

    698

    499

    3328

    El cálculo para la primera casilla sería:

    395

    ------ = 0,4519 * 100 = 45,19

    874

    Los perfiles columna se suman por columnas. Para comprobar si está bien calculado, la suma de cada una de las columnas debe ser igual a 100. Si vemos una tabla con una fila en la que todos los datos son 100, nos indica que es una tabla de perfiles columna.

    La tabla de perfiles columna quedaría:

    ZONA 1

    ZONA 2

    ZONA 3

    ZONA 4

    MUCHO

    45,19

    47,18

    51,29

    40,08

    BASTANTE

    11,44

    14,48

    17,19

    18,84

    POCO

    19,11

    18,54

    14,61

    18,04

    NADA

    24,26

    19,81

    16,91

    23,05

    TOTAL

    100

    100

    100

    100

    En este caso, los datos de la columna “zona 2” se interpretarían como que de todos los turistas alojados en la zona 2, el 14,48% ha dicho que les ha gustado bastante el viaje.

    Cada dato de la columna, es un parcial del 100% de la columna.

    EJERCICIO: Se ha pedido a 219 usuarios de un servicio si han quedado satisfechos o no, teniendo en cuenta si ya lo habían utilizado antes. Hacer la descripción de datos de la siguiente tabla:

    REPETIDORES

    NO REPETIDORES

    SATISFECHOS

    86

    43

    NO SATISFECHOS

    36

    54

    219 = n o N

    Distribuciones marginales según repetición y satisfacción:

    REPETIDORES

    NO REPETIDORES

    DIST. MARGINAL SATIS.

    SATISFECHOS

    86

    43

    129

    NO SATISFECHOS

    36

    54

    90

    DISTRIBUCIÓN MARGINAL REP.

    122

    97

    219

    La moda es “repetidores” y en cuanto a la satisfacción, la moda es “satisfechos”.

    Frecuencias relativas: Todas las casillas se dividen entre N (219):

    REPETIDORES

    NO REPETIDORES

    TOTAL

    SATISFECHOS

    39,27

    19,63

    58,90

    NO SATISFECHOS

    16,44

    24,66

    41,10

    TOTAL

    55,71

    44,29

    100

    El 39,27% de los encuestados eran repetidores y están satisfechos y el 16,44 también son repetidores y no están satisfechos.

    Perfiles fila: ahora se divide por los nº marginales:

    REPETIDORES

    NO REPETIDORES

    TOTAL

    SATISFECHOS

    66,67

    33,33

    100,00

    NO SATISFECHOS

    40,00

    60,00

    100,00

    Del total de satisfechos, un 66,67% son repetidores. Del total de los no satisfechos, el 60% no son repetidores.

    Perfiles Columna:

    REPETIDORES

    NO REPETIDORES

    SATISFECHOS

    70,49

    44,33

    NO SATISFECHOS

    29,51

    55,67

    TOTAL

    100,00

    100,00

    Del total de repetidores, un 70,49% están satisfechos y del total de no repetidores un 55,67% no están satisfechos.

    4.3. ESTADÍSTICOS DE ASOCIACIÓN. INDEPENDENCIA Y ASOCIACIÓN

    18/12/2008

    Estadísticos de asociación para variables cualitativas nominales u ordinales:

    chi-cuadrado

    C de contingencia

    lambda

    Estadísticos de asociación para variables ordinales:

    Gamma

    CHI- CUADRADO Y C DE CONTINGENCIA

    Una medida sintética del grado de asociación se calcula a partir de la comparación entre los valores observados y los valores que uno esperaría encontrar en el caso de inexistencia de asociación.

    Las frecuencias esperadas son el producto de las frecuencias marginales dividido entre el total de observaciones N:

    ni x nj

    eij = ------------

    n

    Ahora en cada casilla tendremos las dos frecuencias: la absoluta observada y la esperada:

    Tabla de distribuciones marginales:

    ZONA 1

    ZONA 2

    ZONA 3

    ZONA 4

    dist. Marginal satisf.

    MUCHO

    395

    593

    358

    200

    1546

    BASTANTE

    100

    182

    120

    94

    496

    POCO

    167

    233

    102

    90

    592

    NADA

    212

    249

    118

    115

    694

    dist. Marginal zonas

    874

    1257

    698

    499

    3328

    Los cálculos de las frecuencias esperadas serían, entre otros:

    1546 x 874 1546 x 1257

    ------------- = 406,1 --------------- = 583,93

    • 3328

    496 x 874 496 x 1257

    ------------- = 130,26 --------------- = 184,37

    • 3328

    Tabla de frecuencias esperadas:

    ZONA 1

    ZONA 2

    ZONA 3

    ZONA 4

    dist. Marginal satisfacción

    MUCHO

    406,01

    583,93

    324,25

    231,81

    1546

    BASTANTE

    130,26

    187,34

    104,03

    74,37

    496

    POCO

    155,47

    223,6

    124,16

    88,764

    592

    NADA

    182,26

    262,13

    145,56

    104,06

    694

    dist. Marginal zonas

    874

    1257

    698

    499

    3328

    CHI-CUADRADO

    'Anlisis Cuantitativo de la Actividad Turstica'

    Se calcula a partir de las frecuencias absolutas (nij) observadas y de las esperadas (eij). Este estadístico suma para todas las celdas la diferencia, elevada al cuadrado, entre la frecuencia observada y la esperada. Si no existe ningún grado de asociación entre las variables cualitativas, los valores esperados serían iguales a los valores observados, con lo que el valor del estadísticos en este caso sería igual a cero.

    ZONA 1

    ZONA 2

    ZONA 3

    ZONA 4

    dist. Marginal satisf.

    MUCHO

    395

    593

    358

    200

    1546

    BASTANTE

    100

    182

    120

    94

    496

    POCO

    167

    233

    102

    90

    592

    NADA

    212

    249

    118

    115

    694

    dist. Marginal zonas

    874

    1257

    698

    499

    3328

    Para cada casilla calculamos:

    (395- 406,01)2 (593- 583,93)2

    -------------------- = 0,2986 -------------------- = 0,1409

    406,01 583,93

    Tabla de chi- cuadrado:

    ZONA 1

    ZONA 2

    ZONA 3

    ZONA 4

    MUCHO

    0,2986

    0,1409

    3,5127

    4,3644

    BASTANTE

    7,0294

    0,1523

    2,452

    5,1812

    POCO

    0,8549

    0,3951

    3,9562

    0,0172

    NADA

    4,8533

    0,6574

    5,2169

    1,1505

    La suma de todas estas cantidades proporciona el valor del estadístico chi-cuadrado, que en este caso es igual a 40,233. Dado que este valor no está cercano a cero, puede afirmarse que existe algún tipo de asociación entre las dos variables. En este caso, se puede afirmar que el nivel de satisfacción que el turista declara, tiene algún tipo de relación con la zona de estancia de sus vacaciones.

    El problema de este estadístico es que aunque tiene un límite inferior (cero), no proporciona un límite superior que permita referirnos al grado de asociación existente. Muchos estadísticos tiene una mayor utilidad si definen límites (tanto superior como inferior) a los que tomar como referencia. En este caso, el límite inferior es cero e indica la ausencia total de dependencia (o asociación) entre las dos variables, pero desconocemos el límite superior que puede tomar y, por tanto, no podríamos afirmar si la asociación detectada es fuerte o débil. Es decir que sólo nos indica si existe asociación o no entre las dos variables.

    χ2 ≈ 0 ==> no hay asociación

    χ2 ≠ 0 ==> hay asociación

    C DE CONTINGENCIA

    'Anlisis Cuantitativo de la Actividad Turstica'

    El estadístico C de Contingencia es una alternativa al estadístico Chi- cuadrado. El coeficiente C toma su valor mínimo cuando χ2 es cero, es decir, si entre las dos variables no existe asociación. El valor máximo del coeficiente, que se da cuando existe una asociación completa entre las variables, depende del número de modalidades de las variables. El máximo que puede alcanzar el coeficiente es uno (correspondiente a dos variables con infinitos valores).

    El coeficiente C de contingencia toma valores entre 0 y 1. Valores de C cercanos a 0 indican un grado de asociación pequeño. Valores cercanos a uno serían síntoma de asociación entre las variables.

    0 ≤ C ≤ 1

    El límite máximo del coeficiente C es:

    'Anlisis Cuantitativo de la Actividad Turstica'

    El mínimo (I, J) significa que hay que coger el número que sea menor del total de columnas o filas. Si hay 3 columnas y 2 filas, escogemos el 2. El límite máximo de C sirve para poder comparar el valor de C con su valor máximo.

    Por ej: 0 ≤ C ≤ 0,739 y el coeficiente C tiene un valor de 0,534 calcularemos el porcentaje de C respecto a su valor máximo:

    0,534

    ------- x 100 = 72,26% de C

    0,739

    Al poder comparar el valor de C entre 0 y 100 podremos decidir si el tipo de asociación es muy débil, débil, fuerte o muy fuerte.

    EJEMPLO: Se ha pedido a 219 usuarios de un servicio si han quedado satisfechos o no, teniendo en cuenta si ya lo habían utilizado antes. Hacer la descripción de datos de la siguiente tabla:

    REPETIDORES

    NO REPETIDORES

    SATISFECHOS

    86

    43

    NO SATISFECHOS

    36

    54

    219 = n o N

    Los valores esperados serán:

    REPETIDORES

    NO REPETIDORES

    DIST. MARGINAL SATIS.

    SATISFECHOS

    71,8630137

    57,1369863

    129

    NO SATISFECHOS

    50,1369863

    39,8630137

    90

    DISTRIBUCIÓN MARGINAL REP.

    122

    97

    219

    La tabla de chi-cuadrado será:

    REPETIDORES

    NO REPETIDORES

    SATISFECHOS

    2,781

    3,498

    NO SATISFECHOS

    3,986

    5,014

    La suma de estos valores, es decir, chi-cuadrado es 15,279.

    Y el estadístico C de contingencia es:

    15,279

    --------------- = 0,255

    219 + 15,279

    Su posible valor máximo es:

    1

    1 - -------- = 0,707

    2

    El % de C sería:

    0,255

    ------- x 100 = 36%

    0,707

    Es decir, que el estadístico alcanza un 36% de su máximo, indicando que hay una asociación moderada entre la satisfacción respecto al servicio y el haber sido usuario anterior.

    TEMA 5. ANÁLISIS CONJUNTO DE DOS VARIABLES CUANTITATIVAS

    15/01/2009

    5.1. RELACIÓN ENTRE DOS VARIABLES CUANTITATIVAS. REPRESENTACIÓN GRÁFICA.

    En el caso de las variables cuantitativas, estudiamos su relación, no su asociación.

    Relación lineal: relación entre dos variables que puede representarse aproximadamente como una línea recta.

    La asociación no implica causalidad

    Dos tipos de asociación lineal: positiva y negativa.

    'Anlisis Cuantitativo de la Actividad Turstica'

    'Anlisis Cuantitativo de la Actividad Turstica'

    Estas variables siempre serán unitarias, por lo que no habrá frecuencias. Tendremos parejas de valores (X,Y) que se pueden representar en un eje de coordenadas.

    Si los puntos están exactamente sobre la recta, diremos que la relación lineal es exacta y la ecuación de la recta sería:

    Yi = a + b Xi

    Si los puntos están dispersos, en forma de nube, se dice que no existe relación lineal:

    'Anlisis Cuantitativo de la Actividad Turstica'

    Pueden existir otros tipos de relaciones entre las variables: parabólicas, etc...

    5.2.MEDIDAS O ESTADÍSTICOS DE RELACIÓN LINEAL: COVARIANZA Y CORRELACIÓN

    COVARIANZA: mide la dispersión entre las dos variables estudiadas, es decir, que mide la dispersión entre ambas variables.

    'Anlisis Cuantitativo de la Actividad Turstica'

    Con esta fórmula, necesitaremos calcular la media de cada variable y hacer la siguientes columnas:

    X

    Y

    _

    Xi - x

    _

    Yi -y

    _ _

    (Xi - x)* (Yi -y)

    x1

    y1

    x2

    y2

    xn

    yn

    ∑=

    Hay otra fórmula que es más fácil y rápida, y que ayuda a evitar errores para calcular la covarianza, que es:

    'Anlisis Cuantitativo de la Actividad Turstica'

    Para aplicar esta fórmula, nos basta calcular la media de cada variable y los productos de las variables X e Y.

    X

    Y

    Xi *Yi

    x1

    y1

    x2

    y2

    xn

    yn

    n ∑=

    PROPIEDADES DE LA COVARIANZA:

    • No tiene limite inferior ni superior (puede ser positiva o negativa)

    • Depende de las unidades de medida de las variables, por lo que no se puede comparar rápidamente con una cifra estándar que permita hablar de mucha o poca relación.

    • El signo de la covarianza es importante porque determina la pendiente de la recta y nos indica el tipo de relación:

    Covarianza positiva (sxy > 0) ==>Asociación lineal positiva.

    Covarianza negativa (sxy < 0) ==>Asociación lineal negativa.

    Covarianza nula (sxy = 0) ==>Asociación lineal inexistente.

    Lo que no nos indica es cómo es la recta, es decir, no indica cuán dispersos están los puntos respecto a la recta (IMP).

    Otras Propiedades de la covarianza:

    • Si se suma a la variable X una constante b y a la variable Y una constante c, la covarianza entre las dos nuevas variables transformadas será igual a la covarianza original.

    • Si se multiplica la variable X por una constante b y la variable Y por una constante c, la covarianza entre las dos nuevas variables transformadas será igual a la covarianza original multiplicada por las constantes bc.

    • La covarianza de una variable y una constante es cero.

    COEFICIENTE DE CORRELACIÓN DE PEARSON (COEFICIENTE DE CORRELACIÓN LINEAL SIMPLE)

    Es el cociente entre la covarianza y el producto de las desviaciones estándar de las 2 variables.

    'Anlisis Cuantitativo de la Actividad Turstica'

    OJO, en esta fórmula empleamos desviaciones típicas, no varianzas. La fórmula desarrollada sería:

    'Anlisis Cuantitativo de la Actividad Turstica'

    O sea, que la fórmula más sencilla es (hay que tener en cuenta que n es el número de observaciones):

    'Anlisis Cuantitativo de la Actividad Turstica'

    X

    Y

    _

    x2

    _

    y2

    Xi *Yi

    _

    n * x2

    _

    n * y2

    Xi 2

    x1

    y1

    x12

    x2

    y2

    x22

    xn

    yn

    xn2

    ∑Xi2=

    PROPIEDADES DEL COEFICIENTE DE CORRELACIÓN (examen):

    • Tendrá el mismo signo que la covarianza

    • Su valor está entre -1 y 1

    • No depende de las unidades de medida de las variables

    Asociación lineal positiva ==> Sxy> 0 ==> rxy>0

    Asociación lineal negativa ==> Sxy< 0 ==> rxy <0

    Ausencia de asociación lineal ==> Sxy= 0 ==> rxy =0

    - El valor del coeficiente de correlación entre dos variables no se modifica si una (o ambas) variables se multiplica por una constante.

    - El coeficiente de correlación toma valores en el intervalo -1 y 1. Los valores máximo y mínimo se alcanzan cuando se da una relación lineal exacta entre las dos variables, de tipo positivo o de tipo negativo, respectivamente. (Cuanto más cerca esté de cero, peor).

    - Valores del coeficiente próximos a 1 indican la existencia de una asociación positiva fuerte entre las variables; valores cercanos a -1 indican la existencia de una asociación negativa fuerte entre las variables; valores cercanos a cero señalan la ausencia de una asociación lineal.

    El coeficiente de correlación toma valores entre -1 y 1.

    rxy = 1 Asociación lineal exacta de tipo positivo.

    rxy = -1 Asociación lineal exacta de tipo negativo.

    rxy = 0 Ausencia de asociación lineal.

    Por ejemplo:

    Si rxy = 0,95 ==> asociación lineal positiva fuerte

    Si rxy = 0,6 ==> asociación lineal positiva moderada

    Si rxy = 0,2 ==> asociación lineal positiva leve

    Ejemplo:

    'Anlisis Cuantitativo de la Actividad Turstica'

    COEFICIENTE DE CORRELACIÓN DE RANGOS DE SPEARMAN (sólo para variables cuantitativas continuas)

    Los rangos de cada variable son los valores que se les da, teniendo en cuenta el orden que tendrían los valores de las variables, si las ordenáramos de menor a mayor. Con ello se obtiene una medida de grado de relación en los posicionamientos de las observaciones de las dos variables. Tiene las mismas características que el coeficiente de Pearson.

    Si por ejemplo, tenemos estas dos variables:

    X

    Y

    19

    73

    55

    110

    110

    9

    3

    230

    220

    150

    n = 5

    Y ordenamos de menor a mayor cada una de ellas:

    X

    Y

    Rgx

    Rgy

    19

    73

    2

    2

    55

    110

    3

    3

    110

    9

    4

    1

    3

    230

    1

    5

    220

    150

    5

    4

    n = 5

    En el caso de que se repitan valores, no se les asignarían rangos consecutivos, sino que haríamos el promedio de los rangos que les corresponderían y les asignaríamos el mismo rango a todos los valores repetidos y los rangos promediados ya no se asignarían a ningún otro valor:

    X

    Rgx

    7

    3

    9

    5

    4

    2

    9

    5

    3

    1

    9

    5

    10

    7

    12

    8

    El valor 9 se repite 3 veces y ocuparía los rangos 4, 5 y 6, por lo tanto el nuevo rango se calcularía:

    4 + 5 + 6 15

    ------------- = ------- = 5

    • 3

    La fórmula para calcular el coeficiente de correlación de los rangos de las variables o correlación de Spearman es:

    n

    6 * ∑ di2

    i = 1

    RSpearman = ρ = 1 - ---------------

    n3 - n

    Donde n es el número de observaciones y di es la diferencia entre los rangos:

    di = Rango(Xi) - Rango (Yi)

    Según el ejemplo anterior, calcularíamos:

    X

    Y

    Rgx

    Rgy

    di

    di2

    19

    73

    2

    2

    0

    0

    55

    110

    3

    3

    0

    0

    110

    9

    4

    1

    3

    9

    3

    230

    1

    5

    -4

    16

    220

    150

    5

    4

    1

    1

    n = 5 ∑= 26

    6 * 26 156

    ρ = 1 - ---------- = 1 - ------- = -0,3

    53 - 5 120

    Para estas variables, el coeficiente de correlación de Pearson sale - 0,153, pero hay que tener en cuenta que ambos coeficientes no tienen por qué tener valores parecidos.

    EJEMPLO: Calcular la covarianza según este cuadro de datos:

    X

    Y

    _

    Xi - x

    _

    Yi -y

    _ _

    (Xi - x)* (Yi -y)

    x1

    y1

    -2

    -6

    12

    x2

    y2

    -1

    -3

    3

    x3

    y3

    -4

    -2

    8

    x4

    y4

    0

    -5

    0

    x5

    y5

    2

    -4

    -8

    x6

    y6

    3

    6

    18

    x7

    y7

    2

    4

    8

    ∑= 41

    41 'Anlisis Cuantitativo de la Actividad Turstica'

    sxy = ------- = 5,857

    7

    La covarianza es positiva y por lo tanto, podría existir relación lineal positiva entre estas dos variables. Para saber si hay asociación lineal y de qué tipo, tendríamos que calcular la correlación de Pearson.

    EJEMPLO: si la covarianza entre dos variables es 0,558, la varianza de X es 0,5 y la de Y es 0,75, calcular el coeficiente de correlación de Pearson.

    sXY 0,558

    rXY = ---------- = -------------- = 0,907

    sX * sY 0,5 * 0,75

    OJO, como la varianza es sx2 hay que hacer la raíz cuadrada, para calcular las desviaciones estándar.

    El comentario sobre el resultado sería que hay una fuerte correlación lineal positiva entre las variables X e Y.

    (ver otros ejemplo del libro, tema 5)

    5.3. RELACIÓN DE CAUSALIDAD O DE DEPENDENCIA

    La asociación entre dos variables no implica causalidad o dependencia entre ellas. Proponer una relación de dependencia (suponer que una es dependiente de la otra) supone añadir una hipótesis adicional. Normalmente llamamos Y a la variable dependiente y calculamos sus valores en función de X, que es la variable independiente. No hay que confundir asociación con dependencia.

    Cuando la variable X toma valores, ocasiona variaciones en la variable Y, por lo tanto, Y depende de X. Se estudian los valores de Y con los diferentes valores de X con la función de la recta. Ajustar una recta (examen)a una nube de puntos supone determinar los valores de a y b. Esta recta se llama recta de regresión simple.

    Si creemos que la variable X es causa de la variable Y, escribimos la relación como:

    Yi = a+bX, i = 1, 2, …, n

    Y: variable endógena, variable dependiente o variable a explicar.

    X: variable exógena, variable independiente o variable explicativa.

    La recta Yi = a + bX se conoce como recta de regresión simple.

    a: es el valor que tomaría la variable Y cuando el valor de X es cero. Se conoce como término independiente de la regresión.

    b: mide el impacto que una variación en una unidad de la variable X tiene sobre la variable Y. Se conoce como la pendiente de la recta.

    Pendiente positiva Pendiente negativa

    b

    b

    x1 x2 x2 x1

    Las observaciones se pueden situar más o menos sobre la recta, aunque difícilmente lo harán de manera perfecta. Cuanto más cerca estén las observaciones de la recta, mejor, pero puede que sólo haya algunos puntos sobre la recta, o incluso que no haya ninguno. La distancia del punto a la recta se llama error de ajuste. El punto sería el valor observado y el punto sobre la recta sería el valor ajustado.

    El ajuste de una recta puede expresarse como:

    Yi = a + bXi + ei

    Error de ajuste: diferencia entre los valores observados y los valores ajustados:

    ei = Yi - a - bXi

    En este marco de causalidad resulta necesario disponer no sólo de una medida de grado de asociación (el coeficiente de correlación lineal), sino además de los valores numéricos de a y b. El valor de a es el valor que tomaría la variable Y cuando el valor de X es cero. El valor de b mide el impacto que una variación en una unidad de la variable X tiene sobre la variable Y y es la pendiente de la recta:

    ∆Yi

    b = ---------

    ∆Xi

    5.4. OBTENCIÓN DE a Y b POR MÍNIMOS CUADRADOS ORDINARIOS (M.C.O)

    El mínimo error global de un ajuste se obtiene utilizando los valores de a y b que minimizan la siguiente expresión:

    n n

    Mínimo∑ei 2 = ∑(Yi - a - bXi)2

    i = 1 i = 1

    Los valores de a y b deben elegirse para que se alcance el mínimo de la suma de cuadrados de los errores. Este principio se denomina de mínimos cuadrados ordinarios (mco). Las fórmulas para a y b que se obtienen como resultados son las siguientes:

    _ _

    a = y - bx

    n _ _

    ∑( Xi - x) * (Yi - y)

    i = 1

    b = --------------------------

    n _

    ∑( Xi - x) 2

    i = 1

    • Es conveniente calcular primero la b

    • Es importante decidir cuál va a ser la variable independiente (X)

    Una fórmula más sencilla sería (examen):

    n _ _

    ∑( Xi * Yi) -(n* x * y)

    i = 1 sXY

    b = ------------------------------ = ----------

    n _ sX2

    ∑ Xi2 - (n* x2)

    i = 1

    Con esta fórmula, las columnas que debemos calcular son:

    X

    Y

    Xi * Yi

    Xi2

    EJEMPLO:

    n=10

    X

    Y

    17

    -21

    20

    -20

    23

    -23

    24

    -24

    24

    -30

    25

    -31

    25

    -25

    26

    -18

    28

    -27

    30

    -29

    Calculamos las medias de las variables y después x*y y x2:

    _ 242 242 _ -248 -248

    x = ----------- = ---------- = 24,2 y = ----------- = ---------- = -24,8

    n 10 n 10

    X

    Y

    X*Y

    X2

    17

    -21

    -357

    289

    20

    -20

    -400

    400

    23

    -23

    -529

    529

    24

    -24

    -576

    576

    24

    -30

    -720

    576

    25

    -31

    -775

    625

    25

    -25

    -625

    625

    26

    -18

    -468

    676

    28

    -27

    -756

    784

    30

    -29

    -870

    900

    sumatorios

    242

    -248

    -6076

    5980

    Ahora, ya se puede calcular a y b de la recta:

    n _ _

    ∑( Xi * Yi) -(n* x * y)

    i = 1 (-6076) - (10*24,2*(-24,8))

    b = ----------------------------- = ------------------------------------ = -0,6 (pendiente neg.)

    n _ 5980 - (10* (24,2)2)

    ∑ Xi2 - (n* x2)

    i = 1

    _ _

    a = y - bx ==> a = (-24,8) - ((-0,6)*24,2) ==> a = -10,2

    El ajuste de la recta sería:

    Yi = a + bXi Y = -10,2 + (-0,6)X Y = -10,2 -0,6X

    La pendiente es negativa y un incremento de X disminuiría en 0,6 unidades el valor de Y. Cuando X aumenta, Y disminuye y cuando X disminuye, Y aumenta.

    5.5. COEFICIENTE DE DETERMINACIÓN: BONDAD DEL AJUSTE LINEAL

    Este estadístico mide hasta qué punto la variable exógena X de la regresión explica o determina la evolución de la variable endógena Y.

    Entre el coeficiente de correlación lineal (coeficiente de correlación de Pearson) rxy y el coeficiente de determinación R2, se da la siguiente relación:

    'Anlisis Cuantitativo de la Actividad Turstica'
    'Anlisis Cuantitativo de la Actividad Turstica'

    El coeficiente de determinación toma valores entre 0 y 1. Valores cercanos a cero indican que el ajuste es insuficiente, valores cercanos a uno se interpretarán como un buen ajuste del modelo.

    'Anlisis Cuantitativo de la Actividad Turstica'

    El coeficiente de determinación mide la bondad del ajuste de una recta a una nube de puntos. El coeficiente de correlación lineal (coeficiente de correlación Pearson) mide el grado de asociación lineal entre dos variables.

    Un coeficiente de correlación lineal igual a 1 o -1 indica que los puntos están situados sobre una recta (con pendiente positiva o negativa respectivamente) y esta situación se reflejaría en el coeficiente de determinación con un valor igual a 1 (ajuste perfecto de la recta). Si el coeficiente lineal o el coeficiente de determinación son iguales a cero, no existirá una relación lineal entre las dos variables.

    • Si no existe relación lineal entre X e Y: r XY = 0 y R2 = 0

    (valores de 0 o cercanos a 0)

    • Si existe una relación lineal positiva exacta entre X e Y: r XY = 1 y R2 = 1

    (valores de 1 o cercanos a 1)

    • Si existe una relación lineal negativa exacta entre X e Y: r XY = -1 y R2 = 1

    (valores de 1 o cercanos a 1)

    Por ejemplo, si los valores son de 0,5 diríamos que la relación lineal es moderada.

    HACER EJEMPLOS DEL LIBRO. TEMA 6.

    EJEMPLO: A una muestra de ciudadanos se les ha solicitado su opinión sobre la actual situación turística en su región (entre 1 y 5: 1, mala; 5 excelente) y el efecto que creen que tendrá un impuesto turístico (entre 1 y 5: 1, la situación empeorará mucho; 5 la situación mejorará mucho). En este caso, el efecto del impuesto en la situación turística es la variable dependiente.

    n

    ∑xi

    ∑yi

    ∑xi* yi

    ∑xi2

    ∑yi2

    20

    57

    49

    131

    181

    127

    _ 57 57 _ 49 49

    x = ----------- = ---------- = 2,85 y = ----------- = ---------- = 2,45

    n 20 n 20

    Ahora, ya se puede calcular a y b de la recta:

    n _ _

    ∑( Xi *Yi) -(n* x * y)

    i = 1 131- (20* 2,85* 2,45) -8,65

    b = ----------------------------- = ----------------------------- = ------ = -0,46 (pendiente neg.)

    n _ 1812 - (20* 2,852) 18,55

    ∑ Xi2 - (n* x2)

    i = 1

    _ _

    a = y - bx ==> a = 2,45 - ((-0,46)*2,85) ==> a = 3,778

    La recta de regresión sería:

    Yi = a + bXi Y = 3,778 + (-0,46)X Y = 3,778 -0,46X

    Cuanto más valoramos la situación turística (X) menos se valora el efecto del impuesto (Y). La recta tiene pendiente negativa, por lo tanto, cuanto mayor es X, menor es Y.

    Ahora calculamos rxy:

    'Anlisis Cuantitativo de la Actividad Turstica'

    131 - (20*2,85* 2,45) -8,65

    rxy = ----------------------------------------------- = ------------- = -0,76

    4,30 * 2,63

    181- (20*2,852) * 127- (20*2,452)

    R2 = rxy2 R2 = -0,762 R2 = 0,5776 ≈ 0,58 ==> 0,58 * 100 = 58%

    El resultado de R2 indica que la recta es entre moderada y buena. La percepción de la situación turística explica bastante bien la valoración del efecto del impuesto, observándose que cuanto mejor se considera la situación actual, peor valoración se hace del impuesto.

    EJEMPLOS IMPORTANTES:

    La demanda turística (gasto turístico, número de turistas, etc) es siempre una variable dependiente de las siguientes variables independientes:

  • Con pendiente negativa: los precios del paquete turístico y Precios relativos país destino/ país emisor. Cuando estos precios suben, el gasto turístico y número de turistas bajan.

  • Con pendiente positiva: tipo de cambio de moneda, Precios relativos de los países competidores (comparando precios turísticos), Precios de los paquetes de los competidores y Renta del país emisor. Cuando estas variables suben, el gasto turístico y el número de turistas suben. Cuando estas variables bajan, el gasto turístico y el número de turistas también bajan.

  • Demanda i = a + b* Renta i

    Demanda i = a + b* Precio del Paquete i

    ¡¡¡OJO PARA LAS FÓRMULAS!!!: NO ES LO MISMO ∑Xi2 QUE ( ∑ Xi)2

    Lo que aparece en las fórmulas es ∑Xi2 ES:

    Xi

    Xi2

    X1

    X12

    X2

    X22

    Xn

    Xn2

    ∑Xi2=

    El fallo es hacer ( ∑ Xi)2:

    Xi

    X1

    X2

    Xn

    ∑( Xi) = .....y después al cuadrado

    26/02/2009

    TEMA 6. LA EVOLUCIÓN TEMPORAL DE UNA VARIABLE CUANTITATIVA

    Cuando se estudia la evolución temporal de una variable cuantitativa, se estudian a la vez dos variables. Una de las variables es el tiempo, que siempre es cuantitativo y la otra es cualquier variable cuantitativa que cambia a lo largo del tiempo.

    6.1. LA PERSPECTIVA TEMPORAL EN EL ANÁLISIS DE UNA VARIABLE.

    Lo que interesa es observar los valores de una determinada variable a través del tiempo, para estudiar su evolución. Es decir, que lo que se quiere es conocer qué ha sucedido en el pasado, qué sucede en el presente y hacer predicciones de lo que puede suceder en el futuro, siendo ésta última la opción más interesante.

    Se trata de estudiar los valores de la variable en diferentes momentos del tiempo.

    VARIABLE TEMPORAL: también llamadas series temporales, cronológicas o históricas. En este caso, estudiamos variables temporales cuantitativas.

    TIEMPO: elemento fundamental en una serie temporal. Es una variable discreta que siempre toma valores consecutivos y variando de uno en uno (de día en día, de mes en mes, de trimestre en trimestre, de año en año...)

    Por ejemplo, si tenemos la siguiente serie mensual:

    ENERO

    FEBRERO

    MARZO

    ABRIL

    2001

    MAYO

    JUNIO

    JULIO

    AGOSTO

    SEPTIEMBRE

    OCTUBRE

    NOVIEMBRE

    DICIEMBRE

    ENERO

    FEBRERO

    MARZO

    ABRIL

    MAYO

    2002

    JUNIO

    JULIO

    AGOSTO

    SEPTIEMBRE

    OCTUBRE

    NOVIEMBRE

    DICIEMBRE

    La variable Tiempo: enero, febrero, marzo... no nos sirve para trabajar con ella, por lo tanto, se le asignan números consecutivos, que serán los valores de la variable tiempo (t):

    ENERO

    1

    FEBRERO

    2

    MARZO

    3

    ABRIL

    4

    2001

    MAYO

    5

    JUNIO

    6

    JULIO

    7

    AGOSTO

    8

    SEPTIEMBRE

    9

    OCTUBRE

    10

    NOVIEMBRE

    11

    DICIEMBRE

    12

    ENERO

    13

    FEBRERO

    14

    MARZO

    15

    ABRIL

    16

    MAYO

    17

    2002

    JUNIO

    18

    JULIO

    19

    AGOSTO

    20

    SEPTIEMBRE

    21

    OCTUBRE

    22

    NOVIEMBRE

    23

    DICIEMBRE

    24

    Si se trata de una serie anual:

    1900

    1

    1901

    2

    1902

    3

    1903

    4

    1904

    5

    1905

    6

    1906

    7

    1907

    8

    1908

    9

    Y se haría lo mismo si tuviéramos otras medidas de tiempo, como horas, semanas, etc. En la tabla, añadiríamos otra columna para los valores de la variable Xi, por ejemplo temperaturas.

    Siempre se tienen en cuenta dos variables, pero una de ellas Yi, se estudia asociada a la otra (tiempo). La variable dependiente será Yi, y la independiente será el tiempo.

    Los gráficos de las variables temporales aportan mucha información. En este estudio, la variable Xi se pone en el eje vertical y la variable tiempo (t) se pone en el eje horizontal:

    6.2. COMPONENTES SISTEMÁTICAS DE UNA SERIE TEMPORAL

    • Tendencia

    • Estacionalidad

    • Ciclo

    No todas las series temporales siguen el mismo patrón de comportamiento, pero se pueden sistematizar algunas características de su comportamiento.

    Tendencia: es la evolución GLOBAL de una serie temporal dentro del período que se observa. Es la evolución de la serie en el largo plazo. En turismo, muchas series tienen un comportamiento tendencia claramente creciente. La tendencia puede ser creciente, decreciente o constante (estancada). En el gráfico anterior, vemos que crece en los meses de verano y después decrece. Cuando se estudia la tendencia, hay que responder a dos preguntas: ¿hay tendencia?, y si la hay, ¿de qué tipo es la tendencia?.

    Estacionalidad o Componente estacional: representa el conjunto de pautas que ocurren de modo muy similar, en los mismos períodos (meses, trimestres, etc.), repitiéndose sistemáticamente cada año. (OJO: no tiene sentido hablar de estacionalidad si son datos anuales). Para poder estudiar la estacionalidad necesitaremos los datos de dos años, como mínimo. En general, el comportamiento estacional de las series temporales se debe al clima, las costumbres vacacionales, sociales y religiosas y a los efectos del calendario. Cuando se estudia la estacionalidad, hay que responder a dos preguntas: ¿hay estacionalidad? y si la hay, ¿de qué tipo es la estacionalidad?.

    Ciclo o componente cíclica: representa las oscilaciones que se repiten cada cierto número de años. Sólo se busca ciclo en las series anuales. Siempre consideraremos que si existe ciclo, se encuentra incluido en la tendencia. Cuando se estudia el ciclo, hay que responder si hay ciclo o no lo hay. (OJO: no tiene sentido hablar de ciclo si NO son datos anuales).

    6.3. COMPONENTE NO SISTEMÁTICA DE UNA SERIE TEMPORAL

    Irregularidad o componente irregular: incluye las variaciones aleatorias de la serie. Esta componente refleja los movimientos de muy corto plazo. Es decir, todo lo que se produce entre observaciones consecutivas, pero que no se reproduce de forma similar en los mismos períodos en años diferentes:

    'Anlisis Cuantitativo de la Actividad Turstica'

    En este gráfico, vemos una irregularidad en el mes de julio, es un valor que se “dispara” respecto a los demás.

    EJEMPLO: Tenemos el siguiente gráfico que representa las ventas de un restaurante a lo largo de cada trimestre entre los años 2000 y 2002 (examen):

    • La tendencia es creciente. (hay que mirarlo en general, sube durante los tres primeros trimestres y baja en el cuarto durante los 3 años).

    • Estacionalidad: el tercer trimestre de los tres años tiene ventas muy superiores.

    • Ciclos: sólo hay información de tres años y no basta para establecer si hay ciclo. Lo ideal es tener la información de 6 o 7 años.

    • Irregularidad: no se observan irregularidades en este gráfico.

    6.4. ANÁLISIS DE LA TENDENCIA Y DE ESTACIONALIDAD

    El hecho de que en una misma serie temporal haya varias componentes (tendencia, estacionalidad e irregularidad), hace que el análisis de cada una de estas componentes por separado, resulte muy complicado.

    Por lo tanto, es conveniente aislar cada una de estas componentes. En el ámbito turístico es muy frecuente que las series combinen estacionalidad, tendencia e irregularidad, aunque algunas series pueden no tener estacionalidad.

    Debido a eso, se distingue entre series con tendencia y estacionalidad y series sólo con tendencia. Tendencia y estacionalidad son las componentes más importantes.

    SERIES TEMPORALES CON TENDENCIA E IRREGULARIDAD (SIN ESTACIONALIDAD)

    En el caso de series que sólo tienen tendencia e irregularidad, aislar la tendencia significa eliminar la irregularidad.

    Si una serie no tiene estacionalidad y por tanto, muestra un crecimiento o un decrecimiento en el tiempo, se trata de determinar la relación existente entre la propia serie y el tiempo, es decir, ajustar la tendencia a una recta. La recta de regresión será:

    Vt = a + b*t

    Es decir, la recta de las ventas en función del tiempo será igual a la variable a más la variable b multiplicada por el tiempo. Siempre hay que calcular la bondad del ajuste lineal (R2). La b indica la pendiente de la recta y también el tipo de tendencia:

    b positiva ==> pendiente positiva ==> tendencia creciente

    b negativa ==> pendiente negativa ==> tendencia decreciente

    Es importante tener claro cuál es la variable dependiente (por ej, las ventas de un restaurante) y cuál es la variable independiente (t). Normalmente, la variable independiente se llama X, pero en este caso, la llamaremos t de tiempo y en los gráficos se representa en el eje horizontal. La variable dependiente suele llamarse Y, pero en este caso la llamaremos en función del dato que nos den, por ej V de ventas del restaurante y en los gráficos se representará en el eje vertical.

    SERIES TEMPORALES CON ESTACIONALIDAD Y CON TENDENCIA CONSTANTE O CON UNA LIGERA TENDENCIA LINEAL

    En este caso, aislar la tendencia significa eliminar la irregularidad y la estacionalidad.

    El coeficiente estacional es la media aritmética (diaria, semanal, mensual, trimestral..) menos la media aritmética global:

    coeficiente estacional = media aritmética - media aritmética global

    EJEMPLO: Tenemos los siguientes datos de ventas de 4 años (necesitamos información de dos años como mínimo):

    trimestre

    ventas

    1997

    I

    20

    II

    107

    III

    136

    IV

    45

    1998

    I

    23

    II

    109

    III

    144

    IV

    51

    1999

    I

    22

    II

    115

    III

    145

    IV

    53

    2000

    I

    19

    II

    115

    III

    143

    IV

    52

    Confeccionamos una nueva tabla para poder hacer las operaciones. En esta tabla, ya se observa la estacionalidad y el tercer trimestre es el más alto en los cuatro años:

    1997

    1998

    1999

    2000

    I

    20

    23

    22

    19

    II

    107

    109

    115

    115

    III

    136

    144

    145

    143

    IV

    45

    51

    53

    52

    __

    1º Calculamos la media aritmética trimestral Vt (porque los datos son trimestrales):

    1997

    1998

    1999

    2000

    media Vt

    I

    20

    23

    22

    19

    21

    II

    107

    109

    115

    115

    111,5

    III

    136

    144

    145

    143

    142

    IV

    45

    51

    53

    52

    50,25

    __

    2º Calculamos la media global. Se puede hacer sumando la Vt y se hace la media o bien, se suman todos lo valores y se divide entre n:

    21 + 111,5 + 142 + 50, 25

    -------------------------------------- = 81,1875 es la media global

    4

    3º Calculamos el coeficiente estacional, es decir cada media trimestral menos la global (por este orden, ya que el signo del resultado es importante):

    1997

    1998

    1999

    2000

    media Vt

    coef. Estacional

    I

    20

    23

    22

    19

    21

    -60,1875

    II

    107

    109

    115

    115

    111,5

    30,3125

    III

    136

    144

    145

    143

    142

    60,8125

    IV

    45

    51

    53

    52

    50,25

    -30,9375

    media global

    81,1875

    La temporada más baja en ventas es la del coeficiente negativo más pequeño (-60,1875).

    La temporada más alta en ventas es la del coeficiente positivo más grande (60,8125).

    Desestacionalizar: eliminar la estacionalidad de la serie. A cada valor (en este caso, trimestral) hay que restarle el coeficiente estacional correspondiente:

    • A las ventas del primer trimestre, restarle el coeficiente estacional del primer trimestre.

    • A las ventas del segundo trimestre, restarle el coeficiente estacional del segundo trimestre.

    • A las ventas del tercer trimestre, restarle el coeficiente estacional del tercer trimestre.

    • A las ventas del cuarto trimestre, restarle el coeficiente estacional del cuarto trimestre.

    trimestre

    ventas

    Desestacionalizar

    I

    20

    80,1875

    II

    107

    76,6875

    III

    136

    75,1875

    IV

    45

    75,9375

    I

    23

    83,1875

    II

    109

    78,6875

    III

    144

    83,1875

    IV

    51

    81,9375

    I

    22

    82,1875

    II

    115

    84,6875

    III

    145

    84,1875

    IV

    53

    83,9375

    I

    19

    79,1875

    II

    115

    84,6875

    III

    143

    82,1875

    IV

    52

    82,9375

    6.5. TASAS DE VARIACIÓN O DE CRECIMIENTO

    Las tasas de variación implican siempre una proporción y sirven para establecer comparaciones temporales; esto implica la comparación de los valores de una variable en diferentes momentos del tiempo. Las tasas siempre son cocientes o proporciones y deben expresarse en %.

    Ejemplos:

    Plazas ocupadas

    Tasa de ocupación hotelera = ---------------------------- X 100

    Plazas ofertadas

    Nº de ocupados

    Tasa de paro = ---------------------------- X 100

    Población activa

    Tasa de variación de un período respecto al inmediatamente anterior: La tasa de variación porcentual o relativa expresa, en términos relativos, el incremento (o decremento) de un valor respecto a su valor previo y se calcula:

    'Anlisis Cuantitativo de la Actividad Turstica'

    Por ejemplo, la tasa de variación del IV trimestre respecto al III trimestre de 1997 de la tabla anterior, sería:

    Ventas IV trim - Ventas III trimestre

    TIV = ------------------------------------------------- X 100

    Ventas III trimestre

    45 - 136

    TIV = ----------------- X 100 = -66,91%

    136

    El resultado indica un decrecimiento de casi el 67%

    Tasa de variación de un período respecto al mismo periodo del año anterior: tasa interanual: expresa la variación de una valor de la variable respecto al valor del año anterior.

    La tasa interanual para una serie mensual es:

    'Anlisis Cuantitativo de la Actividad Turstica'

    La tasa interanual para una serie trimestral es:

    'Anlisis Cuantitativo de la Actividad Turstica'

    Por ejemplo, la variación interanual del primer trimestre de 1999, respecto al del año anterior de los datos del ejemplo anterior, sería:

    Ventas I trim1999 - Ventas I trim1998

    TI, 1999 = ------------------------------------------------- X 100

    Ventas I trim1998

    22 - 23

    TI, 1999 = --------------- X 100 = - 4,5%

    23

    El resultado indica un decrecimiento interanual del 4,5%.

    6.6. NÚMEROS ÍNDICE

    (A PARTIR DE LAS TASAS DE VARIACIÓN)

    Para facilitar la comparación de una variable en diferentes momentos del tiempo, hace falta analizar la evolución de cada variable en referencia a un mismo momento dado.

    Un número índice representa la variación (creciente o decreciente) que experimenta en cada período una variable con referencia a un instante temporal, que se considera como referencia, llamado período base del índice.

    Un índice simple es el cociente entre las dos magnitudes que se quieren comparar.

    De forma general, si Yt es una serie temporal cualquiera, el índice de la variable en el período t con período base 0, puede expresarse de la siguiente forma:

    'Anlisis Cuantitativo de la Actividad Turstica'

    Un índice de precios calculado para el período base toma el valor de 100 (examen):

    Y0

    I 0,0 = ------------ X 100 = 100

    Y0

    Por lo tanto, 100 es el número de referencia. Si calculamos un índice de precios y el resultado es 85, significa que ha habido una disminución del 15% (85 - 100 = -15). Si el resultado el 110, significa que ha aumentado un 10% (110 - 100 = 10).

    Los índices compuestos sintetizan, en un solo índice, la evolución conjunta de varias magnitudes. Se calculan a base de integrar en un solo conjunto de índices simples, consiguiendo un indicador agregado a partir de índices individuales.

    Los índices de precios compuestos agregan en un solo índice los precios de k productos (examen):

    'Anlisis Cuantitativo de la Actividad Turstica'

    Índices Compuestos Ponderados. Se da una importancia diferente a los precios de distintos productos. Se calculan las medias ponderadas.

    Ejemplo. Índices de Precios al Consumo. Los índices de precios al consumo son índices de precios compuestos y ponderados que se calculan muy frecuentemente a través de estas dos alternativas de cálculo (examen):

    Índice de Laspeyres (L): El Índice de Laspeyres usa como ponderación el consumo de los productos en el año base (qi0).

    'Anlisis Cuantitativo de la Actividad Turstica'

    Índice de Paasche (P): El Índice de Paasche utiliza los consumos del año para el que se calcula el índice (qit).

    'Anlisis Cuantitativo de la Actividad Turstica'

    Pit y Pi0 son los precios y qit y qi0 las cantidades consumidas de cada producto en el año actual y en el año base, respectivamente. El Índice de Laspeyres usa como ponderación el consumo de los productos en el año base. El Índice de Paasche utiliza los consumos del año para el que se calcula el índice.

    Índice de Fischer: es la media geométrica de los índices anteriores.

    Ft,0 = L t,0 X P t,0

    Los índices de Fisher y Paasche son muy costosos de calcular. En España, se utiliza en índice de Laspeyres para calcular el IPC.

    ÍNDICE DE PRECIOS AL CONSUMO (ESPAÑA)

    El INE (Instituto Nacional del Estadística) elabora mensualmente el IPC de España. Con este indicador se quiere medir la variación de los precios de los bienes y servicios que forman la cesta de la compra de la población residente en viviendas familiares españolas. Esta cesta de la compra es el conjunto de artículos que se consumen de forma mayoritaria en una familia durante todo un año. El año base actual es el 2001 y el anterior fue 1992.

    Los productos consumidos se han clasificado en 12 grupos integrados por un total de 471 artículos. Las cantidades de cada uno de esos artículos consumidas por las familias, proporcionan sus ponderaciones.

    De estos 12 grandes grupos, el subgrupo Servicios Turísticos está incluido en el grupo 9 Ocio y cultura. También hay que destacar el grupo 11 Hoteles, cafés y restaurantes, que incluirían alojamiento y parte de la oferta complementaria. Con los precios de los productos de cada grupo y subgrupo, el INE elabora el Índice de Precio de Turismo (IPT). Hay que tener en cuenta que el IPC se refiere a los precios que pagan las familias residentes en España y no los turistas. Hay productos que sólo son consumidos por turistas, como los souvenirs, pero no hay estudios sobre esa variación de precios.

    'Anlisis Cuantitativo de la Actividad Turstica'

    'Anlisis Cuantitativo de la Actividad Turstica'


    'Anlisis Cuantitativo de la Actividad Turstica'

    'Anlisis Cuantitativo de la Actividad Turstica'


    Análisis cuantitativo de la Actividad turística 2

    55

    77

    Frecuencia relativa X (360/100) = x grados

    O lo que es lo mismo:

    Frecuencia relativa X 3,6 = x grados

    30 x 3,6 = 108º

    39,6 x 3,6 =142,56º

    8,4 x 3,6 = 30,24º

    4 x 3,6 = 14,4º

    18 x 3,6 = 64,8 º

    25%

    75 % 50%

     

    2

    x

     

    1

     

    x

    x

    x

     

     

     

     

    X

    Y

    Z

    W