Predicción de mercados financieros

Economía. Empresa. Precio. Rentabilidad. Hipótesis de mercado eficiente. Data snooping. Predictibilidad

  • Enviado por: Pedro Herrero Gonzaley
  • Idioma: castellano
  • País: España España
  • 58 páginas
publicidad

Mercados Financieros: Análisis y Gestión de Valores Bursátiles

SOBRE LA PREDICCIÓN DE MERCADOS FINANCIEROS

ÍNDICE

SOBRE LA PREDICCIÓN DE MERCADOS FINANCIEROS

Este trabajo no pretende ser más que una introducción básica a algunos de los conceptos elementales de la predicción de mercados financieros desde una aproximación econométrica.

INTRODUCCIÓN

Muchos de los datos usados en finanzas son series temporales. Esto es, son observaciones sobre una misma variable en diferentes momentos del tiempo. Algunos ejemplos de este tipo de series podrían ser:

  • El precio de las acciones (o el beneficio que producen las acciones).

  • El Tipo de cambio de una divisa.

  • El tipo de interés.

  • El precio de los bonos.

  • La inflación.

  • El predio de opciones, futuros, etc.

El hecho de que una serie temporal esté compuesta de datos sobre una misma variable (o grupo de variables) a lo largo del tiempo significa que quizás sea posible usar el valor de la variable hoy para predecir algo sobre esta misma variable en un punto del futuro. Por ejemplo, si sabemos que el valor del IBEX 35 es de 9562 hoy puede ser que esa información sea útil para poder decir cuál será su valor mañana. Más aún podemos si observamos el valor a día de hoy junto con el resto de valores desde hace una semana, puede servirnos para decir algo sobre el valor de mañana. Esto es una predicción sobre el nivel de un índice, o lo que es lo mismo, una predicción del cambio en el valor de un índice entre hoy y mañana.

Pero ya aparecen algunas cuestiones que indican la dificultad de realizar este tipo de predicciones. En el ejemplo anterior, si el valor del IBEX 35 hoy es de 9562, podemos suponer que el valor de mañana será un valor “cercano” al de hoy, pero, ¿qué significa cercano?, ¿será una diferencia positiva o negativa?, ¿cómo de acertada esperamos que sea esta predicción?, ¿estamos considerando todos los factores que pueden influir sobre este valor o hay otros factores que pueden alterar el valor del índice de manera significativa?, ...

Un punto importante en finanzas es el relativo al riesgo/beneficio, y por ello, predecir únicamente el cambio en el precio de un activo es solo una parte del problema. Puesto que siempre tratamos de evitar el riesgo, también nos preocupamos de predecir el riesgo, medido de alguna forma, por lo que también es muy interesante poder hacer predicciones de otras propiedades como pueden ser:

  • La volatilidad del activo.

  • La probabilidad de una crisis en el mercado(`crash').

  • La correlación o dependencia entre distintos activos financieros, entre acciones, entre distintos mercados internacionales, entre tipos de cambio, etc.

  • La “duración” del precio (es decir el tiempo entre dos operaciones consecutivas que hagan variar el precio de un activo).

Puesto que a la hora de realizar predicciones podemos encontrarnos con datos de muy diverso tipo, otro factor que nos interesa conocer también es el rango de frecuencias de los datos, o dicho de otra manera, cada cuánto aparece un nuevo dato en la serie (referido al concepto tiempo). Podrían ser por ejemplo frecuencias:

  • Diaria.

  • Mensual.

  • Semanal

  • Anual.

  • Cada 5, 10 o 30 minutos.

  • Aleatoria (como por ejemplo datos de alta frecuencia con cada “tick”).

La mayoría de las operaciones de análisis en finanzas son hechas usando datos en un rango entre diarios y mensuales, aunque cada vez esta ganando mayor atención los datos “intra diarios” que son aquellos de alta frecuencia que registran los movimientos dentro de un mismo día.

El creciente interés en operaciones “intra diarias” viene originado por el desarrollo tecnológico que permite recibir información en tiempo real (o casi) así como evaluar y ejecutar operaciones en espacios de tiempo muy cortos, algo que antes no era posible. Es por esto que se ha aparecido la oportunidad para este tipo de operaciones similares a las tradicionales pero con las características y particularidades que han surgido por la rapidez con que se producen.

La predicción de mercados financieros puede utilizarse en diversas áreas: gestión del riesgo, gestión de carteras, establecimiento de precios, política monetaria, arbitraje, etc.

A la hora de realizar y evaluar predicciones sobre mercados financieros son necesarias una serie de habilidades, como son:

  • Estadísticas: Son necesarios conocimientos sobre variables aleatorias, probabilidad, teoría de regresión, etc.

  • Económicas: Es necesario poder evaluar los resultados obtenidos y poder decir si un modelo tiene sentido como modelo económico o no.

La mayoría de las disciplinas en las que se realizan predicciones tienen especialista en predicciones y no solo es aplicable al aspecto económico, también se realizan predicciones en ramas como la biología, medicina (epidemiología), meteorología.

Sin embargo, cada una de estas ramas necesita que las personas que trabajan en los modelos predictivos tengan un buen conocimiento del área concreta a la que se aplica. No existe un experto en predicciones general que pueda intercambiarse de un área a otra, sino que debe especializarse en aplicar los conocimientos sobre predicción al área concreta. Debe tener un buen conocimiento de esta área para poder aplicar e interpretar de la mejor manera posible los conocimientos teóricos en conjunción con las limitaciones y características del área en la que trabaja (economía, biología, medicina, etc.)

Por ejemplo: a la hora de predecir la distribución de la horquilla de precios oferta-demanda (“bid-ask”) para ciertos títulos (definido como el precio de venta menos el precio de compra). Esta variable es usada a menudo como una medida de la liquidez y por lo tanto resulta de interés para los economistas. Y para los inversores obviamente también sería muy interesante obtener una predicción futura de este valor. La teoría económica básica nos dice que este valor debe ser siempre positivo y haciendo uso de esta información podemos construir un modelo predictivo mucho mejor.

¿PREDECIR PRECIO O RENTABILIDAD?

En este apartado vamos a ver que es equivalente predecir el precio a predecir la rentabilidad, y que por tanto preferiremos trabajar prediciendo sobre la rentabilidad.

Como primer paso definíamos la rentabilidad:

Siendo Rt la rentabilidad para el instante t y Pt el precio en el instante t.

La rentabilidad puede construirse a partir de los precios de dos formas:

Rentabilidad porcentual:

de donde

Aquí Rt+1 es lo que se llama “rentabilidad neta” (típicamente obtendremos valores del tipo 0.02, -0.04, etc.) y (1 + Rt+1) es la “rentabilidad total” (con valores del tipo 1.05, 0.99, etc.)

La componente continua de la rentabilidad se define como:

y

En estas fórmulas Rt+1 es la rentabilidad neta y exp{Rt+1}es la rentabilidad total.

Ambas definiciones vienen a dar resultados similares para valores razonables de precios (Pt , Pt+1 ), pero pueden ser ligeramente diferentes.

Si nos centramos en la componente continua de la rentabilidad podremos simplificar algunos pasos cuando estamos tratando series de la rentabilidad. Por ejemplo:

Tenemos la rentabilidad semanal de un activo definida por Yt+5 = ln Pt+5 - ln Pt y sea Xt+1 = ln Pt+1 - ln Pt la rentabilidad diaria del mismo activo. Resulta que:

Yt+5 = ln Pt+5 - ln Pt =

= ln Pt+5 - ln Pt+4 +

= ln Pt+4 - ln Pt+3 +

= ln Pt+3 - ln Pt+2 +

= ln Pt+2 - ln Pt+1 +

= ln Pt+1 - ln Pt =

= Xt+5 + Xt+4 + Xt+3 + Xt+2 + Xt+1

Y vemos que la componente continua de la rentabilidad semanal es sencillamente la suma de la componente continua de la rentabilidad diaria de toda la semana. Debe tenerse en cuenta que si bien es cierto que la componente continua de la rentabilidad permite la agregación de la rentabilidad en el tiempo, no puede hacerse esto mismo para la agregación de la rentabilidad con un conjunto de acciones, por ejemplo para obtener el beneficio de una cartera. Sin embargo la distorsión obtenida haciendo esto no es muy grande para los valores normales de la rentabilidad.

Una vez aclarados estos conceptos vamos a demostrar que es equivalente calcular una predicción sobre el precio que calcularla sobre la rentabilidad.

Notación: Denotamos como E [Xt+1 | t ] al valor esperado para un instante t+1, de un elemento Xt+1 , conocido un conjunto de información t en el instante t.

Predicción del Precio: E [Pt+1 | t ] " Et [ Pt+1] =

Predicción de la rentabilidad: E [Rt+1 | t ] " Et [ Rt+1] =

Et [ Pt+1] = Et [ ] =

Siendo Pt una constante conocida, la esperanza de una constante es el valor de esa constante, puesto que ya lo conocemos. Lo mismo para el 1.

= Pt · (1 +Et [ Rt+1] )

= Pt (1 + )

ó equivalentemente

=

Por lo tanto concluimos que REALIZAR UNA PREDICCIÓN SOBRE EL PRECIO ES EQUIVALENTE A REALIZARLO SOBRE SU RENTABILIDAD.

Si utilizamos la componente continua de la rentabilidad obtenemos:

Et [ Pt+1] = Et ['Predicción de mercados financieros'
] =

= =

teniendo en cuenta que 'Predicción de mercados financieros'
es una función no lineal

=

exp{ Rt+1 } =

Nótese que por la inecuación de Jensen: exp{ Rt+1 } " , y por lo tanto cuando se utilice la componente continua de la rentabilidad debemos predecir la rentabilidad total exp{Rt+1}, y no la rentabilidad neta Rt+1. Para rentabilidad porcentual podemos predecir cualquiera de los dos, la rentabilidad total o la rentabilidad neta. En realidad la mayoría de la gente hace las predicciones sobre la rentabilidad neta y asume que exp{ Rt+1 } ", lo que en general resulta ser una aproximación aceptablemente buena.

El motivo de nuestro interés en ver la equivalencia entre precio y rentabilidad es que mientras que el precio es nuestro principal objeto de interés, los precios tienen propiedades estadísticas que dificultan el trabajo con ellos. Las series de precios tienen raíz unitaria, lo que implica entre otra cosas que la varianza de los precios diverge hacia infinito con el tiempo. Trabajar con este tipo de variables requiere mucho más cuidado que trabajar con otras que no lo tienen. En general el análisis de las series de la rentabilidad resultan mucho más sencillas de trabajar desde el punto de vista econométrico.

PREDICTIBILIDAD

R2 es una medida del éxito de una regresión es decir sobre si el modelo que estamos usando es bueno o malo para predecir la variable deseada. Más concretamente, mide la proporción en la variación de la variable dependiente explicada por el modelo. Esto lo hacemos porque dividimos la varianza del residuo () entre la varianza del modelo Y.

valor = valor del modelo + residuo

R2 =

Si la varianza del residuo es exactamente igual que la varianza de la variable original entonces R2 = 0, y podemos decir que el modelo NO es muy bueno.

Si el residuo tiene una varianza muy pequeña, entonces R2 será cercana a 1, y podremos decir que el modelo SI es bueno.

Podemos usar R2 para medir el grado de predictibilidad del proceso en una serie temporal.

Ahora podemos preguntarnos, ¿qué quiere decir que la rentabilidad de un cierto activo es “predecible”?.

Sea Yt+1 la variable que nos interesa, y Xt una variable cualquiera que nosotros pensamos que puede ser útil para predecir Yt+1.

Una definición simple de la predictibilidad puede ser medirle coeficiente R2 de la regresión.

Con un valor de R2 mayor que 0 para el modelo, podemos decir que Xt es útil para predecir Yt+1, y cuanto más cercano a 1 mucho más útil.

Nota: si no se indica lo contrario supondremos siempre et+1 ~ N(0,1)

Por supuesto podemos aplicar este razonamiento a cualquier otro modelo de regresión, en general de la forma:

por ejemplo podemos usar cosas como:

etc., etc.

· · ·

Esta forma de pensar en la predictibilidad es totalmente válida. Por ejemplo podemos pensar que la rentabilidad del IBEX 35 es función en alguna manera de la rentabilidad de las acciones de Telefónica. Que existe una relación entre la rentabilidad de IBM y la de Microsoft, o Intel y Microsoft, et, etc. Estos ejemplos tan tontos pueden servirnos para empezar a comprender el concepto.

Aunque hasta ahora se ha hablado de la predictibilidad en la media de Yt+1. También es posible que Xt afecte a otras características de Yt+1, como puede ser por ejemplo la varianza. Por ejemplo, si para simplificar suponemos que Xt solo puede tomar valores positivos, podemos establecer:

En este caso, la variable Xt afecta a la varianza condicional de Yt+1 pero no a su media condicional. Podríamos por ejemplo tener que Yt+1 fuese la rentabilidad de las acciones de Repsol-YPF, y que Xt sea una variable que toma el valor 1 normalmente y valor 3 cuando exista una guerra en países proveedores de petróleo. Podemos imaginar muchas otras formas en que Xt puede afectar a Yt+1.

Causalidad de Granger

A la hora de conocer la predictibilidad de una variable usando otra podemos referirnos al principio de causalidad de Granger. Podemos decir que una variable Yt+1 es predecible usando Xt, si la distribución condicional de Yt+1 dándose Xt es diferente de la distribución no condicionada (o marginal) de Yt+1.

Distribución condicionada: Yt+1 | Xt = x ~ FY|X

Distribución no condicionada Yt+1 ~ FY

Causalidad de Granger en una distribución

FY(y) " FY|X(y|x) para algún (x,y)

y entonces decimos que Xt “Granger causa” Yt+1 (en la distribución)

Es decir, si hay “Granger causalidad” en la distribución, X lleva información de Y. Refiriéndonos a la probabilidad, la probabilidad de Y sabiendo X es distinta que la probabilidad de Y.

Y lo mismo pero a la inversa si no hay “Granger causalidad” en la distribución.

Los conceptos tradicionales de causalidad suelen pensar solo en causalidad determinística, que son del tipo “si A ocurre entonces seguro que ocurre B”.

La causalidad de Granger es un concepto de causalidad estocástica, del tipo “si ocurre A entonces la probabilidad de que ocurra B cambia”.

Por ejemplo, fumar no conlleva con total certeza que el fumador vaya a tener cáncer de pulmón, pero incrementa la probabilidad de tener este tipo de cáncer. Por lo tanto fumar no provoca cáncer, sino que fumar “Granger causa” cáncer de pulmón.

Desde el punto de vista de la predicción, la causalidad de Granger en un distribución implica que conociendo Xt nos dice algo acerca de la distribución de Yt+1, y por lo tanto que es útil para hacer una predicción.

En realidad la causalidad de Granger en una distribución es una definición tan general que es difícil de usar en la práctica, por este motivo se suele especializar.

Causalidad de Granger en la media: E[Yt+1 | Xt = x] " E[Yt+1] para algún x.

Causalidad de Granger en la varianza: V[Yt+1 | Xt = x] " V[Yt+1] para algún x.

Estas dos especializaciones del concepto general de causalidad de Granger corresponden a las regresiones consideradas arriba. Causalidad de Granger en la media implica que alguna función de Xt es útil para modelar la media condicionada de Yt+1. Causalidad de Granger en la varianza implica que alguna función de Xt es útil para modelar la varianza condicionada de Yt+1.

La causalidad de Granger puede ser unidireccional o bidireccional, Si A lleva información de B y B no lleva información de A, es una causalidad unidireccional. Y en el caso de que A lleve información sobre B y B también lleve información de A nos encontramos con una causalidad bidireccional.

En nuestro el caso particular que nos ocupa del estudio de los modelos predictivos no nos va a importar demostrar la causalidad bidireccional. Únicamente nos interesa conocer si existe Granger-causalidad unidireccional puesto que la otra variable será la que ya conocemos.

Predictibilidad de otras propiedades de los activos financieros

Hasta ahora nos hemos centrado sobre todo en la predicción del precio de los activos financieros, o de su rentabilidad (que como hemos visto resulta equivalente). Pero hay otras propiedades de los activos financieros que pueden ser de mucho interés, como por ejemplo el riesgo de un activo.

Como sabemos, los mercados financieros suelen pasar por periodos de cierta turbulencia y otros de relativa calma. Así pues, el riesgo, o la volatilidad (medida a veces a través de la varianza) de un activo financiero (siempre referido a su rentabilidad que es lo que más nos interesa) es variable en el tiempo, y posiblemente será predecible.

La predicción del riesgo de un activo financiero es muy interesantes por ejemplo a la hora de tomar decisiones sobre una cartera de valores, para la gestión del riesgo o establecer precios adecuados, entre otras cosas.

Existen varias propiedades en las distribuciones de los activos financieros que pueden ser de interés además de la rentabilidad en si misma, por ejemplo:

  • El riesgo (como ya hemos mencionado).

  • La probabilidad de una crisis (o `crash').

  • La probabilidad de que la rentabilidad sea positiva o negativa.

  • Coeficientes de asimetría.

  • O incluso la propia distribución en sí.

La predicción de otras características de los activos financieros que no sean la rentabilidad (como las que acabamos de mencionar) es una actividad relativamente nueva y muy activa de la econometría financiera moderna.

Si no existen estrategias de negocio tales que exista una predicción tan precisa que pueda llevar a obtener beneficio económico (el tipo de activo financiero adecuado para explotar este tipo de información podría, sencillamente, no existir), entonces un activo financiero cuya rentabilidad sea altamente predecible no violaría la Hipótesis de los Mercados Eficientes.

HIPÓTESIS DE LOS MERCADOS EFICIENTES EN LA PREDICION DE MERCADOS

Si la hipótesis de los mercados eficientes Efficient Markets Hipótesis (EMH) es cierta puede sugerirnos algunas dudas sobre la posibilidad de realizar predicciones acertadas sobre los mercados financieros.

Denotaremos como t al conjunto de toda la información que tenemos a día de hoy (momento t). Veamos la hipótesis de los mercados eficientes y los posteriores refinamientos que de ella se hicieron y veremos que no se opone a la posibilidad de predecir el comportamiento futuro de los mercados financieros.

Hipótesis del mercado eficiente por Roberts en 1967

Esta fue una de las primeras definiciones sobre la eficiencia del mercado, y la primera en tomar relevancia. Fue posteriormente redefinida por Malkiel en 1992. Dice lo siguiente:

“Un mercado es eficiente respecto a un conjunto de información t si es imposible obtener beneficio económico negociando en base a la información del conjunto t.”

Roberts enfatiza la existencia de tres elementos de importancia a la hora de definir la eficiencia de un mercado:

  • El conjunto de la información. Esto es la información que podemos considerar a la hora de negociar en el mercado.

  • La habilidad para explotar la información en una estrategia de negocio (“trading strategy”): Consiste en utilizar la información disponible, de la que hablamos en el punto 1, para crear una regla exitosa para nuestra estrategia de negocio o de inversión.

  • El beneficio económico en el método de ejecución de la estrategia de negocio:. Esto es, que el riesgo sea moderado (porque los inversores son, y deben ser, adversos al riesgo) y el coste en las transacciones.

  • En función del tamaño del conjunto de información disponible t, Roberts definió que los mercados pueden responder a tres distintos niveles de eficiencia. A estos tres tipos de niveles los denominó formas y las estructuró como: Eficiencia débil (“Weak-form efficiency”), Eficiencia semi fuerte (“Semi Strong-form efficiency”) y Eficiencia fuerte (“Strong-form efficiency”).

  • Eficiencia débil - El conjunto de información t contiene solo valores históricos (precios pasados, dividendos, volúmenes).

  • La conclusión es que trabajando en este tipo de mercado no se puede ganar al mercado sistemáticamente.

    Con esta definición no existe la posibilidad de obtener de forma sistemática una rentabilidad extraordinaria utilizando el análisis técnico.

  • Eficiencia semi-fuerte - El conjunto de información t contiene toda la información pública disponible en el instante t (incluye también toda la información histórica). Esta información por lo tanto está disponible para todos los participantes.

  • Igualmente se concluye que no se puede ganar al mercado, de forma sistemática, utilizando información histórica y pública.

    En este caso, la definición anula la posibilidad de generar una rentabilidad extraordinaria de forma sistemática utilizando el análisis fundamental.

  • Eficiencia fuerte - En este caso el conjunto de información t contiene toda la información conocida por cualquiera de los participantes del mercado (tanto información publica como privada.

  • Esta definición anula la posibilidad de obtener rentabilidades extraordinarias utilizando cualquier tipo de análisis o técnica.

    A este respecto se ha considerado que la existencia de información privada puede dar lugar al uso de información privilegiada, y puesto que las leyes prohíben el uso de información privilegiada, en teoría no se espera encontrar un mercado de estas características. Y si esta información fuese de uso público estaríamos en el caso de un mercado de eficiencia semi-fuerte.

    En el supuesto de encontrarnos en un mercado de eficiencia fuerte, un inversor nunca podría obtener sistemáticamente rendimientos por encima de los del mercado, el éxito estaría en obtener sistemáticamente rendimientos iguales a los del mercado.

    Para que se cumpla la eficiencia del mercado, independientemente del tipo de mercado en el que nos encontremos, los participantes del mismo deben utilizar obligatoriamente todo el conjunto de información disponible t ya que esta es la única forma de que la información se incorpore en el precio. Esto significa que la realización masiva de análisis ya sean técnico, fundamental o de otro tipo contribuye a que el mercado gane en eficiencia.

    La información pública disponible en el instante t incluye:

  • Valores históricos del precio del activo a analizar.

  • Valores históricos de cualquier otro activo como por ejemplo:

  • Índices de mercados, por ejemplo IBEX 35, FTSE100, S&P500

  • Tipos de interés

  • Precio de opciones.

  • Tipos de cambio, etc.

  • Valores históricos de otras variables que puedan influenciar el precio del activo como:

  • Tasa de desempleo.

  • Índices de consumo.

  • Número de nuevas viviendas construidas.

  • Cualquier otro tipo de información que se pueda obtener buscándola en fuentes de información públicas.

  • Planes de cierre de plantas que no hayan sido hechos públicos todavía.

  • Saber que un CEO se marcha, cuando aún no se ha hecho público.

  • Cualquier otra información que puede afectar al precio futuro del activo y que no se haya hecho pública todavía (aquí es donde hablamos de la información que es ilegal usar antes de que se haga pública).

  • Un mercado en forma de eficiencia débil esta basado en el conjunto de información referido en el punto (1). La forma semi-fuerte hace está basada en la información contenida en los puntos del (1) al (4), y un mercado con una eficiencia fuerte contiene toda la información de los puntos (1) al (7).

    Los organismos reguladores del mercado suelen establecer leyes contra la utilización de informaciones como las de los puntos (5) y (6) para las negociaciones en el Mercado. Como ya se comentó anteriormente, es por esto que no es de esperar la forma fuerte como una forma de mercado real y por ello no ha sido muy estudiada. Sin embargo las formas débil y semi-fuerte si que han sido ampliamente estudiadas por su aplicación al los mercados reales existentes.

    Hipótesis del mercado eficiente por Malkiel en 1992

    A partir de la hipótesis del mercado eficiente de Roberts, Malkiel redefinió esta hipótesis concretizando sobre la eficiencia de la información. Su definición dice así:

    “Un mercado de capitales se dice que es eficiente si refleja total y acertadamente toda la información relevante para determinar el precio de un título. Formalmente, el mercado se dice que es eficiente con respecto a un conjunto de información, t , si el precio de dichos títulos no variase en el supuesto de que dicha información t fuese revelada a todos los participantes del mercado. Aún más, eficiente con respecto a un conjunto de información, t ,implica que es imposible obtener beneficio económico negociando en base a esa información t .”

    La definición de Malkiel también reconoce los tres elementos que definen la eficiencia del mercado al igual que Roberts, que se recogen en tres preguntas:

    ¿Qué información estamos considerando?

    ¿Podemos usar esta información para construir una estrategia de negocio más exitosa?

    ¿Podemos reducir los costes en las operaciones?

    Podemos hacer un resumen de la Hipótesis de los Mercados Eficientes diciendo que esta implica la ausencia de oportunidades de arbitraje (dado un conjunto de información). Black en 1986 propuso añadir a la condición de no arbitraje que la definición de un mercado eficiente debería incluir alguna referencia a las posibles desviaciones del precio del mercado respecto de su valor fundamental. Black propuso que el precio debe estar dentro de un factor de 2 del valor intrínseco del activo (y admite la figura del arbitraje en este caso). Esto se refiere a las llamadas `burbujas' en los precios de los activos, donde el precio de un activo excede con mucho el valor fundamental del activo. Un ejemplo de esto podríamos verlo en la reciente `burbuja tecnológica'.

    De acuerdo a esta definición de Black un mercado sería eficiente si las burbujas en el precio de un activo no crecen “mucho” ni duran “demasiado” antes de ser corregidas. El problema a la hora de probar empíricamente esta definición es que el valor fundamental de la mayoría de los activos es difícil de calcular y por lo tanto cualquier prueba sería una prueba de conjunto de la definición del mercado eficiente de Black y el modelo usado para determinar el valor intrínseco del activo.

    Hipótesis del mercado eficiente por Granger Y Timmermann en 2003

    Muchos investigadores, cuando proponen nuevos modelos estadísticos para predecir la rentabilidad de un activo, aplican el modelo a datos históricos para ver cómo funcionan. Podría parecer razonable pensar que encontrando un nuevo modelo que puede predecir las rentabilidades históricas de un activo estamos encontrando una evidencia contra la Hipótesis de los Mercados Eficientes.

    Por ejemplo, hoy en día tenemos disponibles muchos modelos predictivos muy flexibles y complicados para la predicción de la volatilidad, varios de ellos son computacionalmente muy costosos de implementar y ejecutar.

    Si viajamos atrás en el tiempo y utilizamos datos de los años 1920 y encontramos que un inversor usando uno de los modelos actuales podría haber logrado beneficio económico, ¿deberíamos concluir entonces que ese mercado era ineficiente?

    La mayoría de la gente piensa que la respuesta es no. Granger y Timmermann propusieron en 2003 un refinamiento de la definición de mercado eficiente diciendo algo como lo siguiente:

    “ Un mercado es eficiente, con respecto a un conjunto de infamación t y a un conjunto de modelos predictivos t si es imposible conseguir beneficio económico negociando en base a una predicción de un modelo de t usando variables predictivas de t.”

    Esta definición tiene en cuenta el hecho de que ciertos modelos predictivos no han estado disponibles siempre. Los modelos predictivos de hoy en día son computacionalmente muy intensivos y habría sido imposible trabajar con ellos con la tecnología disponible hace 50 o 100 años. Así por l o tanto la eficiencia debe ser definida con referencia tanto al conjunto de información como al conjunto de modelos predictivos existentes en ese momento.

    Hipótesis de los mercados eficientes con horizonte fijo

    En el momento en el que una buena predicción concreta, que va a producir una rentabilidad superior a la del mercado, pasa a ser de conocimiento público suele ocurrir que la propia actuación de lo inversores del mercado hace que desaparezca, es decir que deje de ser útil.

    Por ejemplo, supongamos que alguien descubre que las pequeñas firmas pagan mayores rentabilidades en periodos de recesión de lo que los estándares del mercado sugieren que deberían pagar para tener una rentabilidad “correcta”. El descubridor de esta circunstancia compraría entonces acciones de empresas pequeñas durante periodos de recesión, subiendo de esta manera el precio de las acciones, y en consecuencia bajando la rentabilidad hasta el punto en que la rentabilidad de las pequeñas compañías sería la que inicialmente se establecía como “correcta”.

    Por lo tanto, incluso si fuese cierto que existen desviaciones de lo que sería el mercado eficiente (las firmas pequeñas pagan rentabilidades demasiado altas) estas desviaciones no durarían por mucho tiempo.

    Esta idea llevó a otro refinamiento de la definición de los mercados eficientes para incluir alguna referencia al periodo (u horizonte).

    “ Un mercado es eficiente, con respecto a un conjunto de infamación t y a un conjunto de modelos predictivos t hasta un horizonte  si es imposible conseguir beneficio económico negociando en base a una predicción de un modelo de t usando variables predictivas de t solo hasta periodos de duración menores de .”

    Esta definición de eficiencia permite a un mercado ser definido como “eficiente”, y a la vez poder presentar cortos periodos en los que se desvía de la eficiencia. Algunas investigaciones en el análisis intensivo de la rentabilidad de activos financieros en periodos de un solo día de negociación sugieren que hay oportunidades de arbitraje con un horizonte muy corto de escasos minutos ( 5 o 10 minutos) pero que desaparecen en un horizonte de una hora.

    Más aún esta última definición justifica la existencia de incentivos para continuar con el desarrollo de modelos predictivos (así como de nuevas estrategias).

    Los costes en las transacciones

    La presencia en el mercado de fricciones, como son los costes por transacción (costes administrativos, costes en la recolección y procesamiento de la información, etc.), o limitaciones a las negociaciones (como limitaciones en el tiempo que transcurre entre la compra y la venta) conllevan que incluso si el precio de mercado es ligeramente diferente del que en “teoría” debería ser (en base de los dividendos y rentabilidades previstas), puede ser que aún así no existan oportunidades de arbitraje. Por ejemplo, si el precio de una acción se encuentra 0.10€ por debajo de lo que piensa que debería ser pero comprar la acción conlleva un costa adicional en cargos por transacción de 0.20€, entonces no tiene sentido molestarse.

    Por ello se entiende la existencia de ligereas desviaciones del precio teórico para un mercado eficiente, que son debidas a los costes adicionales en las transacciones. Los patrones predecibles del mercado solo entran en conflicto con la Hipótesis de los Mercados Eficientes si son suficientemente grandes como para cubrir los costes de transacción.

    Si para poder detectar cuando hay una oportunidad de arbitraje se necesita contratar a un analista para que analice los datos del mercado y determine dichas oportunidades (esto costará bastante dinero), lógicamente muchos de los participantes del mercado no se lo podrán permitir por lo que no podrán acceder a estas pequeñas oportunidades de arbitraje. Esto fue empleado por Grossman y Stiglitz en 1980 para justificar la presencia y necesidad en el mercado de los analistas diciendo que:

    “ Los mercados puede ser eficientes, si el beneficio de contratar un analista para encontrar y explotar las pequeñas ineficiencias del mercado es exactamente igual al salario del analista “

    Los costes de transacción explican también por que en la práctica es imposible aprovechar una ligera desviación en el precio (por ejemplo 10 céntimos) y sencillamente comprar 10 millones de acciones para ganar un millón. Si un inversor realmente intentara hacer esto, la horquilla de precios se haría más ancha y la capacidad del mercado para ofrecer el activo se reduciría. El impacto sobre el precio de una estrategia como esta sería cada vez mayor, hasta el punto en que el coste de la transacción solaparía al beneficio.

    Si existen limitaciones en el tiempo mínimo entre la compra y la venta, entonces puede existir cierto tipo de predictibilidad y por lo tanto desaparecerían las oportunidades de arbitraje. Por ejemplo si alguien prevé que el precio de una acción en concreto va a caer al o largo del siguiente mes, podría realizar una operación (short-hell) consistente en comprar a préstamo la acción a un broker hoy, venderla en el mercado hoy, después re-comprar la acción en el mercado dentro de un mes y devolvérsela al broker. Sin embargo, otros participantes en el mercado también podrían seguir el mismo tipo de estrategia (short-sell), por ejemplo algún fondo, y por lo tanto mientras que no todo el mundo sería capaz de seguir este tipo de estrategia negociadora, algunos inversores si serían capaces y en consecuencia no sería de esperar la existencia de oportunidades de arbitraje por mucho tiempo. De hecho, la facilidad de algunos fondos para tomar posiciones en corto, mientras que otros participantes no pueden, es uno de los posibles beneficios económicos de la presencia de estos fondos en el mercado.

    Si la recompensa o compensación por mantener un activo de alto riesgo varía con el tiempo, entonces, bajo la hipótesis de los mercados eficientes todavía podríamos encontrar evidencias de predictibilidad incluso con costes de transacción igual a cero.

    No vamos a entrar en este asunto, pero existen numerosos estudios que han encontrado evidencia de una compensación al riesgo variable en el tiempo, y esta explicación para la existencia de predictibilidad en los mercados eficientes es actualmente una de las más populares.

    Una cuestión que aún no aparece aclarada respecto a la Hipótesis de los Mercados Eficientes es a qué se refiere exactamente cuando habla de que no es posible “obtener beneficio económico”, aunque está claro que cuando se gana dinero se está obteniendo un beneficio económico la duda surge cuando nos preguntamos si evitar pérdidas constituye un beneficio económico, la opinión general al respecto parece indicar que si, que evitar una pérdida se considera un beneficio económico, pero aún no existe una demostración específica a este respecto.

    Random Walk y La hipótesis de los mercados eficientes

    El modelo `Random Walk' (traducido algunas veces como `Camnio aleatorio') para el precio de las acciones dice:

    siendo:

    t+1 independiente e idénticamente distribuida con distribución de tipo Gaussiana `white noise' o ruido blanco.

    1.- t+1 ~ iid WN(0)

    2.- t+1 ~ WN(0)

    Este modelo sugiere que le precio que una acción tendrá mañana será igual al precio de hoy mas el valor de un término de innovación, t+1 .

    Existen dos versiones del modelo del random walk: la primera de ellas asume que el término de innovación t+1 es una variable independiente igualmente distribuida con media cero; la segunda asume tan solo que el término de innovación t+1 es una variable de ruido blanco Gaussiano con media cero.

    La idea de este modelo de que en un mercado eficiente los precio deberían seguir un camino aleatorio, es que en cada instante del tiempo, el precio de un activo financiero debería reflejar toda la información disponible, y por lo tanto la esperanza del precio de mañana conociendo la información hasta hoy, será el precio de hoy, y por lo tanto no será posible obtener beneficio económico negociando en base de la vieja información.

    E [Pt+1+ t+1 | Pt ,Pt-1, Pt-2, ...] =

    = Pt + E [ t+1 | Pt ,Pt-1, Pt-2, ...]

    Y como E [ t+1 | Pt ,Pt-1, Pt-2, ...] = 0

    E [Pt+1+ t+1 | Pt ,Pt-1, Pt-2, ...] = Pt

    Esto aplicado a la rentabilidad nos dice que

    E [Rt+1+ t+1 | Pt ] =

    =

    =

    Es decir que la esperanza de obtener rentabilidad con este modelo es 0. Y puesto que el inversor del mercado es contrario al riesgo, ningún inversor va a asumir un riesgo si la esperanza de la rentabilidad es cero.

    Vemos fácilmente como los precios necesitan NO seguir un modelo random walk en un mercado eficiente.

    Un contraejemplo sencillo lo vimos cuando hablamos sobre los costes de las transacciones, y decíamos que una compensación del riesgo variable en el tiempo podía conducir a una predictibilidad en la rentabilidad de los activos incluso en un mercado eficiente. Y aún más:

  • Existen evidencias substanciales de predictibilidad en la volatilidad, por ejemplo la variancia de la innovación t+1 , que rechazaría la asunción de que el término de la innovación t+1 es independiente e idénticamente distribuida (iid) mientras que no rechazaría la hipótesis de los mercados eficientes si NO existe un activo que pueda convertir esta predictibilidad en beneficio económico. Esta evidencia no es suficiente para rechazar el segundo tipo de modelo de random walk.

  • Puesto que bajo las condiciones del modelo de random walk tenemos que

  • Et[Pt+1] = Pt y por tanto Et[Rt+1] = 0

    Esto viola la teoría financiera básica de que los inversores necesitan una recompensa (en términos de esperanza de rentabilidad) por asumir un activo con riesgo.

    Así que el modelo debe ser extendido para permitir una recompensa o compensación por mantener un activo con riesgo, de la siguiente forma:

    Pt+1 =  + Pt + t+1

    Donde  es la compensación del riesgo. ( > 0)

    Conclusión

    Entonces, ¿qué nos dicen las teorías del mercado sobre la predictibilidad de los mercados financieros?. En 1997 Campbell concluía:

    “Los recientes avances en econometría y las evidencias empíricas parecen sugerir que las rentabilidades de los activos financieros son predecibles en cierta medida. Hace treinta años, decir esto habría sido equivalente a rechazar la eficiencia del mercado. Sin embargo, la economía financiera moderna nos enseña que otros factores, perfectamente racionales, pueden ser tenidos en cuenta para dicha predictibilidad”

    Por lo tanto estudiar técnicas de predicción de mercados todavía puede ser de utilidad en los mercados eficientes.

    Más aún, realizar predicciones sobre los viejos datos históricos de los precios seguramente resultará más sencillo que predecir los precios futuros, pero no resulta muy impresionante decirle a una persona que podría ganar mucho dinero con nuestro modelo predictivo aunque para ello tiene que volver atrás en el tiempo ...

    La Hipótesis de los Mercados Eficientes nos dice bastante poco sobre predecir otras propiedades de la rentabilidad de los activos financieros, como el riesgo, y resulta que predecir el riesgo es más sencillo que predecir rentabilidades (esto refiriéndonos al éxito del modelo, no necesariamente a la complejidad del modelo).

    El campo de estudio del comportamiento del mercado es un campo muy activo, y muchas de los comportamientos de los inversores que aparentemente se desvían de un comportamiento estrictamente racional han sido documentados y publicados, por lo que existe mucha información para el estudio así como numerosos trabajos al respecto. Estas desviaciones incluyen cosas como reacciones exageradas, tanto por exceso como por defecto, a los anuncios de cuentas de resultados, la aparente falta de internacionalización (o globalización) de las carteras, etc.

    La presencia de predictibilidad en los mercados ya no es una sorpresa para aquellos que creen en los mercados eficientes, pero nunca fue una sorpresa para aquellos economistas que estudiaban el comportamiento del mercado (una lectura amena sobre este tema la podemos leer en el Wall Street journal de 18 de Octubre de 2004, en el artículo “As Two Economists Debate Markets, The Tide Shifts”, escrito por Jon E. Hilsenrath).

    DATA SNOOPING

    El concepto de Data Snooping viene asociado a la minería de datos ( o Data Mining), y como veremos puede ser un problema a la hora de obtener resultados estadísticos en los modelos predictivos.

    Existen muchos artículos (algunos incluso en publicaciones de prestigio) que aseguran haber encontrado una relación entre las rentabilidad futuras y algún tipo de variable observable. Algunos ejemplos publicados(cortesía de J.Danielsson - LSE):

    • La rentabilidad de la bolsa es menor en Octubre.

    • La rentabilidad de la bolsa es más baja los Lunes.

    • La rentabilidad de la bolsa es más alta en Enero.

    • La temperatura en Papua Nueva Guinea sirve para predecir el índice Dow Jones.

    Sin una mayor investigación estos ejemplos podrían hacernos pensar que significan evidencias contra la Hipótesis de los Mercados Eficientes. Lo que ocurre es que la explicación de estos resultados es consecuencia del `Data Snooping' colectivo o individual.

    El problema que ocurre con el data snooping o la minería de datos (data minino) viene de el hecho de que la mayoría de los datos con que trabajamos en economía son provenientes de observaciones, no son datos experimentales, por lo tanto todo el mundo es usando y volviendo a utilizar una y otra vez las mismas series temporales. Si uno busca con suficiente ímpetu un patrón o una correlación en un conjunto de datos dado, al final uno acaba por encontrar “algo”.

    Notas sobre los errores estadísticos

    Cuando llevamos a cabo una prueba estadística sabemos que algunas veces cometemos errores. En un estudio de investigación en el que realizamos una prueba estadística existen dos tipos de errores muy importantes, que pueden afectar a la fiabilidad de los resultados de la investigación, y que debemos tener muy presentes, son los llamados Errores de Tipo I y Errores de tipo II, y son referidos a una hipótesis que se quiere comprobar y su hipótesis complementaria (HO o hipótesis nula y su complementario HA)

    - Error de Tipo I

    También mal llamados Errores de tipo alfa () , esta última denominación no es del todo correcta porque alfa () es la probabilidad de que ocurra este error de Tipo I.

    Este error se comete cuando al realizar un test estadístico el investigador rechaza la hipótesis nula Ho siendo esta verdadera en la población, por lo que el investigador se está equivocando y concluye resultados erróneos. Sería equivalente a encontrar un resultado `falso positivo'.

    La probabilidad de rechazar la hipótesis nula Ho cuando es verdadera (Error de Tipo I) se le llama nivel de significación, y se suele referenciar con la letra `p', nótese que por lo tanto la `p' no es un indicador de la fuerza de la asociación ni de su importancia.

    La significación estadística es una condición que resulta de rechazar la hipótesis nula Ho al realizar una prueba estadística para conocer su significación.

    El nivel de significación lo elige el investigador según su parecer y es el riesgo o probabilidad que asume de equivocarse al rechazar la hipótesis nula Ho cuando normalmente es cierta (valores comúnmente aceptados suelen estar entre un 0.05 y un 0.01).

    A la hora de probar una hipótesis se implica una toma de decisiones encaminadas a aceptar o rechazar la hipótesis nula Ho. Y aunque los valores del nivel de significación p corresponden a una variable continua, se utiliza para forzar una decisión cualitativa para de este modo inclinarse a elegir una u otra hipótesis. Por ejemplo para un nivel de significación del 0.01 (esto quiere decir que el investigador está dispuesto a asumir que una de cada 100 pruebas puede dar resultados estadísticamente erróneos) si el valor de p es menor que 0.01 se considera significativo y por lo tanto la hipótesis nula Ho se rechaza, y si p fuese mayor que 0.01 entonces sería no significativo y no se rechaza la hipótesis nula Ho.

    Se podría pensar en que para evitar los errores de tipo I bastaría con seleccionar un nivel de confianza de valor mayor, pero lo que ocurriría sería que al aumentar el nivel de confianza aumentaría la probabilidad de cometer un error de Tipo II.

    - Error de Tipo II

    También llamados error de tipo beta (), aunque, al igual que en el caso anterior, esta denominación no es del todo correcta puesto que beta () es la probabilidad de que exista un Error de Tipo II.

    Este error se comete cuando realizando un test estadístico el investigador no rechaza la hipótesis nula Ho siendo esta falsa en la población. Es lo que también se conoce con el nombre de 'falso negativo' o más estrictamente la probabilidad de un resultado `falso negativo' donde el investigador concluye que no ha sido capaza de encontrar una diferencia cuando en realidad esa diferencia si que existe.

    Comúnmente se acepta que los valores para beta () deben estar entre el cinco y el veinte por ciento.

    La probabilidad de observar en una muestra una determinada diferencia o efecto, si existe en la población viene representado por lo que se denomina poder o potencia del estudio y es el complementario de la probabilidad de cometer un Error de Tipo II, es decir 1-.

    Para resumir veamos la siguiente tabla que indica los dos tipos de error de los que hemos hablado. Habiendo preparado una hipótesis Ho que queremos probar mediante una prueba estadística y otra hipótesis alternativa Ha que será el complementario de Ho, por lo que cualquier resultado o bien está en una o está en la otra, es decir, si Ho es verdadera Ha es falsa y viceversa. La siguiente matriz muestra las cuatro posibles combinaciones de hipótesis verdaderas y el tipo de decisión hecha en base a los resultados de la prueba estadística.

    Decisión

    No rechazamos Ho

    Rechazamos Ho

    Ho es verdadera

    Decisión correcta

    Error de Tipo I

    Ha es verdadera

    Error de Tipo II

    Decisión correcta

    Aunque durante la realización de un estudio no es posible saber si estamos cometiendo un error de Tipo I o de Tipo II, existen varias consideraciones que podemos tomar en cuenta para reducir estos errores.

    Recomendaciones para reducir los Errores de Tipo I:

    • Actuar durante toda la investigación siguiendo una metodología o teoría, evitando hacer “pruebas” sin base teórica buscando asociaciones entre variables.

    • Reducir el número de pruebas estadísticas efectuados en el la investigación o estudio.

    • Evitar, en la medida de lo posible, la utilización de valores extremos que puedan influir en resultados significativos.

    • Utilizar valores bajos de alfa ().

    Recomendaciones para reducir los Errores de Tipo II:

    • Aumentar el tamaño de la muestra.

    • Estimar el poder estadístico de la investigación o estudio.

    • Incrementar el tamaño del efecto a detectar.

    • Utilizar mayores valores de alfa ().

    • Realizar pruebas estadísticas paramétricas en lugar de utilizar pruebas estadísticas no paramétricas, puesto que las pruebas estadísticas paramétricas son más potentes que las no paramétricas.

    En todo caso la relevancia económica de las hipótesis estudiadas mediante pruebas estadísticas va mas allá de los cálculos aritméticos y estadísticos, y está determinado por el juicio económico que debe realizar el investigador. Nuevamente vemos la importancia que tiene el que el analista que realiza los estudios estadísticos económicos este versado en los asuntos económicos y financieros con las que está trabajando, para poder obtener de las pruebas conclusiones verdaderamente útiles.

    Data snooping colectivo

    El origen del problema se encuentra en el hecho de que, normalmente, solo las relaciones estadísticamente significativas reciben atención (y son publicadas).

    Consideremos el caso en el que un grupo grande de investigadores, por ejemplo un grupo de cien investigadores. Cada uno de ellos piensa en una variable particular como un indicador útil para predecir el mercado de valores. Imaginemos que dos de estos investigadores encuentran una resultado que aparentemente es significativo, mientras que los otros noventa y ocho no encuentran nada relevante. Los dos significativos atraen la atención, pero normalmente nadie conoce que había otros noventa y ocho investigaciones más. El resto de los investigadores archivarán sus resultados como resultados no significativos y se olvidarán de ellos.

    Si consideramos el conjunto de los cien investigadores, cada uno llevando a cabo pruebas a un nivel de confianza digamos del 95%, entonces incluso si ninguna de las cien variables fuese verdaderamente significativa, cabría esperar que cinco de los cien investigadores obtuvieran resultados significativos.

    Es por esto que la literatura financiera puede estar salpicada de ejemplos de relaciones predictivas aparentemente significativas, que pueden ser o no debidas a este tipo de errores (conocidos como errores Tipo I).

    Data snooping individual

    Ocurre algo parecido un mismo investigador cosedera él mismo las cien (o mil, un millón, etc.) posibles variables para la predicción, y entonces solo informa sobre los resultados significativos. El resultado final es muy parecido, el resto de la comunidad recibe la información de los resultados exitosos pero no de los infructuosos que han sido despreciados.

    Recientemente, como posible solución a este problema, se ha propuesto un método estadístico para ajustar los valores críticos cuando se realizan un gran número pruebas con variables para predicciones. Cuando este método se aplicó para probar el llamado “efecto calendario” (rentabilidades significativamente mejores o peores ciertos días de la semana o meses del año) que habían sido publicados, ninguno de ellos pudo demostrarse como cierto. Todos ellos fueron desestimados por considerarse resultado del data snooping.

    La diferencia entre el data snooping individual y el data snooping colectivo es sutil. En términos de la probabilidad de encontrar un resultado que parece ser significativo pero que verdaderamente no lo es, no hay diferencia. La principal diferencia es que es posible controlar el data snooping individual, y esto se puede hacer realizando pruebas conjuntas “joint tests” u otras pruebas que tienen en cuenta el número de modelos que ya fueron probados. Mientras que no hay modo real de controlar el data snooping colectivo.

    Una posible forma de minimizar el impacto de data snooping colectivo es mantener un cierto grado de sano escepticismo sobre resultados estadísticamente significativos pero basados en argumentos económicos débiles o extraños.

    MODELOS ARMA

    Veamos ahora algunos modelos que podemos utilizar para la predicción de mercados, en este caso de trata de los modelo AR, MA y ARMA (que es la combinación de los dos anteriores), de los que hablaremos aunque sin entrar muy en profundidad.

    Modelo Autorregresivo (AR)

    Se denomina AR porque viene de AutoRegresivo. Este modelo es un modelo autorregresivo de primer orden.

    Es uno de los modelos más simples para series temporales. Simplemente dice que el valor del proceso hoy es alguna proporción del que fue ayer (posiblemente más alguna constante) más un término adicional.

    El proceso general autorregresivo de orden `p', escrito como AR(p), es el siguiente:

    Yt ~ AR(p)

    Yt = 0 + 1 Yt-1 + 2 Yt-2 + … + p Yt-p + t

    Con t ~ WN(0)

    Sobre la predictibilidad de este modelo vamos a ver el caso particular del modelo de orden 1 AR(1). Para `medir' la predictibilidad vamos a mirar el valor de R2 que como ya explicamos anteriormente nos dirá cómo de bueno resulta el modelo para explicar las variaciones en la variable dependiente

    Yt ~ AR(1)

    Yt+1 = 0 + 1 Yt + t+1

    Con t+1 ~ WN(0,2)

    Luego por definición

    V [t+1] = 2

    Y por otra parte

    V [Yt+1] =

    Habíamos visto que

    R2 = =

    Sin más que sustituir obtenemos

    =

    y finalmente

    R2 = 2

    Como vemos, cuanto mayor sea el coeficiente de autorregresión, , mayor es R2, y por lo tanto es mayor el grado de predictibilidad en esa variable.

    Modelo de Media Móvil (MA)

    De denomina MA porque viene del su nombre inglés `Moving Average'.

    Es el otro proceso estándar en predicción

    El modelo MA de orden `q', escrito como MA(q) es:

    Yt ~ MA(p)

    Yt = 0 + t + 1 t-1 + 2 t-2 + … + q t-q

    Con t ~ WN(0)

    El caso particular del modelo MA de orden 1, MA(1) resulta interesante porque teniendo en cuenta que t es ruido blanco Gaussiano.

    Yt = t +  t-1 =

    = t +  (Yt-1 +  t-2 ) =

    = t +  Yt-1 + 2 t-2 =

    = t +  Yt-1 + 2 (Yt-2 +  t-3 ) =

    = t +  Yt-1 + 2 Yt-2 + 3 t-3 =

    = … =

    = t + (-1)I+1 i Yt-i

    Por lo tanto el proceso de media móvil de orden 1 MA(1) puede ser escrito como la media ponderada de todos los retardos de Yt más el término t .

    Modelo ARMA

    La evolución natural de los modelos AR y MA está en combinarlos juntos , y esto se hace en el modelo que toma el nombre de la combinación de ambos ARMA, traducido en español como `modelo mixto' o también como `modelo de promedios móviles autorregresivo'.

    La combinación de una AR de orden p con un MA de orden q dará lugar al modelo ARMA(p,q)

    Yt ~ ARMA(p,q)

    Yt = 0 + 1 Yt-1 + 2 Yt-2 + … + p Yt-p + t + 1 t-1 + 2 t-2 + … + q t-q

    Con t ~ WN(0)

    El modelo ARMA es uno de los pilares en la predicción de series temporales. En general p y q suelen estar comprendidos entre cero y dos, por lo que el número de parámetros que deben ser estimados es pequeño, pero la variedad posible de las series temporales Yt es muy amplia por lo que no debemos asumir demasiado en este sentido.

    EVIDENCIA DE PREDICTIBILIDAD EN LAS SERIES TEMPORALES

    Una forma de poder determinar si en una serie temporal existe cierta predictibilidad consiste en mirar el grado de autocorrelación existente en la serie, es decir, cuanta de la información de la series nos está `hablando' sobre las características de la propia series, y por lo tanto cuánta de esa información podremos utilizar para predecir el comportamiento futuro de la misma.

    Muy brevemente, y a modo de rápido recordatorio informal, vemos una definiciones básicas que necesitamos conocer para entender más fácilmente los conceptos.

    • Varianza 2: de una variable aleatoria X, es una medida de su dispersión estadística que indica como de lejos están sus valores del valor esperado.

    Es el valor esperado del cuadrado de la desviación de X de su propia media, dicho de otra forma “la media del cuadrado de la distancia de cada punto a la media” (al usar el cuadrado evitamos los problemas de trabajar con unas distancias positivas y otras negativas). Su expresión básica (donde E es el valor esperado) es:

    2 = V[X] = E[(X - )2]

    • Covarianza: Si ahora en lugar de sólo una variable, tenemos dos variables aleatorias X e Y . La covarianza es una medida de la dependencia recíproca entre las dos variables aleatorias. Ahora ya tenemos un indicador que puede decirnos algo sobre la predictibilidad, pues podemos conocer algo sobre en qué medida X nos habla de Y y viceversa.. Su fórmula inicial según la definición general es la siguiente:

    Cov[X,Y] = [(X - x) (Y - y)]

    • Correlación: También llamado coeficiente de correlación, es una medida numérica de la `fuerza' de la dependencia lineal existente entre dos variables aleatorias X e Y. Su fórmula es como sigue:

    Corr[X,Y] =

    con -1 " Corr[X,Y] ]" 1

    En el caso de las series temporales de covarianza estacionaria, donde:

    E[Xt] =  para todo t, y

    V[Xt] = 2 para todo t.

    Y por lo tanto la media no condicional y la varianza de cada Xt se supone que será la misma. Esto no implica que la media condicional y varianza vaya a ser la misma.

    Muchas series temporales económicas y financieras puede ser tratadas suponiendo que cumplen estas condiciones.

    La otra propiedad de las series temporales de covarianza estacionaria es que todas la autocovarianzas son constantes a lo largo del tiempo.

    Cov[Xt, Xt-j] = Cov[Xt+s, Xt+s-j] para todo s y j.

    • Autocovarianza , es el caso particular de la covarianza en el que las dos variables aleatorias son la misma, y por lo tanto lo que obtendremos será una medida de la dependencia de una variable sobre si misma. La autocovarianza de orden j para series temporales es a siguiente

    j = Cov[Xt, Xt-j] =

    = E[(Xt - ) (Xt-j - )] =

    = E[Xt · Xt-j] - 2

    Nótese que para 0

    0 = Cov[Xt, Xt-j] = V[Xt] = 2

    Autocorrelación

    Ya conocemos que es la correlación entre dos variables aleatorias X e Y, pues si ahora hacemos que las dos variables aleatorias sean la misma y calculamos la correlación entre X y X, lo que obtenemos es una medida de la dependencia lineal existente en la serie. Es una relación cruzada de la serie temporal consigo misma, y resulta muy útil para detectar patrones que se repiten en la serie temporal, o identificar la frecuencia fundamental de la serie.

    La Autocorrelación de orden j de una serie temporal Xt es:

    j = Corr [Xt, Xt-j] =

    = =

    =

    y en el caso concreto de la autocorrelación de orden cero 0

    0 = Corr [Xt, Xt] = 1

    Cuando estimamos la función de autocorrelación de una serie temporal dado un conjunto de datos, nos gustaría saber cuáles de los retardos son significativos y cuáles no. Por ejemplo nos gustaría llevar a cabo una prueba de cierta hipótesis de los coeficientes de autocorrelación que nosotros estimamos.

    Teniendo en cuenta que es la media simple, la estimación estándar del coeficiente de autocorrelación para un conjunto de datos dado será:

    =

    = =

    =

    Donde el número de iteraciones a computar será

    Nótese que cuando se computa el coeficiente da autocorrelación de orden j, debemos quitar las primeras j observaciones del sumatorio en el numerador. Una implicación de esto es que solo podeos computar autocorrelaciones hasta el orden (T-1), sine embargo no es buena idea tratar de computar autocorrelaciones de orden muy alto en relación con T, porque tales estimaciones no son muy precisas.

    La autocorrelación de orden (T-1) es una estimación basada solo en una observación, por lo que se deduce fácilmente que no podrá ser una estimación muy precisa.

    Pruebas de coeficientes de autocorrelación individuales

    Cuando los datos son variables independientes e idénticamente distribuidos (iid) puede verse que, bajo algunas asunciones, la distribución asintótica de la estimación de la autocorrelación bajo la hipótesis nula que esta es igual a cero es:

    Y por lo tanto el error estándar para un es . Este es el que se conoce como Error Estándar de Bartlett para el coeficiente de autocorrelación de una muestra. Esta distribución es útil cuando queremos probar la siguiente hipótesis nula:

    H0 : j = 0

    contra Ha : j " 0

    con j"0

    Un intervalo de confianza del 95% es un par de números [L,U], tal que la probabilidad bajo la hipótesis nula de que el intervalo incluya el valor verdadero es del 0.95.

    Usando la distribución asintótica podemos obtener un intervalo de confianza del 95% al rededor de un coeficiente de autocorrelación de muestra

    95% IC :

    Si este intervalo no incluye el cero, entonces podemos concluir que el coeficiente de autocorrelación de orden j es significativamente diferente de cero a un nivel del 5%.

    Equivalentemente, podemos construir un “t-estadístico” para :

    tstat = =

    = =

    =

    Si entonces

    tstat =

    bajo la hipótesis nula  = 0.

    Realizamos una pruebas estadística t-test comparando el t-estadístico con el 95% valores críticos de la distribución N(0,1), que son ±1.96.

    Si el valor absoluto del t-estadístico el mayor que el valor crítico de la distribución, |tstat| > 1.96, podemos concluir que hemos encontrado evidencias contra la hipótesis nula  = 0 y decimos que el coeficiente de autocorrelación es “significativamente distinto de cero” (o también podemos decir simplemente que es “significante). Es decir, que existe autocorrelación.

    Cuando los datos bajo análisis muestran heteroscedasticidad (la varianza no es constante), el test descrito no es apropiado, porque el error estándar de ya no es .

    Los errores estándar de Bartlett solo son aplicables si los datos son independientes e idénticamente distribuidos (iid), lo que contradice la condición de heteroscedasticidad.

    Muchas series temporales de la rentabilidad de activos financieros muestran heteroscedasticidad condicional, y por lo tanto es preferible llevar a cabo pruebas “robustas” para la autocorrelación, utilizando los parámetros estimadores de White o Newey-West para los errores estándar. Esto lo podemos hacer mediante la regresión:

    Yt = 0 + j Yt-j + et

    y realizando la prueba con las hipótesis:

    H0 : j = 0

    contra Ha : j " 0

    lo que se consigue realizando simplemente un t-test.

    La mayoría de los paquetes de software económico ofrecen errores estándar robustos como una opción.

    Si se sutilizan errores estándar robustos para computar el t-estadístico, entonces la prueba es adecuada para datos con heteroscedasticidad.

    La prueba robusta para autocorrelación (robust test) se puede seguir en tres pasos:

  • Estimar Yt = 0 + j Yt-j + et

  • Obtener un error estándar robusto para , por ejemplo mediante los métodos de error estándar de White o Newey-West

  • Probar

  • H0 : j = 0

    contra Ha : j " 0

    Pruebas de coeficientes de autocorrelación conjuntas

    Supongamos que la prueba de una hipótesis con un nivel del 5% tiene, por construcción, un 5% de falsedad rechazando la hipótesis nula. Cuando la hipótesis nula es cierta hay una posibilidad entre veinte de que una prueba con un nivel del 5% sugiera que la hipótesis nula es falsa.

    Por lo tanto, cuando obtengamos un resultado en una prueba, ¿qué debemos concluir?. Si realizamos veinte pruebas y en una de ellas obtenemos un resultado significativo para el coeficiente de autocorrelación individual, ¿qué debemos sacar en conclusión?, ¿será ese resultado significativo verdaderamente significativo? ¿o se corresponde con uno de esos falsos rechazos que podríamos esperar al llevar acabo veinte test?. Estas preguntas están relacionadas con el tema del data snooping del que tratamos anteriormente.

    Una forma de superar esta problemática es llevar a cabo pruebas conjuntas de que todos los coeficientes de autocorrelación hasta el retardo L son cero.

    Una de estas pruebas es el test de Ljung-Box Q-estadístico. Este es un tipo de prueba muy utilizada, pero se basa en la asunción de que los datos son independientes es idénticamente distribuidos (iid), y por lo tanto no es aplicable a datos que presenten heteroscedasticidad.

    Este tipo de prueba es para la siguiente hipótesis nula y su correspondiente hipótesis alternativa:

    H0 : j = 0 para todo j

    contra Ha : Existe al menos una j par ala cual j " 0 con j = 1, 2, ..., L

    Es decir estamos imponiendo la restricción de que

    1 = 0 , 2 = 0 , ... , L = 0

    El Ljung-Box Q-estadístico, denotado como QLB(L), es:

    QLB(L) =

    Así pues el estadístico QLB(L) es simplemente una suma ponderada de los coeficientes de autocorrelación al cuadrado, con j variando de 1 a L.

    Una observación al respecto es que si L fuese 1 estaríamos aproximadamente en el caso anterior, Bartlett,

    Bajo la hipótesis nula Ho, el estadístico QLB(L) está distribuido como , una variable aleatoria Chi-cuadrado con L grados de libertad

    QLB(L) ~

    Con una prueba Chi-cuadrado rechazaros la hipótesis nula lis el test estadístico (en este caso QLB(L)) es mayor que el valor crítico del 95% de una variable aleatoria (este valor crítico tendríamos que ir a buscarlo a las tablas estadísticas correspondientes)

    Un pequeño problema con el QLB(L) es que la elección de L queda al albedrío del investigador. L es el número de autocorrelaciones que queremos examinar.

    La elección del número de autocorrelaciones a examinar L suele ser, la mayoría de las veces, una elección arbitraria sin una base verdaderamente metodológica. Por ejemplo para datos diarios 10, quizás hasta 20. Para datos semanales suele usarse entre 4 y 8, y para datos mensuales 13. Aunque cada investigador puede tener sus propios valores basados en sus experiencias y las particularidades de los datos con los que trabaje.

    Un método para probar la correlación hasta un retardo dado L que es robusto con respecto a la heteroscedasticidad es hacer un sencillo test basado en una regresión. Estimemos la siguiente regresión:

    Yt = 0 + 1 Yt-1 + 2 Yt-2 + … + L Yt-L + et

    Y a partir de ella obtener el error estándar robusto para los parámetros estimados. Después probar la hipótesis conjunta mediante una prueba Chi-cuadrado, -test

    H0 : 1 = 2 = ... = L = 0

    contra Ha : i " 0 para algún i = 1, 2, ..., L

    La hipótesis nula impone L restricciones sobre los parámetros, y por lo tanto el valor crítico apropiado será el de una variable Chi-cuadrado con L grados de libertad, compara el test estadístico de Ljung-Box.

    Resumiendo el proceso de prueba conjunta robusta, lo podemos desglosar en tres pasos:

  • Estimar Yt = 0 + 1 Yt-1 + 2 Yt-2 + … + L Yt-L + et

  • Obtener un error estándar robusto para ,

  • Probar

  • H0 : 1 = 2 = ... = L = 0

    contra Ha : i " 0 para algún i = 1, 2, ..., L

    CRITERIOS EN LA SELECCIÓN DEL MODELO Y LA INFORMACIÓN

    A la hora de ajustar un modelo ARMA(p,q) a nuestras series temporales, para capturar la predictibilidad existente en las series (que habremos comprobado previamente como ya se ha explicado), debemos decidir los ordenes para los modelos AR y MA (los valores de p y de q respectivamente), este proceso no es algo sencillo que puede hacerse a la ligera.

    No queremos elegir ordenes muy bajos porque entonces perderíamos parte de la información valiosa de que disponemos y esto reduciría la precisión de la predicción. Tampoco queremos escoger valores demasiado altos, porque entonces los parámetros estimados se convierte en menos precisos cuanto más parámetros tenemos para estimar. Parámetros estimados con poca precisión conducen a predicciones poco precisas.

    Media del error al cuadrado MSE

    Por lo tanto elegir los valores para p y q conlleva todo un proceso de valoración eligiendo de manera equilibrada pensando en los pros y contras de la elección de los valores, de manera que sopesamos por un lado los errores admisibles en la estimación y por otro lado la bondad del ajuste que el proceso o modelo nos puede ofrecer.

    La forma más generalizada de medir la bondad del ajuste es la media del error al cuadrado (o MSE de su denominación en inglés Mean Squared Error):

    MSE =

    donde et es el residuo, o error de la predicción.

    Un valor bajo del MSE significa que los errores son en general pequeños, lo que lógicamente significa que el modelo está haciendo un buen trabajo. Y al contrario, cuando mayor sea el MSE, mayor es el tamaño (en valor absoluto) de los errores y por lo tanto el modelo hace un peor trabajo.

    Una medida relacionada (de la que ya hablamos) es R2, que recordemos que se define como:

    R2 =

    Donde Yt es la variable dependiente. Y como suponemos ê = 0

    R2 = =

    =

    Esta medida puede ser interpretada como la proporción de la variación en la variable dependiente que es explicada por el modelo.

    R2 nunca puede disminuir (lo que recíprocamente quiere decir que MSE nunca puede incrementarse) cuando se incluye otra variable extra en el modelo. Por lo tanto la única manera de obtener cada vez mejores valores de R2 consiste en seguir añadiendo más y mas regresores, por ejemplo, añadiendo mas AR o MA retardos.

    De hecho, se podría garantizar un valor de R2 = 1 simplemente añadiendo regresores hasta tener tantos regresores como observaciones tenemos en la serie.

    Esta propiedad de R2 es problemática porque puede llevarnos a “sobre-ajustar” en la muestra. El sobre-ajuste ocurre cuando el investigador añade variables al modelo de regresión que parece ser bueno y este proceso de añadir variables parece ser bueno porque por ejemplo aumenta el valor de R2, pero que realmente no resulta útil para la predicción.

    Tengamos en cuenta que siempre preferiremos los modelos que demandan la menor cantidad de información.

    Así pues comprobar la bondad del ajuste en R2 no resulta útil para ayudarnos a encontrar un buen modelo de predicción, porque ignora el impacto de los errores de estimación en la precisión de la predicción.

    Este problema trae a discusión el asunto de estudiar la bondad mirando en la muestra o estudiar la eficacia sin tener en cuenta la muestra en el modelo predictivo.

    La predicción es inherentemente un proceso que no debe mantener la vista en la muestra concreta, al contrario que muchos otros campos de la econometría.

    Fijarnos en la muestra para establecer los criterios de los modelos predicativos resulta más sencillo, pero falla a la hora de replicar problemas más reales de predicción del futuro utilizando datos históricos.

    Otras medidas S2, AIC, BIC

    Consideremos ahora alguna otra alternativa de medida.

    Podemos darnos cuenta de que el MSE divide la suma del cuadrado de los errores por T, en lugar de corregir el número de parámetros estimados. Sabemos que la varianza de la muestra normalmente se define como la suma de los errores al cuadrado dividido por (T-1) para llegar al hecho de que se estima la media de la muestra.

    • S2:

    Un método análogo al MSE que no refleja el número de parámetros es S2, que se define de la siguiente forma (SINDO k el número de parámetros en la regresión):

    S2 = =

    =

    Añadimos una variable extra, el MSE baja pero sube. Por lo tanto hay que valorar si compensa lo que disminuye una con lo que sube la otra, o si no compensa.

    Como el MSE no tiene penalización por añadir parámetros adicionales lo que hacemos es añadir un penalización por añadir parámetros.

    es el denominado término de castigo, que penaliza la adición de parámetros al modelo. S2 tiene más penalización que MSE (que de hecho no tiene ninguna).

    Al igual que el MSE estaba relacionado con R2, S2 está relacionado con un “R2 ajustado” (R-barra al cuadrado), .

    = =

    = =

    = =

    =

    Los pasos de arriba muestran como puede ser reescrito como el MSE tantas veces como un término de penalización (es decir la multiplicación del MSE por el término de penalización).

    • AIC

    Recibe su nombre de Akaike Information Criterion (AIC)

    Añade más penalización a la adición de variables adicionales que S2, pero menos que el BIC.

    AIC =

    AIC =

    • BIC

    Recibe su nombre de Schwartz's Bayesian Information Criterion (SIC)

    BIC =

    BIC =

    • Otros

    La penalización que se añade no tiene por que la de estas fórmulas. Si tenemos suficiente soltura en el manejo de estos criterios, y un buen conocimiento de nuestro modelo y de el objetivo que queremos, etc. Podemos definir nuestras propias penalizaciones al MSE para obtener unos resultados más ajustados a nuestras necesidades concretas.

    Para elegir el mejor modelo de un conjunto de modelos dado, estimamos todos ellos y luego elegiremos aquel que minimiza nuestro criterio de selección MSE, S2, AIC, BIC, u otro.

    Resulta muy útil para ayudarnos a decidir qué medida es la más adecuada poder ver y comparar cómo cada una de ellas respecto a las demás dibujando un gráfico de la penalización que incluye cada una de ellas.

    Un factor de penalización de 1 implica que existe penalización, pero un valor mayor ya implica la existencia de penalización. Como es de esperar el MSE tiene un factor de 1 para todo k.

    Vemos como la siguiente medida que impone un poco de penalización es la S2, y como AIC impone una mayor penalización, y llegando al BIC que es el que mayor penalización aplica.

    Así pues a la hora de seleccionar entre distintos modelos utilizando estos criterios, el MSE siempre escogerá el modelo mayor, puesto que al tener más variables el valor de R2 será mejor, mientras que el BIC, normalmente, seccionará el modelo más pequeño, porque tiene una gran penalización al número de variables. AIC y S2 seleccionarán modelos intermedios. El AIC ligeramente modelos más pequeños y el S2 modelos un poco mayores.

    Los dos criterios de selección de modelos más utilizados son el AIC y el BIC, y hay varias razones por la s que el AIC o BIC es mejor que el otro. Sin embargo la discusión entre elegir uno y otro no está clara por lo que en la mayoría de los paquetes de software del mercado vienen los dos para que seamos nosotros lo que elijamos cuál de estas dos medidas queremos utilizar.

    El BIC elegirá modelos pequeños, lo que en general es bueno para las predicciones, mientras que el AIC elegirá modelos mayores. S2 podría elegir también modelos mayores y R2 siempre seleccionará los modelos mayores.

    PREDICCIÓN DEL ERROR FUERA DE LA MUESTRA Y SELECCIÓN DE MODELO

    La aplicación de la mayoría de los modelos predictivos será `fuera de la muestra', esto quieres decir, en un periodo distinto (o posterior) al periodo usado para la estimación. La verdadera pregunta de interés es en qué medida el modelo va a actuar bien fuera de la muestra.

    El criterio de selección de un modelo intenta predecir cómo de bien se comportará el modelo fuera de la muestra recompensando la bondad del ajuste y penalizando la adición de parámetros extra.

    Un mejor acercamiento al problema sería aplicar el modelo a un periodo que sea similar al periodo fuera de la muestra y compara qué tal resulta el modelo

    La muestra de datos va desde el tiempo 1 hasta el tiempo T. Dividimos el periodo de muestra en dos partes:

    • Las primeras R observaciones están reservadas para la estimación

    • Las últimas observaciones P = T - R son usadas como un falso periodo `fuera de muestra' para la predicción.

    Utilizaremos tres estrategias para estimar cuando tenemos

  • Método de ventana deslizante.

  • Método de ventana creciente.

  • Periodo de estimación fijo.

  • Ventana deslizante

    En este esquema de estimación siempre usamos las estimaciones más recientes para estimar el modelo y predecir un periodo por delante.

    Tenemos que escoger la longitud de la ventana , n, e ir añadiendo las n observaciones más recientes (sin llegar al tiempo T)

    Este método se usa cuando la relación entre las variables es cambiante.

    Ventana creciente

    En el esquema de estimación utilizamos todas las observaciones entre el periodo 1 y el periodo t, y lo que haremos será re-estimar cada periodo.

    Periodo de estimación fijo

    Cuando queremos utilizar este esquema, estimamos los parámetros solo una vez, utilizando el periodo de 1 a R, y usamos estos para todas las subsiguientes predicciones.

    Tomaremos esta aproximación solo cuando estimar el modelo muchas veces no es posible.

    Conclusión

    Supongamos que nuestro modelo es

    Yt+1 = Xt + t+1

    Y sea el parámetro estimado obtenido usando todos los datos hasta el tiempo t ( por lo que usaríamos el método de ventana creciente), o los datos entre t y t-R+1 (estaríamos ante el método de la ventana deslizante), o los datos entre 1 y R (en cuyo caso estaríamos ante el método de periodo de estimación fijo).

    Nuestra predicción fuera de la muestra para Yt+1 es Xt, y el correspondiente error de la predicción es

    et+1 = Yt+1 - Xt

    La media del error de predicción al cuadrado (llamada MSFE de su nombre en inglés Mean Square Forecast Error) para el modelo será:

    MSFE =

    MSFE no incluye ninguna término de penalización directa para los parámetros extra, porque las predicciones son hechas en una muestra distinta a la usada para la estimación, y por lo tanto añadir más variables al modelo no significa necesariamente una mejora de la predicción.

    Esto es, mediante la evaluación de las predicciones del modelo usando un periodo fuera de la muestra estamos determinando directamente si la adición de una variable extra mejora la predicción fuera de la muestra.

    Una mediad de la precisión de la predicción fuera de la muestra que resulta más sencilla de interpretar que la MSFE es la “R2 fuera de muestra” o llamada también R2oos , de la denominación en inglés “out-of-sample”.

    Como en la R2 en la muestra, es simplemente una función del MSE y la varianza de la variable de interés, igualmente la R2oos es una función de la MSFE. En lugar de escalar la MSFE mediante la varianza de la variable de interés (lo que podríamos interpretar como la MSE de la muestra de una predicción constante), la escalamos por la MSFE de una predicción constante.

    R2oos =

    Donde es la media de la muestra de Yt usando la misma ventana (deslizante, creciente o fija) que en el modelo predictivo.

    Todo el término del denominador es como si fuese una predicción constante.

    R2oos es interpretada de distinta manera que R2. En lugar de interpretarla como una mediad de la proporción de la variación en la variable de interés explicada por el modelo, R2oos la interpretaremos como la medida del porcentaje de mejora en MSFE sobre una predicción constante

    Por lo tanto R2oos = 1 indica que el modelo es perfecto

    0 < R2oos < 1 indica que el modelo no es perfecto, pero mejor que una predicción constate

    R2oos = 0 indica que el modelo solo es igual de bueno que una predicción constante. MSFE es igual a una predicción constante, en este caso las dos son igual de buenos.

    R2oos < 0 (lo que es posible para esta medida de precisión) indicará que el modelo es peor que una predicción constante.

    Si tenemos dos modelos (digamos uno nuevo y otro el que estábamos usando hasta ahora) podemos compararlos mediante esta fórmula y así hacer una comparativa con datos objetivos que nos permitirá concluir cuál de los dos nos resulta más interesante

    Esta evaluación de la predicción fuera de muestra siempre es preferible a la hora usar un criterio para la selección de un modelo, pero no es siempre computacionalmente factible realizarlos.

    Para algunos modelos, o en algunas situaciones, no es factible estimar el modelo muchas veces como requieren los estimadores de ventana creciente o de ventana deslizante. Sin embargo, casi siempre es posible estimar el modelo con una estimación de periodo fijo y llevar a cabo una comparativa fuera de muestra.

    MODELADO DE LA VOLATILIDAD

    Modelos ARCH y GARCH

    Vamos a considerar ahora la forma de predecir la volatilidad de una serie temporal, que puede resultar muy interesante para la predicción en los mercados financieros. Si somos capaces de capturar la predictibilidad en la volatilidad, esto sería muy beneficioso para poder mejorar la gestión de las carteras, gestión del riesgo, determinación de precios, etc.

    Consideremos un modelo ARMA estándar ARMA(1,1) para la rentabilidad de un activo financiero:

    Yt+1 = 0 + 1 Yt + t+1 + … +  t

    Con t+1 ~ WN(0, 2)

    Esto, relativo a la volatilidad, implica que:

    Vt [Yt+1] = V[ 0 + 1 Yt + t+1 + … +  t ] =

    Vt [Yt+1] = Vt[t+1]

    porque los otros términos son todos conocidos en el instante t

    Vt [Yt+1] = 2

    Por la asunción de que t+1 ~ WN(0, 2)

    Así pues en los modelos estándar la volatilidad es Vt[Yt+1] = 2, una constante.

    El cuadrado del residuo está relacionado con la heterostadisticidad o la homoescedasticidad, y al igual que podemos considerar las series temporales Yt, también podemos considerar las series del cuadrado del residuo, 2t, como series temporales, y por lo tanto ahora tendríamos el siguiente modelo

    2t+1 = Et [2t+1] + t+1

    con t+1 ~ WN(0), ahora estamos introduciendo un error

    = Vt [ t+1 ] + Et [t+1]2 + t+1

    por la definición de la varianza

    = Vt [ t+1 ] + t+1

    porque Et [t+1] = 0

    = 2 + t+1

    teniendo en cuenta que t+1 ~ WN(0, 2)

    Esto es, la serie temporal 2t+1 puede ser descompuesta en dos partes, la media condicional y una serie de ruido blanco de media-cero, que hemos denotado como t+1.

    Si la varianza condicionada fuese realmente constante, la función de autocorrelación sería la siguiente (con j " 0 ):

    j = Cov [2t+1, 2t+1-j ] =

    = E [ (2t+1 - E [ 2t+1-j ] ) · (2t+1-j - E [ 2t+1-j ] ) ] =

    = E [ t+1 · t+1-j ] =

    = 0 " j " 0 porque t+1 es ruido blanco gaussiano WN(0)

    Así pues, si Yt tienes una varianza condicional constante, la función de autocorrelación de será cero para todos los retardos.

    De la función de autocorrelación podemos detectar una fuerte evidencia de dependencia en la serie. Esto sugiere que la asunción de una varianza condicional constante para 2t+1, es falsa. Si la varianza condicional no es constante tenemos que buscar cómo podríamos modelarla. Para ello comenzamos con un modelo AR para 2t+1 que resulta de la siguiente forma:

    2t+1 =  +  2t + t+1

    con t+1 ~ WN(0)

    La implicación de esto para la función de la varianza condicional es la siguiente

    YTM = 0 + 1 Yt +  t + t+1

    Con t+1 ~ WN(0)

    Vt [ Yt+1 ] = Et [2t+1] " 2t+1

    2t+1 = Et [ +  2t + t+1 ] =

    =  +  2t + 0

    porque t+1 es ruido blanco

    2t+1 =  +  2t

    La ecuación de arriba es la famosa ecuación del MODELO ARCH(1) formulada por Ingle en 1982, que como hemos visto viene de un modelo AR.

    ARCH 2t+1 =  +  2t

    Dice que la varianza condicional de la rentabilidad de mañana es igual a una constante más un residuo de hoy al cuadrado.

    Este es un modelo sencillo y muy potente para capturar la predictibilidad en la volatilidad

    Si un modelo AR(1) para 2t+1 nos lleva a un modelo ARCH(1) para la varianza condicional, cabe preguntarse a dónde nos llevaría un modelo ARMA(1,1) para 2t+1, sabiendo que un modelo ARMA es más flexible en sus especificaciones. El modelo sería de la siguiente forma:

    2t+1 =  +  2t + t+1 +  t

    con t+1 ~ WN(0)

    Trabajando ahora con esto referido a la función de la varianza condicional tenemos:

    Vt [ Yt+1 ] = Et [2t+1] " 2t+1

    2t+1 = Et [ +  2t + t+1 +  t ] =

    =  +  2t +  t + 0 =

    porque, como t+1 es ruido blanco, Et[t+1] = 0

    =  +  2t +  ( 2t - Et [2t] ) =

    sustituyendo t

    =  +  2t +  ( 2t - 2t ) =

    =  + ( + ) 2t -  2t =

    redefiniendo el coeficiente  = ( + )

    y  = - llegamos a:

    2t+1 =  +  2t +  2t

    La ecuación final que tenemos arriba es el MODELO GARCH(1,1) obtenido por Bollerslev en 1986.

    GARCH 2t+1 =  +  2t +  2t

    El modelo ARMA(1,1) - GARCH(1,1) es un pilar fundamental en análisis de las series temporales financieras, y ahora podemos escribirlo como:

    Yt+1 = t+1 + t+1

    Con t+1 ~ WN(0, 2)

    t+1 = Et [Yt+1] = 0 + 1 Yt +  t

    2t+1 = Vt [Yt+1] =  +  2t +  2t

    El modelo ARCH(1) (que, como vimos, viene del AR) tiene poca memoria. El modelo GARCH(1,1) (que a su vez viene del ARMA) tiene más memoria.

    Existen además varias extensiones de los modelos ARCH y GARCH: ARCH-M, NARCH, SQARCH, PARCH, QARCH, STARCH, APARCH, GJR-GARCH (para modelos con efecto de apalancamiento), TARCH, EGARCH

    Pedro Herrero Gonzalez herrero@telecable.es

    1

    R R+1

    T T+1

    Periodo de la muestra

    'Predicción de mercados financieros'

    Periodo de

    estimación

    Periodo fuera de muestra

    estimación

    1

    R

    T

    n

    R+1

    R+2

    n

    T

    n

    R+1

    T

    R

    1

    R

    R+1

    T-1

    T

    T

    R+2

    R+1

    T

    R

    1

    'Predicción de mercados financieros'
    'Predicción de mercados financieros'

    ...

    ...