Psicología

Refuerzo y reforzamiento

Compartir 0 Me sirvió 0 No me sirvió

TEMA 16:REFUERZO Y REFORZAMIENTO.

1. Un poco de historia.

Thorndike dio la siguiente formulación de la Ley del Efecto: Cuanto mayor es la satisfacción o la incomodidad, mayor es el fortalecimiento o debilitación del lazo.

Varias ideas importantes encontramos en esta definición:

La función de los reforzadores (satisfacciones) es fortalecer la conexión de las R con la situación, y la de los castigadores (incomodidades) debilitarlas.

La condición necesaria, pero no suficiente para que esta función se lleve a cabo es la contigüidad temporal entre R y sus consecuencias.

La naturaleza de las consecuencias son de carácter fundamentalmente hedónico.

La identificación de reforzadores y castigadores se hace en base a las conductas de aproximación o escape/evitación que las consecuencias generalmente suscitan.

El efecto de los castigadores es de signo contrario al de los reforzadores, pero ambos efectos son simétricos.

Todas las ideas de Thorndike con respecto al refuerzo han sido ampliamente debatidas. Hull compartió sin reservas las dos primeras y les dio una formulación precisa dentro de su sistema. La fuerza del hábito (sHr) aumentaba únicamente cuando la secuencia E-R iba seguida de cerca por reforzamiento, y la magnitud del reforzamiento establecía el límite máximo de crecimiento de la fuerza del hábito. Lo que Hull no encontró satisfactorio, fue la vaguedad con que se definía la naturaleza del reforzamiento. Para Hull, el acontecimiento que provocaba el crecimiento de la fuerza del hábito era la reducción del impulso (drive) asociado con una ansiedad biológica. Sólo aquellos acontecimientos con capacidad para reducir los impulsos podían ser considerados como reforzadores.

Esta aportación de Hull, reduce la ambigüedad de la formulación de Thorndike.

La postura de Skinner es muy distinta. Adoptó una aproximación al problema del refuerzo puramente descriptiva. Si una R aumenta en frecuencia de ocurrencia porque va seguida de un E determinado, entonces el E queda catalogado como reforzador y su presentación dependiente de la R constituye el refuerzo. Si un E no aumenta la probabilidad de la conducta a la que acompaña, entonces no es un reforzador.

La debilidad conceptual no ha dejado de crear controversia. La primera implicación es que un E puede actuar unas veces como reforzador y otras no, sin que podamos realmente saber antes del hecho, cuándo va a hacerlo y cuando no. La investigación se encarga de ir aumentando o disminuyendo el catálogo de situaciones en que un determinado E actúa como reforzador.

La definición skinneriana de la ley del efecto, solamente recoge de la formulación de Thorndike la referencia a la contigüidad temporal entre R-Reforzador como condición para que aumente la frecuencia de la conducta operante.

2. Crisis del refuerzo en el análisis funcional del comportamiento.

Premack se interesó por buscar una basa para establecer las condiciones bajo las cuales una R es o no reforzada. Para él, los reforzadores son la actividad inducida por los E. No considera el valor reforzante de una determinada actividad como algo absoluto, sino relativo. La forma de discernir qué actividad resultará reforzante y qué actividad resultará reforzada consiste en comprobar la probabilidad de ocurrencia de cada una de ellas en circunstancias en que el animal pueda optar por cualquiera de las dos. Propuso un principio: La hipótesis de la probabilidad diferencial, que dice “para cualquier pareja de R, la más probable reforzará a la menos probable”. La investigación posterior ha puesta de manifiesto la insuficiencia de la hipótesis. El mérito de esta, consistió en proponer una nueva forma de enfocar el problema del refuerzo y acentuar el papel que la conducta aprendida juega en la promoción de la supervivencia del organismo ante los retos planteados por el medio ambiente.

La crisis del concepto de refuerzo se hace más patente en una serie de fenómenos experimentales en los que o bien un conocido reforzador resulta incapaz de mantener una R operante que lo precede, o bien una R considerada operante surge sin necesidad de contigüidad temporal con un reforzador, el automoldeamiento es el ejemplo más importante.

3. La mala conducta (Misbehavior) de los organismos.

Término utilizado por los Breland para designar ciertas conductas observadas en animales que parecen carecer de valor adaptativo en cuanto que su aparición impide al animal deprivado alcanzar el reforzador. Se dedicaron durante mucho tiempo a aplicar los principios derivados de la ley empírica del efecto al entrenamiento de animales. A lo largo de su trabajo toparon con casos en que el entrenamiento de los animales no era posible debido a la aparición de conductas que no sólo no eran reforzadas, sino que impedían la obtención del reforzador con que se pretendía entrenarlos. Al principio, pensaron que podía deberse a un estado bajo de derpivación que facilitaba la aparición de conductas más o menos lúcidas, pero al aumentar la deprivación vieron que las conductas interfirientes, en lugar de desaparecer, aumentaban.

Las observaciones fueron, dentro del campo operante, una primera llamada de atención hacia la importancia de la conducta instintiva de los animales.

4. Polidipsia.

Fenómeno descrito por primera vez por Falk. Cuando ratas hambrientas reciben alimento en un programa de intervalo fijo, si los animales tienen agua disponible durante la sesión experimental, consumen una extraordinaria cantidad de agua, a pesar de que los animales no están privados de agua.

Aunque los determinantes de este tipo de conducta no se conocen bien, sí parece claro que no se trata de una conducta mantenida por refuerzo adventicio, (similar al propuesto por Skinner para explicar la conducta supersticiosa). Las razones para pensar que no está mantenida por el refuerzo se basan en que el beber casi nunca precede inmediatamente al refuerzo y no puede argumentarse que forma parte de una cadena de respuestas porque:

El beber es con frecuencia repetitivo.

En una cadena de respuestas, la condición necesaria y suficiente para la aparición de una respuesta determinada es la ocurrencia de una R previa en la cadena. Si la conducta previa no ocurre, la cadena queda interrumpida y la R siguiente no aparece.

Las consecuencias que se observan muestran variabilidad de sucesión y variabilidad temporal, ya que una determinada R no ocurre siempre al mismo tiempo.

5. Conducta supersticiosa.

En un experimente, hoy clásico, Skinner observó que en el período entre distintas presentaciones del alimento la mayor parte de las palomas presentaron una conducta idiosincrática, pero consistente, (por ej. Una paloma mostró una tendencia a alargar la cabeza hacia una esquina, otra desarrolló una tendencia a hacer movimientos de picoteo en el suelo, etc.). La explicación que dio de la emergencia de estas conductas es un ejemplo explícito de la forma automática como supone que el refuerzo lleva a cabo su acción.

Una conducta cuya primera ocurrencia se debe exclusivamente al azar, termina por instaurarse en virtud de la acción necesario y automática del refuerzo.

Esta interpretación gozó de aceptación hasta que Staddon y Simmelhag analizaron el fenómeno en detalle. En su experimento utilizaron una condición similar con un intervalo fijo de doce segundos, además emplearon otros dos programas de refuerzo, uno de intervalo variable con un promedio de ocho segundos en el que el reforzador era presentado independientemente de la primera R y otro intervalo fijo en el que el alimento se daba por la primera R ejecutada después de transcurridos doce segundos como mínimo desde el esfuerzo anterior. El resultado de las observaciones fue distinto al de Skinner. Al principio del experimento todas las palomas mostraban una gran variabilidad de R, pero al cabo de aproximadamente cinco sesiones, todas terminaban haciendo lo mismo: picotear. R. parecidas a las observadas por Skinner también aparecían, pero justamente después de la presentación del alimento.

También encontraron muy poca diferencia entre la conducta de las palomas bajo un programa de refuerzo independiente de la R y un programa de refuerzo dependiente de la R. La única diferencia producida por los dos tipos de programas consistía en que la introducción de la relación R-reforzador típica del condicionamiento operante, no afectaba a la tasa de R, sino que proporcionaba direccionalidad a la conducta.

La interpretación de la conducta supersticiosa propuesta por Skinner no puede explicar estos resultados. Lo que aparece no es una respuesta idiosincrática cuya frecuencia es predominante durante todo el intervalo, sino una secuencia de R, cuya frecuencia varían a lo largo del intervalo y que termina en una R común en clara relación con la naturaleza del reforzador. La relación de dependencia entre la R-reforzador que enuncia la ley empírica del efecto, no parece afectar a la frecuencia de la R, como dice la ley, sino a su direccionalidad.

Staddon y Simmelhag propusieron una interpretación de sus resultados muy distinta a la de Skinner. Hay dos clases de conducta en la secuencia de R encontradas:

La conducta terminal, que aparece al final del intervalo (el picoteo). Esta conducta está solo parcialmente controlada por la ley del efecto, ya que depende del estado motivacional del organismo, y de que la oportunidad de satisfacer la necesidad esté disponible.
La conducta de interin, que aparece al principio. Esta conducta no está controlada por la ley del efecto, sino que consiste en patrones de conducta característicos de una especie determinada que aparecen cuando el organismo está en un determinado estado de deprivación, en una situación en que la necesidad generalmente es satisfecha, peor no hay oportunidad de hacerlo en un determinado momento.

La conducta de interín tiene una gran semejanza con la conducta adjuntiva de la polidipsia. Ambas suelen ser relacionadas con las actividades de desplazamiento descritas por los etólogos. Un entendimiento de estas conductas, así como de la mala conducta de los Breland, requiere un conocimiento mayor de la historia natural del comportamiento de cada especie.

La conducta terminal tiene semejanzas y diferencias con el fenómeno de automoldeamiento. Las situaciones experimentales son iguales en la presentación del reforzador, que se realiza independientemente de la conducta del sujeto. La relación parece ser de condicionamiento clásico. Pero mientras que en el automoldeamiento el E es claro y la relación E-reforzador explícitamente establecida por el experimentador, en el caso de la conducta terminal, el E es más difícil de especificar. Nominalmente, el E al que el experimentador liga el reforzador es un intervalo temporal, pero el E funcional, el que adquiere control de la conducta, puede ser el intervalo mismo o algún acontecimiento que ocurra en el intervalo. El estudio del control temporal de la conducta se ha convertido en un importante foco de investigación. Muchos de los modelos teóricos propuestos, hacen referencia como explicación a variables organísmicas (la activación y la inhibición), a procesos cognitivos (la memoria y atención), o a relojes internos.

6. Hacia una nueva conceptuación del refuerzo.

La revisión teórica que del proceso de aprendizaje propusieron Staddon y Simmelhag, no es la única, ni la última. Sin embargo, fue una de las primeras en replantear toda la concepción tradicional y está considerada como una de las más importantes contribuciones al análisis funcional del comportamiento.

Para ellos es necesario acercar la teoría del aprendizaje a la teoría de la evolución por selección natural. El aprendizaje debe concebirse como el proceso que completa en la historia del individuo, la adaptación al medio ambiente que la selección natural opera en la especie. A nivel comportamental:

Los principios de variación conductual determinan el rango de conductas que un organismo es capaz de llevar a cabo en una situación particular.
Los principios de selección conductual operan sobre ese conjunto de respuestas posibles y determinan cuál de ellas ocurre de hecho.

Sttadon y Simmelhag proponen como principios que operan en estas:

Principios de variación conductual:

Procesos de transferencia que estudian el efecto de experiencias pasadas en situaciones presentes.
Condicionamiento clásico, que proporciona a los estímulos originalmente neutros la capacidad de evocar respuestas.
Restricciones sintácticas. Referidas a las restricciones secuenciales entre conductas que hacen que una de ellas esté determinada por las precedentes, como el lenguaje humano.
Respuestas de orientación. Se incluyen conductas tales como la exploración, juego, curiosidad, etc. Que exponen al organismo a estímulos nuevos y proporcionan la posibilidad de transferencia a situaciones futuras.
Respuestas específicas ante una situación y típicas de la especie que pertenecen a las pautas heredadas de comportamiento.

Los principios de variación conductual, por ser los responsables de lo que un animal puede hacer en una situación, comprenden una amplia gama de procesos.

Principios de selección conductual:

Se habla en este contexto de dos principios:

El condicionamiento clásico, opera no sólo para determinar lo que el organismo puede hacer, sino para seleccionar la respuesta que ejecutará, como ocurre en el automoldeamiento y la conducta terminal.
El principio de refuerzo, actúa sólo para seleccionar la respuesta de entre el conjunto de posibles conductas. El proceso de selección que el refuerzo lleva a cabo, consiste en la eliminación de aquellas conductas que no lo producen.

Esta forma de concebir la acción del refuerzo implica que el organismo es capaz de distinguir entre los acontecimientos del medio que son dependientes de la conducta y aquellos que son independientes de la misma. Dentro de esta perspectiva, el papel del refuerzo queda limitado a seleccionar la R idónea para una determinada situación, pero no determina el conjunto de R que el organismo puede llevar a cabo. La forma como el refuerzo selecciona la R no es directa y automática, afectando a la probabilidad de ocurrencia de la misma, sino que depende de la percepción de la relación de dependencia R-Reforzador, lo que supone una ruptura con el principio de contigüidad defendido por Skinner, y una formulación de la relación R-Reforzador en términos de contingencia (como Seligman).

7. Crisis del reforzamiento entre los teóricos E-R.

En la medida que la ley teórica del efecto supone una especulación basada en la eficacia del procedimiento de refuerzo, la evidencia en contra de esta eficacia destruye el fundamento de la especulación. La crisis del concepto de reforzamiento se desarrolló en un contexto teórico muy ajeno a las preocupaciones operantes. La característica fundamental fue su preocupación por las V. Intermedias, pero fue típico de esta preocupación el no aceptar más que dos tipos de procesos:

Unos de carácter asociativo, que consistieron preferentemente en cadenas es E y R periféricas. Nunca se aceptó una complejidad no reductible a la unidad E-R básica;
Otros fueron de carácter motivacional, que se entendieron en un sentido exclusivamente energético y su función era propulsar la conducta permitiendo así la ejecución de la R dominante en la jerarquía de asociaciones E-R. La teoría de Hull ha sido su principal representante.

8. Modificaciones de la teoría de Hull.

Para Hull, el papel fundamental del refuerzo era fortalecer las conexiones E-R y más concretamente que la magnitud del reforzador determinaba el límite máximo de crecimiento de la fuerza del hábito, idea central del concepto de reforzamiento que asigna al refuerzo un papel exclusivamente asociativo. El 1952, Hull modificó su punto de vista debido a una serie de experimentos en los que se manipuló la cantidad de reforzador como V.I. y cuyos resultados fueron que aunque el refuerzo creciera de forma gradual, el cambio en la R no era de carácter gradual y no repentino.

La rapidez del cambio y el hecho de que estos resultados se repitieron en otros experimentos decidieron a Hull a modificar su punto de vista, e introdujo el concepto de motivación de incentivo, que simbolizó con la letra K y que supuso que se combinaba multiplicativamente con la fuerza del hábito (sHr), con el impulso (D) y con otras variables intermedias. El concepto de reforzamiento fue reformado. Ahora la fuerza del hábito era fortalecida por la frecuencia del refuerzo, pero no por su magnitud. Los aspectos cuantitativos del refuerzo modificaban la conducta motivacionalmente, aumentando o disminuyendo la cantidad de energía que la propulsaba.

El efecto sobre la conducta del incentivo (K) era para Hull igual al producido por el impulso (D), pero postula dos variables intermedias: las condiciones antecedentes del incentivo (de carácter externas al organismo), que son diferentes a las del impulso (de carácter interno al organismo), en segundo lugar, es fácil entender el aspecto propulsor del impulso, ya que la necesidad es previa a la conducta que le mueve, pero no es fácil explicar en un sistema mecánico únicamente dotado de energía y asociaciones cómo puede ser propulsada la conducta por un acontecimiento que le sigue. Se necesitaba un mecanismo diferente del impulso para explicar la acción del incentivo sobre la conducta, capaz de explicar el efecto anticipatorio del refuerzo y la aparente propositividad de la conducta. Hull y Spence encontraron este mecanismo en las respuestas fraccionales anticipatorias de la meta, (rg-eg).

9. El mecanismo rg-eg.

Propuesto por Hull para explicar la conducta propositiva. En la formulación inicial de Hull el mecanismo era de carácter asociativo. Sin embargo, la idea de conceptuar la acción del refuerzo en términos motivacionales y la de relacionar esta motivación de incentivo con el mecanismo rg-eg fueron de Spence. Las ideas centrales son:

Los E ambientales de la caja de meta y de la parte del pasillo cercana a la caja de meta quedan condicionados a la R de meta (Rg), es decir, a la actividad consumatoria que el animal lleva a cabo cuando entra en contacto con el reforzador.
A través del mecanismo de generalización del E, otros puntos del pasillo y finalmente del aparato entero adquieren la capacidad de provocar la Rg, o al menos componentes de la Rg que pueden ocurrir sin la presencia del reforzador.
Como resultado de este proceso de condicionamiento, los componentes fraccionales de la Rg, que se designan con el símbolo rg, ocurren cada vez antes en la secuencia instrumental. Por otra parte, estos componentes fraccionales producen E interoceptivos propios (eg) que pueden entrar en asociación con la R instrumental de correr y cuya intensidad actúa como propulsor de la conducta. Esté último aspecto fue el acentuado por Spence y el que se pensó que subyacía al concepto de incentivo.

El mecanismo rg-eg es una demostración de la posibilidad de explicar complejos aspectos de la conducta en términos asociativos y motivacionales. El desarrollo del neoconductismo hulliano se ha concentrado en extender a otros fenómenos de aprendizaje el alcance explicativo de las R fraccionales y sus E asociados, cambiando únicamente el índice:

Para el refuerzo rg-eg.
Para el castigo rp-ep.
Para la frustración rf-ef.

Spence pensó que la motivación de incentivo era suficiente para explicar los efectos de refuerzo y prescindió del concepto de reforzamiento para explicar el aprendizaje instrumental apetitivo.

10. Análisis del incentivo.

El concepto de incentivo formulado por Hull y Spence contenía tres supuestos principales:

El efecto del incentivo es motivacional-energético. Su acción es similar a la del impulso y es una acción generalizada.

El incentivo se basa en la emergencia de R fraccionales de la conducta consumatoria o de cualquier otra reacción que tenga lugar en la caja de meta. Estas R producen su característica estimulación interoceptiva formando así la unidad rg-eg.

Las R fraccionales se condicionan clásicamente a los E situacionales según un gradiente de generalización.

11. Incentivo y motivación.

La idea de una motivación generalizada que propulsa las asociaciones existentes no es aceptada hoy. Por lo que se refiere al incentivo, la acción es más específica que lo supuesto por Hull y Spence.

Algunos investigadores han propuesto que el efecto del incentivo puede ser específico sobre un determinado sistema motivacional. La especificidad motivacional implicaría que un EC asociado con alimento activaría las R instrumentales para adquirirlo. Curiosamente no ocurre así. La evidencia a favor de la acción motivacional del incentivo es escasa. La interpretación motivacional del incentivo está llena de dificultades.

Cabe, claro está, pensar que el aprendizaje no se reduce a conexiones E-R, que la motivación no se reduce a energía y que además de aprendizaje y motivación hay más cosas.

12. Las respuestas fraccionales mediadoras.

El concepto de motivación de incentivo hace respecto a estos componentes fraccionales, dos predicciones claras:

Debe existir una correlación positiva entre el vigor de la R instrumental y la fuerza de la rg condicionada clásicamente.

La rg debe preceder a la R instrumental.

Ninguna de estas dos predicciones ha conseguido ser inequívocamente establecida. La relación temporal entre los dos tipos de R no parece ser fija como predice el concepto de incentivo, sino que depende de las relaciones particulares que el experimentador establezca entre la R instrumental y el reforzador.

13. El condicionamiento clásico.

Lo importante en el concepto de incentivo, no es tanto la observabilidad de la rg cuanto el supuesto de que estos componentes mediadores se adquieren por un proceso de condicionamiento clásico.

La mayor parte de los defensores de la motivación de incentivo han mantenido una concepción del condicionamiento clásico en la que el proceso de modela a imagen y semejanza del procedimiento.

14. Perspectivas para el incentivo y el aprendizaje.

El incentivo en cuanto que nació como sustituto de reforzamiento y en cuanto que representa la creencia en que el refuerzo no afecta al aprendizaje, sino a la conducta, continúa siendo un aglutinante de investigaciones. De la concepción original de Hull y Spence basada en el mecanismo rg-eg poco queda. Las líneas actuales de investigación varían en su estrategia. Algunos han adoptado una estrategia más inductiva y más próxima al avance de la experimentación. En esta línea, la mediación se concibe como llevada a cabo por un estado central cuya naturaleza hay que investigar y del cual sólo se supone que responde al procedimiento de condicionamiento clásico. Esta orientación tuvo su origen en la reformulación de la teoría de los dos factores, llevada a cabo por Rescorla y Solomon. Otros piensan que los conocimientos actuales sobre la naturaleza del condicionamiento clásico son suficientes para pensar que dichos mediadores tienen un fuerte componente cognitivo. Bolles, ha propuesto que lo que se aprende son expectativas, como dijo Tolman, pero las define como la información almacenada sobre las contingencias del medio ambiente y contingencias se entiende en el sentido técnico. Los organismos aprenden que ciertos acontecimientos (E) predicen otros que tienen una determinada significación biológica (E*). Además aprenden que sus respuestas ® producen determinadas consecuencias (E*). El aprendizaje consiste en adquirir estos dos tipos de expectativas E-E* y R-E*. La ejecución depende de la fuerza que tienen estas expectativas y además del valor de E*. En cierta forma, el concepto de valor resume su concepción de la motivación de incentivo.

En la postura de Bolles, su concepto de expectativa acentúa el aspecto representacional y poseído (almacenado) de la información haciendo clara referencia a la memoria. Sin embargo, la información a que se refiere es la proporcionada por las contingencias E-Reforzador y R-Reforzador.

PSICOLOGÍA EXPERIMENTAL TEMA 16: REFUERZO Y REFORZAMIENTO Página 1 de 8

Tal vez te pueda interesar:

Descargar

Enviado por:	Kfre
Idioma:	castellano
País:	España

Palabras clave:

Psicología experimental Thorndike Comportamiento Crisis del refuerzo Polidipsia Conducta supersticiosa Teoría de Hull Spence Incentivo Motivación Respuestas

Te va a interesar