Cómo funcionan los programas de refuerzo

Los programas de refuerzo juegan un papel importante en el condicionamiento operante, que es un proceso de aprendizaje en el que se adquieren y modifican nuevos comportamientos a través de su asociación con consecuencias. Reforzar un comportamiento aumenta la probabilidad de que vuelva a ocurrir en el futuro, mientras que castigar un comportamiento disminuye la probabilidad de que se repita.

¿Por qué son tan importantes los programas de refuerzo? Cuándo y con qué frecuencia reforzamos un comportamiento puede tener un impacto dramático en la fuerza y el ritmo de la respuesta.

Este artículo analiza qué son los programas de refuerzo, los diferentes programas que se pueden usar y cuál es el mejor según los objetivos de aprendizaje.

¿Qué son los programas de refuerzo?

Los programas de refuerzo son reglas que establecen qué instancias de comportamiento se reforzarán. En algunos casos, un comportamiento puede reforzarse cada vez que ocurre. A veces, es posible que un comportamiento no se refuerce en absoluto.

Tanto el refuerzo positivo como el refuerzo negativo pueden usarse como parte del condicionamiento operante. En ambos casos, el objetivo del refuerzo es fortalecer un comportamiento para que probablemente vuelva a ocurrir.

Los programas de refuerzo tienen lugar tanto en situaciones de aprendizaje que ocurren naturalmente como en situaciones de entrenamiento más estructuradas. En entornos del mundo real, es probable que los comportamientos no se refuercen cada vez que ocurren. En situaciones en las que intencionalmente intenta reforzar una acción específica (como en la escuela, los deportes o el entrenamiento de animales), debe seguir un programa de refuerzo específico.

Algunos horarios se adaptan mejor a ciertos tipos de situaciones de entrenamiento. En algunos casos, el entrenamiento puede requerir un horario y luego cambiar a otro una vez que se haya enseñado el comportamiento deseado.

Programas fundamentales

Las dos formas fundamentales de programas de refuerzo se denominan refuerzo continuo y refuerzo parcial.

Calendario Continuo de Refuerzo (CRF)

Dentro de un entorno educativo, un CRF significaría que el maestro entregaría un refuerzo después de cada respuesta correcta de sus alumnos. Por ejemplo, si estuviera enseñando a un estudiante a leer las letras A, B, C y D, entonces cada vez que le presente una de estas letras a su estudiante y él lea correctamente la letra, entonces le daría un refuerzo.

Para un ejemplo cotidiano, cada vez que presiona el botón número 9 en el control remoto de su televisor, su televisor cambia al canal 9; o cada vez que enciendes tu tetera, calienta el agua de su interior; o cada vez que abres el grifo de la cocina (grifo) sale agua de él (a menos que alguno de estos esté roto, por supuesto).

Horarios continuos de refuerzo

En el refuerzo continuo, el comportamiento deseado se refuerza cada vez que ocurre. Este programa se utiliza mejor durante las etapas iniciales de aprendizaje para crear una fuerte asociación entre el comportamiento y la respuesta.

Imagina, por ejemplo, que estás tratando de enseñarle a un perro a darte la mano. Durante las etapas iniciales de aprendizaje, se apegaría a un programa de refuerzo continuo para enseñar y establecer el comportamiento. Esto podría implicar agarrar la pata del perro, sacudirla, decir “sacudir” y luego ofrecer una recompensa cada vez que realice estos pasos. Eventualmente, el perro comenzará a realizar la acción por su cuenta.

Los programas de refuerzo continuo son más efectivos cuando se trata de enseñar un nuevo comportamiento. Estos programas denotan un patrón en el que cada respuesta estrictamente definida es seguida por una consecuencia estrictamente definida.

Horarios parciales de refuerzo

Una vez que la respuesta está firmemente establecida, un programa de reforzamiento continuo generalmente se cambia a un programa de reforzamiento parcial. En el reforzamiento parcial (o intermitente), la respuesta se refuerza solo una parte del tiempo. Las conductas aprendidas se adquieren más lentamente con refuerzo parcial, pero la respuesta es más resistente a la extinción.

Piense en el ejemplo anterior en el que estaba entrenando a un perro para que sacudiera. Si bien inicialmente usó el refuerzo continuo, reforzar el comportamiento cada vez, mucho después de que el perro haya aprendido el truco, es simplemente poco realista. Con el tiempo, cambiará a un horario parcial para proporcionar un refuerzo adicional una vez que se haya establecido el comportamiento o después de que haya pasado un tiempo considerable.

Hay cuatro programas de refuerzo parcial. Dos son programas de razón, que son programas basados en cuántas respuestas han ocurrido. Los otros dos son horarios de intervalos o horarios basados en el tiempo transcurrido.

Horarios parciales de refuerzo como funcionan los programas de refuerzo

¿Quieres ser un padre o madre feliz y criar hijos felices al mismo tiempo? ¡Este combo de 3 ebooks es justo lo que necesitas! Descubre consejos prácticos y herramientas efectivas para fomentar el bienestar emocional de tus hijos, cultivar la autoestima y el amor propio, y construir relaciones familiares sólidas y amorosas. ¡No esperes más para hacer de la paternidad una experiencia llena de alegría y satisfacción!

Saber más

Tipos de programas de refuerzo parcial

Estos cuatro programas de reforzamiento a veces se denominan FR, VR, FI y VI, que significa tasa fija, tasa variable, intervalo fijo e intervalo variable.

Horarios de razón fija

Los programas de razón fija son aquellos en los que una respuesta se refuerza solo después de un número específico de respuestas. Este programa produce una tasa de respuesta alta y constante con solo una breve pausa después de la entrega del reforzador. Un ejemplo de un programa de proporción fija sería entregar una bolita de comida a una rata después de que presione una barra cinco veces.

Horarios de razón variable

Los programas de razón variable ocurren cuando una respuesta se refuerza después de un número impredecible de respuestas. Este horario crea una alta tasa constante de respuesta. Los juegos de azar y lotería son buenos ejemplos de una recompensa basada en un programa de proporción variable. En un entorno de laboratorio, esto podría implicar entregar gránulos de comida a una rata después de presionar una barra, nuevamente después de presionar cuatro barras y luego nuevamente después de presionar dos barras.

Horarios de intervalo fijo

Los programas de intervalo fijo son aquellos en los que la primera respuesta se recompensa solo después de que haya transcurrido una cantidad de tiempo específica. Este programa provoca una gran cantidad de respuestas cerca del final del intervalo, pero una respuesta más lenta inmediatamente después de la entrega del reforzador. Un ejemplo de esto en un entorno de laboratorio sería reforzar a una rata con una bolita de laboratorio para presionar la primera barra después de que haya transcurrido un intervalo de 30 segundos.

Horarios de intervalo variable

Los programas de intervalo variable ocurren cuando una respuesta es recompensada después de que ha pasado una cantidad de tiempo impredecible. Este programa produce una tasa de respuesta lenta y constante.

Un ejemplo de esto sería entregar una bolita de comida a una rata después de presionar la primera barra después de un intervalo de un minuto; una segunda pastilla para la primera respuesta después de un intervalo de cinco minutos; y un tercer perdigón para la primera respuesta después de un intervalo de tres minutos.

Temporización de la programación parcial de la tasa de respuesta de refuerzo.
Tasa fija (FR) Después de un número específico de respuestas Alto, constante.
Relación variable (VR) Después de un número impredecible de respuestas Alto, constante.
Intervalo fijo (FI) Después de una cantidad de tiempo específica Alto cerca del final del intervalo, pero más lento directamente después de la entrega del reforzador.
Intervalo variable (VI) Después de una cantidad de tiempo impredecible Lento, constante.

Horarios de refuerzo y extinción

Una vez que se detiene un refuerzo, la respuesta comienza a declinar. Esto se conoce como extinción, o el tiempo que continúa la respuesta cuando ya no se aplica el refuerzo. Por lo general, los programas fijos de reforzamiento son más propensos a la extinción, mientras que los programas variables son más resistentes.

La extinción puede dar lugar a efectos secundarios indeseables.2 Uno se denomina ráfaga de respuesta, que es cuando la respuesta aumenta temporalmente en cantidad, magnitud o duración antes de extinguirse. Otra es la variabilidad de la respuesta, que a menudo incluye el desarrollo de otras conductas problemáticas para obtener la misma respuesta.

Combinación de programas de esfuerzo

Supongamos que un maestro está trabajando en un programa de ortografía con un niño y está utilizando una economía de fichas como refuerzo positivo en un programa de refuerzo FR2; se entrega una ficha (refuerzo) por cada segundo deletreo correcto. Entonces, para la primera prueba, el maestro dice “Deletrear manzana”, el niño escribe correctamente la palabra y el maestro no da una ficha… pero ¿qué hace el maestro? ¿Cómo sabe el niño si tiene razón o no?

Para combatir esto, se pueden usar combinaciones de programas de refuerzo donde el “elogio verbal” está en un programa de refuerzo continuo (o FR1) mientras que la economía de fichas está en el programa FR2.

Entonces, por cada ortografía correcta, el maestro diría algo como “¡buen trabajo!” o “¡brillante!” o “¡tienes razón!” y luego, cada segundo deletreo correcto se refuerza con una muestra, así como con elogios verbales. En estos casos, es probable que vea “FR1 elogio, FR2 token” escrito en el guión de prueba discreto para especificar qué programas de refuerzo se están utilizando.

También hay programas de refuerzo “compuestos” en los que se combinan diferentes tipos de programas de refuerzo de varias maneras diferentes. Hay muchas cosas que se pueden decir para describir estos horarios y, por el bien de este artículo, no entraremos en detalles.

Ejemplos de horarios de refuerzo

Los programas de refuerzo se pueden aplicar en diferentes entornos. Se pueden usar en educación, por ejemplo, para reforzar a los estudiantes después de que se hayan completado una cierta cantidad de tareas o después de pasar una cierta cantidad de tiempo sin ningún problema de comportamiento.

Un ejemplo del uso del programa de refuerzos en un escenario de crianza es cuando se enseña a un niño a ir al baño. Puede comenzar dándole al niño un caramelo cada vez que usa el orinal (proporción fija). Luego, puede pasar a solo proporcionar refuerzo después de usar el orinalito varios días seguidos (ya sea de intervalo fijo o de intervalo variable).

Los programas de refuerzo también se pueden utilizar en el análisis de comportamiento aplicado o ABA. En este caso, los reforzadores se utilizan para mejorar algún tipo de conducta. Por ejemplo, la investigación ha encontrado que estos horarios pueden ser beneficiosos para ayudar a las personas con dificultades intelectuales o de desarrollo a mejorar los comportamientos de comunicación.

Usando el horario apropiado

Decidir cuándo reforzar un comportamiento puede depender de una serie de factores. En los casos en los que está tratando específicamente de enseñar un nuevo comportamiento, un programa continuo suele ser una buena opción. Una vez que se ha aprendido el comportamiento, a menudo es preferible cambiar a un horario parcial.

En la vida diaria, los programas parciales de reforzamiento ocurren con mucha más frecuencia que los continuos. Por ejemplo, imagina si recibieras una recompensa cada vez que llegaste a tiempo al trabajo. Con el tiempo, en lugar de que la recompensa sea un refuerzo positivo, la negación de la recompensa podría considerarse un castigo negativo.

En cambio, recompensas como estas generalmente se distribuyen en un programa de refuerzo parcial mucho menos predecible. No solo son mucho más realistas, sino que también tienden a producir tasas de respuesta más altas y son menos susceptibles a la extinción.

Los horarios parciales reducen el riesgo de saciedad una vez que se ha establecido un comportamiento. Si se otorga una recompensa sin fin, el sujeto puede dejar de realizar el comportamiento si ya no desea o necesita la recompensa.

Por ejemplo, imagina que estás tratando de enseñarle a un perro a sentarse. Si usa la comida como recompensa cada vez, el perro podría dejar de actuar una vez que esté lleno. En tales casos, algo como el elogio o la atención pueden ser más efectivos para reforzar un comportamiento ya establecido.

El condicionamiento operante puede ser una poderosa herramienta de aprendizaje. Los programas de refuerzo utilizados durante el proceso de entrenamiento y mantenimiento pueden tener una gran influencia en la rapidez con la que se adquiere un comportamiento, la fuerza de la respuesta y la frecuencia con la que se muestra el comportamiento.

Para determinar qué horario es preferible, considere diferentes aspectos de la situación, incluido el tipo de comportamiento que se está enseñando y el tipo de respuesta que se desea.