Principios matemáticos de refuerzo

Los principios matemáticos de refuerzo ( MPR ) constituyen un conjunto de ecuaciones matemáticas establecidas por Peter Killeen y sus colegas que intentan describir y predecir los aspectos más fundamentales de la conducta (Killeen y Sitomer, 2003).

Los tres principios clave de MPR, activación, restricción y acoplamiento, describen cómo los incentivos motivan la respuesta, cómo el tiempo lo limita y cómo los reforzadores se asocian con respuestas específicas, respectivamente. Se proporcionan modelos matemáticos para estos principios básicos con el fin de articular el detalle necesario de los datos reales.

Primer principio: excitación

El primer principio básico de MPR es la excitación . La excitación se refiere a la activación del comportamiento mediante la presentación de incentivos . Un aumento en el nivel de actividad luego de repetidas presentaciones de incentivos es un aspecto fundamental del acondicionamiento . Killeen, Hanson y Osborne (1978) propusieron que las conductas complementarias (o inducidas por un horario) son partes que ocurren normalmente en el repertorio de un organismo. La entrega de incentivos aumenta la tasa de conductas complementarias al generar un mayor nivel de actividad general, o excitación, en los organismos.

Killeen y Hanson (1978) expusieron a las palomas a una sola presentación diaria de alimento en la cámara experimental y midieron la actividad general durante 15 minutos después de una alimentación. Demostraron que el nivel de actividad aumentó ligeramente directamente después de una alimentación y luego disminuyó lentamente con el tiempo. La tasa de deterioro se puede describir mediante la siguiente función:

{\ Displaystyle b (t) = b_ {1} \ times e ^ {\ frac {-t} {\ alpha}}}

b 1

= intersección con el eje y (respuestas por minuto)

t

= tiempo en segundos desde la alimentación

${\ Displaystyle \ alpha}$ = constante de tiempo

e

= base del logaritmo natural

El curso temporal de todo el modelo teórico de actividad general se modela mediante la siguiente ecuación:

{\ Displaystyle R = A \ times (e ^ {\ frac {-t} {C}} - e ^ {\ frac {-t} {I}})}

A

= excitación

I

= inhibición temporal

C

= comportamientos competitivos

Para conceptualizar mejor este modelo, imagine cómo aparecería la tasa de respuesta con cada uno de estos procesos individualmente. En ausencia de inhibición temporal o respuestas competitivas, el nivel de excitación permanecería alto y la tasa de respuesta se representaría como una línea casi horizontal con una pendiente negativa muy pequeña. Inmediatamente después de la presentación de los alimentos, la inhibición temporal alcanza su nivel máximo. Disminuye rápidamente a medida que pasa el tiempo y se espera que la tasa de respuesta aumente hasta el nivel de excitación en poco tiempo. Los comportamientos contrapuestos, como el seguimiento de objetivos o la inspección de la tolva, son mínimos directamente después de la presentación de los alimentos. Estos comportamientos aumentan a medida que transcurre el intervalo, por lo que la medida de actividad general disminuiría lentamente. Restar estas dos curvas da como resultado el nivel previsto de actividad general.

Killeen y col. (1978) luego aumentaron la frecuencia de alimentación de diaria a cada segundo de tiempo fijo. Mostraron que el nivel de actividad general aumentó sustancialmente desde el nivel de presentación diaria. Las asíntotas de la tasa de respuesta fueron más altas para las tasas más altas de refuerzo. Estos experimentos indican que el nivel de excitación es proporcional a la tasa de incitación, y el nivel asintótico aumenta con las presentaciones repetidas de incentivos. El aumento en el nivel de actividad con la presentación repetida de incentivos se denomina acumulación de excitación. El primer principio de MPR establece que el nivel de excitación es proporcional a la tasa de refuerzo , ${\ Displaystyle A = ar}$ , dónde:

$A$ = nivel de excitación

$a$ = activación específica

$r$ = tasa de refuerzo

(Killeen y Sitomer, 2003).

Segundo principio: restricción

Un factor obvio, pero que a menudo se pasa por alto al analizar las distribuciones de las respuestas, es que las respuestas no son instantáneas, sino que requieren cierto tiempo para emitirse (Killeen, 1994). Estos límites máximos en la tasa de respuesta a menudo se explican por la competencia de otras respuestas, pero con menos frecuencia por el hecho de que las respuestas no siempre se pueden emitir al mismo ritmo al que se obtienen (Killeen y Sitomer, 2003). Este factor limitante debe tenerse en cuenta para caracterizar correctamente qué responder teóricamente podría ser y cuál será empíricamente.

Un organismo puede recibir impulsos para responder a un cierto ritmo. A bajas tasas de refuerzo, la tasa provocada y la tasa emitida se aproximarán entre sí. Sin embargo, a altas tasas de refuerzo, esta tasa provocada se ve atenuada por la cantidad de tiempo que lleva emitir una respuesta. Tasa de respuesta, ${\ Displaystyle b}$ , se mide típicamente como el número de respuestas que ocurren en una época dividido por la duración de una época. El recíproco de ${\ Displaystyle b}$ da la medida típica de la interrespuesta (TRI), el tiempo promedio desde el comienzo de una respuesta hasta el comienzo de otra (Killeen & Sitomer, 2003). En realidad, este es el tiempo del ciclo en lugar del tiempo entre respuestas. Según Killeen & Sitomer (2003), el IRT consta de dos subintervalos , el tiempo necesario para emitir una respuesta, ${\ Displaystyle \ delta}$ más el tiempo entre respuestas, ${\ Displaystyle \ tau}$ . Por lo tanto, la tasa de respuesta se puede medir dividiendo el número de respuestas por el tiempo del ciclo:

{\ Displaystyle b = {\ frac {1} {\ delta + \ tau}}}

,

o como el número de respuestas dividido por el tiempo real entre respuestas:

{\ Displaystyle b = {\ frac {1} {\ tau}}}

.

Esta tasa instantánea, ${\ Displaystyle {\ frac {1} {\ tau}}}$ puede ser la mejor medida a utilizar, ya que la naturaleza del operandum puede cambiar arbitrariamente dentro de un experimento (Killeen & Sitomer, 2003).

Killeen, Hall, Reilly y Kettle (2002) demostraron que si la tasa instantánea de respuesta es proporcional a la tasa de refuerzo, ${\ Displaystyle {\ frac {1} {\ tau}} = ar}$ , luego una ecuación fundamental para los resultados de MPR. Killeen & Sitomer (2003) demostraron que:

Si ${\ Displaystyle \ tau = 1 / ar}$

luego ${\ Displaystyle b = {\ frac {1} {(\ delta + {\ frac {1} {ar}})}}}$ ,

y reorganizar da:

${\ Displaystyle b = {\ frac {r} {\ delta r + {\ frac {1} {a}}}}}$

Si bien las respuestas pueden obtenerse a una tasa proporcional a ${\ Displaystyle A = ar}$ , solo se pueden emitir a una velocidad ${\ Displaystyle b}$ debido a la restricción. El segundo principio de MPR establece que el tiempo necesario para emitir una respuesta limita la tasa de respuesta (Killeen y Sitomer, 2003).

Tercer principio: acoplamiento

El acoplamiento es el concepto final de MPR que une todos los procesos y permite predicciones específicas de comportamiento con diferentes programas de refuerzo. El acoplamiento se refiere a la asociación entre respuestas y reforzadores. La respuesta objetivo es la respuesta de interés para el experimentador, pero cualquier respuesta puede asociarse con un reforzador. Las contingencias de refuerzo se refieren a cómo se programa un reforzador con respecto a la respuesta objetivo (Killeen y Sitomer, 2003), y los programas específicos de refuerzo en efecto determinan cómo se acoplan las respuestas al reforzador. El tercer principio de MPR establece que el grado de acoplamiento entre una respuesta y un reforzador disminuye con la distancia entre ellos (Killeen & Sitomer, 2003). Coeficientes de acoplamiento , designados como ${\ Displaystyle c}$ , se dan para los diferentes programas de refuerzo. Cuando los coeficientes de acoplamiento se insertan en el modelo de activación-restricción, se derivan modelos completos de condicionamiento:

{\ Displaystyle b = {\ frac {cr} {\ delta r + 1 / a}}}

Esta es la ecuación fundamental de MPR. El punto después del ${\ Displaystyle c}$ es un marcador de posición para las contingencias específicas de refuerzo en estudio (Killeen & Sitomer, 2003).

Programas de refuerzo de proporción fija

La tasa de refuerzo para programas de razón fija es fácil de calcular, ya que la tasa de refuerzo es directamente proporcional a la tasa de respuesta e inversamente proporcional al requerimiento de razón (Killeen, 1994). Por lo tanto, la función de retroalimentación de programación es:

{\ Displaystyle r = {\ frac {b} {n}}}

.

Al sustituir esta función en el modelo completo, se obtiene la ecuación de movimiento para programas de razón (Killeen y Sitomer, 2003). Killeen (1994, 2003) mostró que la respuesta más reciente en una secuencia de respuestas se pondera con mayor peso y se le da una ponderación de ${\ Displaystyle \ beta}$ , partida ${\ Displaystyle 1- \ beta}$ para las respuestas restantes. La penúltima respuesta recibe ${\ Displaystyle \ beta (1- \ beta)}$ , la tercera espalda recibe ${\ Displaystyle \ beta (1- \ beta) ^ {2}}$ . La ${\ Displaystyle n}$ A la respuesta se le da un peso de ${\ Displaystyle \ beta (1- \ beta) ^ {n-1}}$

La suma de esta serie es el coeficiente de acoplamiento para programas de razón fija:

{\ Displaystyle c_ {FR_ {n}} = 1- (1- \ beta) ^ {n}}

La aproximación continua de esto es:

{\ Displaystyle c_ {FR_ {n}} = 1-e ^ {- \ lambda n}}

dónde ${\ Displaystyle \ lambda}$ es la tasa intrínseca de deterioro de la memoria. Al insertar la tasa de refuerzo y el coeficiente de acoplamiento en el modelo de restricción de activación, se obtienen las tasas de respuesta previstas para los programas de FR:

{\ Displaystyle b = {\ frac {c.} {\ delta}} - {\ frac {n} {\ delta a}}}

Esta ecuación predice tasas de respuesta bajas con requisitos de proporción bajos debido al desplazamiento de la memoria por el comportamiento consumatorio. Sin embargo, estas tasas bajas no siempre se encuentran. El acoplamiento de respuestas puede extenderse más allá del reforzador anterior, y un parámetro adicional, ${\ textstyle n_ {0}}$ se agrega para tener en cuenta esto. Killeen y Sitomer (2003) demostraron que el coeficiente de acoplamiento para los programas FR se convierte en:

{\ Displaystyle c_ {FR_ {n}} = 1- (1- \ beta) n + n_ {0} = 1- \ epsilon (1- \ beta) n}

${\ textstyle n_ {0}}$ es el número de respuestas que preceden al reforzador anterior que contribuyen a la fuerza de la respuesta. ${\ textstyle \ epsilon}$ que varía de 0 a 1 es entonces el grado de borrado de la respuesta objetivo de la memoria con la entrega de un reforzador. ( ${\ textstyle \ epsilon = (1- \ beta) n_ {0}}$ ) Si ${\ Displaystyle \ epsilon = 1}$ , el borrado está completo y se puede usar la ecuación FR más simple.

Programas de refuerzo de razón variable

Según Killeen y Sitomer (2003), la duración de una respuesta puede afectar la tasa de deterioro de la memoria. Cuando la duración de las respuestas varía, ya sea dentro o entre organismos, se necesita un modelo más completo y ${\ Displaystyle \ beta}$ es reemplazado por ${\ Displaystyle 1-e ^ {- \ lambda \ delta}}$ flexible:

{\ Displaystyle 1- \ epsilon (1- \ beta) \ delta n = 1- \ epsilon e ^ {- \ lambda \ delta n}}

Programas idealizados de razón variable con un requisito de respuesta promedio de ${\ Displaystyle n}$ tener una probabilidad constante de ${\ Displaystyle 1 / n}$ de una respuesta que termina en refuerzo (Bizo, Kettle y Killeen, 2001). La última respuesta que termina en refuerzo siempre debe ocurrir y recibe el fortalecimiento de ${\ Displaystyle \ beta}$ . La penúltima respuesta ocurre con probabilidad ${\ Displaystyle 1-p}$ y recibe un fortalecimiento de ${\ Displaystyle \ beta (1- \ beta)}$ . La suma de este proceso hasta el infinito es (Killeen 2001, Apéndice):

{\ Displaystyle C (n) = \ sum _ {j = 1} ^ {\ infty} \ beta (1- \ beta) ^ {j-1} (1-p) ^ {j-1}}

^{[ cita requerida ]}

El coeficiente de acoplamiento para los horarios de realidad virtual termina siendo:

${\ Displaystyle c_ {VR_ {n}} = {\ frac {n} {n + {\ frac {(1-b)} {b}}}}}$

Multiplicar por el grado de borrado de la memoria da:

${\ Displaystyle c_ {VR_ {n}} = {\ frac {n} {n + \ epsilon {\ frac {(1- \ beta)} {\ beta}}}}}$

El coeficiente de acoplamiento se puede insertar en el modelo de restricción de activación al igual que el coeficiente de acoplamiento para los programas de FR para producir tasas de respuesta previstas en los programas de VR:

${\ Displaystyle b = {\ frac {c_ {VR_ {n}}} {\ delta}} - {\ frac {n} {\ delta a}}}$

En los programas de intervalo, la función de retroalimentación del programa es

${\ Displaystyle R = {\ frac {1} {t}}}$

dónde ${\ Displaystyle t}$ es el tiempo promedio mínimo entre reforzadores (Killeen, 1994). El acoplamiento en programas de intervalo es más débil que los programas de razón, ya que los programas de intervalo fortalecen igualmente todas las respuestas que preceden al objetivo en lugar de solo la respuesta del objetivo. Solo una cierta proporción ${\ Displaystyle \ rho}$ de la memoria se fortalece. Con un requisito de respuesta, la respuesta final, objetivo debe recibir fuerza de ${\ Displaystyle \ beta}$ . Todas las respuestas anteriores, objetivo o no objetivo, reciben un fortalecimiento de ${\ Displaystyle 1- \ beta}$ .

Los programas de tiempo fijo son los programas dependientes del tiempo más simples en los que los organismos simplemente deben esperar t segundos para recibir un incentivo. Killeen (1994) reinterpretó los requisitos temporales como requisitos de respuesta e integró el contenido de la memoria de un incentivo al siguiente. Esto da que el contenido de la memoria sea:

norte

MN = lò e-lndn

0

Este es el grado de saturación en la memoria de todas las respuestas, tanto objetivo como no objetivo, provocadas en el contexto (Killeen, 1994). Resolver esta ecuación da el coeficiente de acoplamiento para programas de tiempo fijo:

c = r (1-e-lbt)

dónde ${\ Displaystyle \ rho}$ es la proporción de respuestas objetivo en la trayectoria de respuesta. La expansión a una serie de potencias da la siguiente aproximación:

c »rlbt

1 + lbt

Esta ecuación predice una seria inestabilidad para programas de refuerzo no contingentes.

Los programas de intervalo fijo garantizan el fortalecimiento de una respuesta objetivo, b = w1, ya que el refuerzo depende de esta respuesta final contigua (Killeen, 1994). Este acoplamiento es equivalente al acoplamiento en los programas FR 1

w1 = b = 1-el.

El resto del acoplamiento se debe al recuerdo del comportamiento anterior. El coeficiente de acoplamiento para los programas FI es:

c = segundo + r (1- b -e-lbt).

Los programas de tiempo variable son similares a los programas de razón aleatoria en que hay una probabilidad constante de reforzamiento, pero estos reforzadores se establecen en el tiempo en lugar de en las respuestas. La probabilidad de que no ocurra ningún refuerzo antes de algún tiempo t 'es una función exponencial de ese tiempo, siendo la constante de tiempo t el IRI promedio del programa (Killeen, 1994). Para derivar el coeficiente de acoplamiento, se debe integrar la probabilidad de que el programa no haya terminado, ponderada por el contenido de la memoria.

∞

M = lò e-n't / te-ln 'dn'

En esta ecuación, t '= n't, donde t es una pequeña unidad de tiempo. Killeen (1994) explica que el primer término exponencial es la distribución de refuerzo, mientras que el segundo término es la ponderación de esta distribución en la memoria. Al resolver esta integral y multiplicar por la constante de acoplamiento r, se obtiene el grado en que se llena la memoria en los programas VT:

c = rlbt

1 + lbt

Este es el mismo coeficiente de acoplamiento que un programa FT, excepto que es una solución exacta para los programas VT en lugar de una aproximación. Una vez más, la función de retroalimentación en estos horarios no contingentes predice una seria inestabilidad en la respuesta.

Al igual que con los programas FI, los programas de intervalo variable tienen garantizado un acoplamiento de respuesta objetivo de b. Simplemente sumando b a la ecuación VT da:

∞

M = b + lò e-n't / te-ln 'dn'

Resolver la integral y multiplicar por r da el coeficiente de acoplamiento para los esquemas VI:

c = b + (1-b) rlbt

1 + lbt

Los coeficientes de acoplamiento para todos los programas se insertan en el modelo de restricción de activación para producir la tasa de respuesta general prevista. El tercer principio de MPR establece que el acoplamiento entre una respuesta y un reforzador disminuye con el aumento del tiempo entre ellos (Killeen y Sitomer, 2003).

Los principios matemáticos de refuerzo describen cómo los incentivos alimentan el comportamiento, cómo el tiempo lo limita y cómo las contingencias lo dirigen. Es una teoría general del reforzamiento que combina tanto la contigüidad como la correlación como procesos explicativos de la conducta. Muchas respuestas que preceden al refuerzo pueden correlacionarse con el reforzador, pero la respuesta final recibe el mayor peso en la memoria. Se proporcionan modelos específicos para los tres principios básicos para articular patrones de respuesta predichos en muchas situaciones diferentes y bajo diferentes programas de refuerzo. Los coeficientes de acoplamiento para cada programa de refuerzo se derivan y se insertan en la ecuación fundamental para producir tasas de respuesta pronosticadas generales.

Referencias

Fuentes

Bizo, LA, Kettle, LC y Killeen, PR (2001). "Los animales no siempre responden más rápido por más comida: el efecto incentivador paradójico". Aprendizaje y comportamiento animal , 29 , 66-78.
Killeen, PR (1994). "Principios matemáticos de refuerzo". Ciencias del comportamiento y el cerebro , 17 , 105-172.
Killeen, PR, Hall, SS, Reilly, MP y Kettle, LC (2002). "Análisis moleculares de los principales componentes de la fuerza de respuesta". Revista del análisis experimental del comportamiento , 78 , 127-160.
Killeen, PR, Hanson, SJ y Osborne, SR (1978). "Excitación: su génesis y manifestación como tasa de respuesta". Revisión psicológica . Vol 85 No 6 . pag. 571-81
Killeen, PR y Sitomer, MT (2003). "MPR". Procesos conductuales , 62 , 49-64