-
강화와 처벌 - 3부 : 강화 계획김학성의 심리학 이야기 2019. 5. 28. 16:24
하도 오랜만에 쓰니까 어디까지 썼는지 기억이 안난다.. -.-;; 이 챕터가 지겹기도 하고.. 그래서 이번에는 강화에서 가장 중요한!
가장 중요한! 중요한! 중요한! 아무리 강조해도 지나침이 없는!
'강화 계획'에 대해 써볼게. 진짜 잘 들어야 돼. 심리학을 배우는 학생들이 정적 강화, 부적 강화, 정적 처벌, 부적 처벌 다음으로 제일 헷갈리는 거니까! (근데 이건 헷갈릴 수 밖에 없는게 강화를 가르치는 교수님들이 실수하는 것도 봤음.. -.-;;)
일단 강화에 대해 다시 생각해 보자. 강화 하면 누구? 스키너! Skinner! 강화의 정의를 다시 복습해 볼까?
강화 계획은 1957년 Skinner와 Ferster의 공동 연구로 인해 발간된 '강화 계획'이란 이름의 책으로 부터 기원을 찾을 수 있어~
어떤 행동의 '확률'을 증가 시키기 위해 '보상물'을 제공하는 것! 그래도 덜 헷갈리는게 강화 계획에서는 처벌에 대한 생각을 배제할 수 있어. 좋지? 그러면 강화 계획에는 어떤 것들이 있나 볼까?
1. 고정 비율 강화 계획 - Fixed Ratio Reinforcement Schedule : FR
그놈의 쥐를 다시 한번 생각해 볼게. 쥐는 우리의 친구 찍찍. 스키너 상자에서 쥐가 레버를 눌러 먹이를 먹는 거.. 기억나? 근데 레버를 얼마나 눌러야 될까? 한 번? 두 번? 세 번? 실험자 마음이지!
실험자는 한 번 레버를 누를 때 마다 먹이를 줄 수도 있고, 레버를 세 번 누를 때 마다 먹이를 줄 수도있어. 중요한 건, '몇 번' 마다 일정하게 먹이를 주는거야. 세 번 레버를 누르면 먹이, 또 다시 세번 레버를 누르면 먹이.. 이런 식으로.. 강화의 기본이지. 이걸 고정 비율 강화 계획 줄여서 FR 이라고 해. 보통 쥐가 레버를 한 번 눌렀을 때 먹이를 주는 것을 'FR1', 세 번 레버를 누르면 'FR3' 이런 식으로 표기해. 이건 쉽지?
우리 일상에서 FR을 찾아 볼까? 나어렸을 때는 유치원 선생님이 아이들이 착한 짓을 할 때 마다 스티커를 하나씩 붙여 주셨어. 이 스티커가 다섯개 모이면 동그란 통에 들어있는 과일 사탕을 주셨지! 나는 한 번도 못 먹었던 걸로 기억해. ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 암튼, 유치원 선생님께서 이 이론을 알고 그러셨는지, 모르고 그러셨는지 알 수 없지만 아이들의 '선행'이라는 '행동'을 강화 시키기 위해 '사탕'이라는 '보상물'을 제공 한거야. 아이들에게 달콤한 사탕은 충분한 강화물이 될 수 있겠지? 그리고 스티커가 다섯개 모일 때 마다 사탕을 주셨으니 'FR5'라고 표기할 수 있어. 비단 유치원 때 뿐만이 아냐.. 우리의 일상과 가장 밀접해 있는 FR이 뭘까?.. 바로..
이런 중국집(음식점) 쿠폰이야. ㅋㅋㅋㅋㅋㅋㅋㅋㅋ 우리는 모두 쿠폰의 노예지.. 그놈의 탕수육을 먹기 위해.. 혹은 치킨을 먹기 위해.. 우리에게 '구매'라는 '행동'을 강화 시키기 위해 '공짜 음식'이라는 '보상물'을 제공하는 거야. 너무 단순화 시켰지만 본질은 같아. 경제 논리에서 심리학이 사용 되는 경우가 대부분 이런식이고.. 사용자의 '구매'라는 행동을 '강화'시키는 것이 모든 소비자 심리학의 본질 이야. 이런 완벽한 예시가 있으니 까먹지 않겠지? ㅎㅎ 다음으로 넘어갈게!
2. 고정 간격 강화 계획 - Fixed Interval Reinforcement Schedlue : FI
'고정'이라는 말이 들어갔다고 고정 비율 강화 계획과 고정 간격 강화 계획을 헷갈리면 절대 안돼! (근데 말이 비슷해서 쓰는 나도 헷갈린다.. ㅋㅋ) 이 둘은 성격이 완전히 달라! 어떻게 다를까?
이제 '고정'이라는 용어의 느낌이 오지? 정해져 있는거.. 균일하게, 레귤러리, 일정하게.. 등등의 느낌. 이 고정 간격 강화 계획은 고정 비율 강화 계획과 어떻게 다를까?
바로 '비율'과 '간격'의 차이야. 바꿔 말하면, '횟수'와 '시간'의 차이야. 느낌이 안오지? 그래도 이 부분은 잘 읽어야 돼. 책 마다 설명이 조금씩 다른데, 학생들이 이해를 하기 쉽지 않게 써놨어. 그래서 대부분 처음 읽으면 헷갈릴 수가 있어.
다시 레버를 누르는 쥐를 생각 해 볼게. 쥐가 레버를 눌렀어! 먹이가 나왔어! 먹이를 먹고 다시 레버를 눌렀는데.. 먹이가 안나와! 띠용!
실험자는 이번엔 먹이 공급을 레버 누르는 횟수가 아니라 일정한 '시간'으로 설정해 놓았어. 여기서 대부분 헷갈려 해.
그럼 고정 간격 강화 계획(말이 너무 길어서 FI로 줄여서 쓸게..)은 일정 시간만 지나면 자동으로 먹이를 공급해 주는 거구나! 라고 생각을 하는거지.. 하지만 그건 틀린 생각이야! 설명을 돕기 위해 나는 오늘도 포토샵.. 을 안키고 엑셀!을 켜야겠다. 이 글을 쓰는 노트북에 포토샵이 없네. -.-;;
조금이나마 이해를 돕기 위해 엑셀과 그림판으로 노가다를 했지만.. 그림을 알아 보겠어? -.-;;
보태서 이해를 돕고자 새로운 용어를 사용할거야. 바로 '불응기 Refractory Period'라는 말인데.. 심리학을 공부한 친구면 익숙하지? (활동전위에 대해 공부할 때 불응기 배웠을 거야.. 기억해 내.. 속닥속닥..) '불응기'란 활동전위가 발생한 직후 다음 활동 전위가 발생하지 않는 시기야. 활동전위라고 하면 비전공자 친구들은 좀 어렵지? 그런 친구들을 위해 용어 이해를 위한 예시를 들어줄게.
화장실에 있는 변기를 생각 해 봐. 변기에 있는 물을 시원하게 내려보는 거야. 그 다음에 또 내려볼까? 어라? 레버를 눌러도 물이 안내려가네? 물탱크에 물이 다시 찰 때까지는 아무리 레버를 눌러도 변기의 물은 내려가지 않을거야. 물탱크에 물이 찰 때 까지의 시간, 바로 이게 불응기야. 박학사 인지심리학인가? 그책에서 읽은 예시인데.. 참 적절한 비유 같아. 이제 불응기에 대한 이해가 됐지?
(불응기는 이해를 돕기 위해 제가 임의로 사용한 용어입니다!! 생리학 용어로 심리학에서도 쓰이지만 연관이 적은 과목의 용어를 쓴다고 싫어할 교수가 분명히 있을테니 시험문제의 답안으로는 삼가주세요!! 저땜에 점수 깎여도 어떻게 못해드려요 ㅠ.ㅠ 착학 교수님이면 써도될..거에요)
다시 위의 그림을 보면,
FI의 조건이 단지 시간적 간격만에 있는 건 아냐. 만약 한 치의 오차도 없이 5분의 불응기를 갖고 있는 레버를 바로 누른다고 가정 하면, 시간적 간격만을 생각할 수 있겠지만.. 현실적으로 불가능해.
핵심은, 불응기 동안에 아무리 레버를 눌러도 먹이가 나오지 않지만, 불응기 이후에는 레버를 눌렀을 때 먹이가 나온다는 거야. 마치 화장실 변기 처럼.. 하지만 변기의 물이 시간이 됐다고 해서 자동으로 물이 내려가지 않는 것 처럼(아.. 생각만 해도 수도세..) 시간이 됐다고 해서 자동으로 먹이가 나오는게 아니야. 꼭 시행을 위한 행동이 필요해! 잊지 말자! 행동이 필요해! 행동! 행동! 심리학의 기본! 행동!
아 그리고 고정 간격 강화 계획은 FI로 표기할 수 있는데, 고정 간격이 5분일 경우 통상 FI5'로 표기해. 기본 단위가 분이야.('는 분 "는 초)
3. 변동 비율 강화 계획 - Variable Ratio Reinforcement Schedule : VR (변동, 가변, 변화.. 등등 다 같은 말이야. 나는 가변으로 배웠던 기억이 나네)
드디어! 고정이 아닌 변동이 나왔어. 고정의 반대말! 바로 와닿진 않지! 하!지!만! 변동 강화 계획은 강화 계획의 꽃이야! 꽃! 강화고 뭐고 다 까먹어도 이건 절대 잊으면 안돼! 우리한테 필요한 거니까! 제일! 잊지말자! 변동 비율 강화 계획이 강화중에서 최고! 강화 짱!
다시 쥐를 생각해 보자. 찍찍.
이번에도 쥐는 먹이를 먹기 위해 레버를 눌러. 계속 눌러. 계쏙계소고세계속계속... 근데 먹이가 안나와! 왜?!
실험자는 쥐가 레버를 몇 번 눌러서 먹이를 먹게 할 지에 대해 고민을 하다가.. 그때 그때 다르게 설정해 보기로 했어! 어떨 때는 한번만 눌러도 먹이가 나오지만.. 어떨 때는 열번을 눌러야 먹이가 나오는 거야. 심지어 백 번을 눌러야 먹이가 나오게 하기도 했어! ㅋㅋㅋ 열받겠다..
그럼 쥐의 행동은?
쥐는 먹이를 먹기 위해 레버를 누를 거야. 어떨 때는 한 번만 눌러도 먹이가 나오고.. 어떨 때는 몇 번, 어떨 때는 몇십 번을 눌러도 먹이가 안나오고.. 쥐는 열받을 거야. 분노는 나의 힘. 계속 누르겠지.. 왜?
쥐는 분명 이 레버를 누르면 먹이가 나온다는 레버와 먹이의 연관성은 학습했을 거야. 근데.. 대체 몇 번을 눌러야 나오는 거지? 그걸 모르겠는 거야.. 그래서 계속 누르는 거지.. 배는 고파서 먹이는 먹어야겠고, 이 레버를 누르면 먹이가 나오는건 알겠는데.. 흑흑..
정말 대단한 강화 계획 아냐? 내가 변동 비율 강화 계획을 처음 배웠을 때 머리가 땡~! 했어. 진리에 닿은 비둘기 마냥.. 이 강화 계획이야 말로 내가 강화를 배우는 이유가 될 수 있구나 생각했지.. 흑흑 넘 감동적인 이론이야..
이 계획이 왜 대단할까? 경제 논리를 적용해 볼게.
고정 비율 강화 계획에서는 쥐가 레버를 100번 누를 경우 100개의 먹이를 받을 수 있었어. 실험자가 원하는 건? 물론 쥐가 레버를 누르는 것을 학습 하는 거잖아.. 행동을 강화 시키는 것. 정리 해 보면,
고정 비율 강화 계획 : 행동 100번 = 강화물 100개 (FR100)
그런데.. 변동 비율 강화 계획에서는 쥐가 레버를 누르는 행동 100번을 하게 하기 위해 강화물이 얼마나 필요할까? 답은..
단 1개의 강화물도 필요 없어. 정말 대단하지 않아? 엄청난 경제적 이익이야! 임금착취! 악덕업자! 대박!
쥐가 변동 비율 강화 계획으로 레버 누르는 행동을 충분히 학습 했다면, 쥐는 먹이를 먹기 위해 레버를 계속 누를거야. 누르다 보면 먹이가 나오는 것은 확실하지만.. 언제 나올지는 몰라. 그래서 쥐는 계속 누르는 거야.. 이 계획이 쥐가 레버를 누르는 것에만 적용 시킬수 있을까?
강원랜드를 생각해보자.(강원랜드 관계자분들 죄송합니다.) 도박을 즐기는 사람들은 슬롯머신 앞에서 언제 나올지 모르는 잭 팟을 터트리기 위해 계속 돈을 넣어.. 어떤 운 좋은 사람은 단 한번의 시행으로 수천만원을 가져갈 수도 있겠지만.. 대부분의 사람들은 수십, 수백번을 해야 겨우 돈을 딸 수 있어. 아님 잃을 수도 있고.. 왜 이 사람들은 터무니 없는 확률에 돈을 거는 걸까? 도박은 패가망신의 지름길이란걸 알면서도..
쥐가 레버를 누르는 것 = 슬롯 머신에 돈을 넣는 것
쥐가 먹이를 받는 것 = 사람들이 돈을 따는 것
이제 이해 돼? 언제 터질 지 모르는 대박(먹이)를 위해 인간은 계속 행동하는 거야. 쥐 같이. 이런 일이 강원랜드 에서만 일어날까?
내가 어렸을 때는 띠부띠부씰 이라고 해서 포켓몬 스티커가 들어있는 빵이 대 유행이었어. 그 빵을 하나 사면 스티커를 하나 얻을 수 있는데.. 희귀한 포켓몬 스티커를 갖고 있는 친구는 부러움의 대상이었지.. (그땐 왜 그랬지? ㅋㅋ) 그래서 나도 좋은 스티커를 뽑아 보려고 여러개의 빵을 사서 스티커를 까 보곤 했어. 그래서 한동안 포켓몬 빵만 먹었지.. 엄마한테 많이 혼났지.. ㅋㅋ.. 포켓몬 빵을 많이 먹곤 했지만 내가 원하는 스티커가 언제 나올지는 알 수 없었어. 운이 좋아서 하나의 빵 만으로도 내가 원하는 스티커를 얻을 수도 있었겠지만 운이 나쁘면 몇 십개의 빵을 먹어야 했어..
포켓몬 빵만 그랬을까? 지금 시대는 이게 전국민이 같이 하는 '로또'로 변해버렸어. 로또만 그럴까? 우리가 구매하는 많은 것들에 VR이 숨겨져 있는거야..
4. 변동 간격 강화 계획 - Variavle Interval Reinforcement Schedule : VI
드디어 강화 계획의 마지막이야!! 야호!!
이제 앞선 세개의 강화 계획을 배웠으니까 변동 간격 강화 계획에 대해서도 대충 감이 오지?
고정 간격 강화 계획과 비슷하지만, 정해진 불응기의 시간이 없는거야. 지 멋대로의 불응기를 갖고 있는 거지..
VR과 비교해 보면, VR은 누르다 보면 되겠지 라고 생각할 수 있지만.. 이건 눌러도 불응기가 지나지 않으면 반응이 없어.. 거기다가 불응기의 시간도 알 수가 없고.. 이건 일상에서 예가 거의 없어.. 라고 생각했는데!! 있다!! (이 글 첨 쓰고 일주일 뒤에 생각나서 추가함)
대형 마트에 가면 타임 세일이라는 걸 해. 알뜰한 친구들은 알거야. 어느 시간에 세일을 할진 직원분 마음이기 때문에 알 수는 없어. 그래서 깜짝 세일이지! 마트에서 쇼핑을 하다보면 "지금부터 삼겹살이 100g에 500원!! 선착순 10분에게 모십니다!!" or "딱 6시 까지만 자반고등어를 반값에 드립니다!!" 와 같은 멘트들은 한번 씩은 들어 봤을거야.. 그치? 이 깜짝 세일이 시작 되면 삼겹살에 그닥관심이 없던 사람들도 귀가 솔깃해 지지.. 구매하는 사람들은 당연히 많아지고.. 그리고 마트에 자주가는 구매자들은 이런 깜짝 세일에 익숙해 질거야. '저 고등어는 타임 세일 하면 더 싸게 살 수 있을지 모르니까.. 기다렸다 사야지.' 라고 생각하는건 무리가 아니겠지? 그리고 타임세일이 시작되면 고등어를 사겠지.
정리하면, 타임 세일을 하지 않는 시간(불응기)는 판매 직원 마음대로(변동) 정하기 때문에 알 수가 없어. 그래서 우리는 타임 세일(불응기 이후)이 시작 되면 구매라는 행동을 하는거야. 결국 마트는 이 타임 세일(변동 간격 강화 계획)을 통해 구매자의 구매 행동을 강화 시켰네!
더 좋은 예가 있겠지만.. 생각이 안난다. 하지만 이해는 가지?
-
(강화 계획에서 어떤 계획이 가장 효과가 있는지는 상황적 고려에 따라 달라 질 수 있습니다. 아래의 글을 '일반적' 연구 결과를 소개한 것입니당.. 참고 하세용..)
이렇게 네가지의 강화 계획을 배웠는데.. 그렇다면!? 어떤 강화 계획이 가장 효과 적일까?!
당연히 변동 비율 강화 계획이 가장 효과가 좋을거고.. 나머지를 생각해 봐야 겠네?
일단, 시간 보다는 횟수로 강화를 시키는게 더 직관적이야. 더 쉽게 학습할 수 있다는 뜻이지. 그럼 간격 강화 계획 보다는 비율 강화 계획이 효과가 더 좋겠다. 그치?
또한 고정 보다는 변동 계획이 효과가 좋을거야. 앞서 말한 이유와 같아. 같은 양의 보상물로 더 나은 행동 강화를 시킬 수 있으니까.. 불확실성에 대해 도전하려는 동물 행동의 본능일까?
정리해서 간격 < 비율, 고정 < 변동 이지. 순서대로 나열 해 보면,
1. 변동 비율 강화 계획 (변비ㅋㅋㅋ)
2. 고정 비율 강화 계획
3. 변동 간격 강화 계획
4. 고정 간격 강화 계획
순으로 학습 효과가 좋다는 걸 알 수 있어! 쉽지? 무작정 외우려고 하지 말고 앞서 읽은 것들을 기억해서, '간격'보단 '비율'이, '고정'보단 '변동'이 효과가 좋다!! 이거만 기억해.. 이것들을 정리한 그래프를 보여줄게!
(출처 : 구글느님)
꼭 그래프를 안봐도 원리만 이해하면 알 수 있겠지?
이로써 지겨웠던 강화와 처벌의 포스팅이 끝난..건 아니구 나중에 또 생각나면 쓸게.. 당분간은 이 주제로 안쓸래.. 안뇽.
(10월18일 추가 내용 : 위의 그래프가 진리는 아니야. 어떤 상황에 따라서는 변동 비율 강화 계획보다 다른 계획이 효과가 좋을 수도 있어. 하지만 시험에는 상황, 조건 다 필요 없고 제일 효과가 좋은 강화 계획부터 나열하시오. 일반적으로 위의 그래프 처럼 적용되는게 맞지만.. 내 블로그에서는 고려 가능한 상황들에 대해서 생각할거니까.. 과연 저 순서대로 강화 계획의 효과가 맞는 것인가? 하는 고민이 든 사람은 이 포스트를 끝까지 계속 읽어봐~)
-
안뇽!을 하기 전에!
내가 이걸 학습심리학 시간에 배웠던가.. 심리학 개론 시간에 배웠던가.. 잘 기억이 안나는데, 교수님이 강화 계획에 대해 가르쳐 주실 때 해준 말씀이 있어. 변동 비율 강화 계획을 응용할 수 있는 사례로.. 체계적 둔감화(자극을 지각하는 것이 자극의 횟수가 늘어날 수록 점점 둔감화 되는 것.)를 배울 때 였나? 암튼..
만약 어떤 남자에게 좋아하는 여자가 생겼다고 가정해 볼게. 그 남자는 매일 정오에 그녀를 만나러 가서 장미꽃을 선물 했어. 매일 매일. 하루도 빠지지 않고.. 여자는 처음에는 이게 뭔일이래? 하고 좋아했지. 꽃을 받고 부적 감정을 느낄 여자는 별로 없을 거야.. 쓰레기도 아니고 이쁜 장미꽃인데.. 그치?
처음 하루, 이틀에는 좋았어. 그게 일주일, 보름, 한 달, 두 달이 되니까 처음에 좋았던 감정은 이제 무덤해 진거지. 생각해 봐. 맨날 좋아하는 음식만 먹고 살면 그게 맛있을까? 매일 매일 롯데월드를 가면 신날까?
결국 남자는 사랑에 실패하게 돼. 뻔한 스토리지? 근데 만약 이 남자가 심리학을 공부했더라면?!
남자는 매일 정오에 좋아하는 여자에게 가서 꽃을 주기로 결심 했어. 초반 몇 주 동안은 매일 매일 주었어. 그리고 어느날은 정오가 다 되어서도 여자에게 가지 않은거야. 그럼 여자는 어떻게 생각할까? 당연히 매일 매일 꽃을 주러 오는 남자가 있어야 되는데.. 오늘은 없는거야. 왜 없을까? 왜 안오지? 왜 내게 꽃을 주러 오지 않는 걸까? 라는 생각을 하게 될거야. 그리고 그 다음날 에도 남자는 여자를 찾아가지 않았어. 여자는 더 궁금해지지. 한 편 으로는 걱정도 되고.. 그러다 다음날 남자는 다시 꽃을 들고 여자를 찾아 갔어. 똑같은 꽃이지만 여자는 몇 일 전 받았던 꽃 보다 더 반갑게 느끼겠지?
남자는 매일 웃어주는 그녀의 미소 보다 어쩌다 한 번 미소짓는 그녀에 목맨다고.. 교수님이 하신 말씀이 생각나네. 이게 흔히 말하는 연애에서 필요한 '밀당' 이야. 밀당은 사실 변동 비율 강화 계획 인거지.. 남녀 사이가 이렇게 단순할 순 없지만 중요한 이론이라는 걸 잊지 말고 넘어 갔음 해! 항상 이 이론이 사람 관계에서 적용될 수 있는 것도 아니니까.. 이제 진짜 안뇽!
-
13년10월18일 추가내용
위에서 언급 한 것들은 '간헐(부분)' 강화 계획 이라고 해. 강화 계획에는 크게 총 5가지가 있어. 그 중의 네가지가 위에서 언급한 간헐 강화 계획에 속하고.. 그럼 나머지 하나는?
5. 연속 강화 계획 - Continuous Reingorcement Schedule : CRF
연속 강화 계획에 대한 내용을 나중에 추가한 이유는.. 연속 강화 계획이 실제로 완벽히 적용되기는 참 힘들기 때문이야. 이 강화 계획이 제대로 행해지려면 보상을 주는 사람 혹은 장치가 계속 있어야 되고 그에 따른 보상물의 비용도 계속 지출이 되니까.. 하지만 강화 계획에 속해 있고 빼놓고 쓰면 찝찝하니까.. 늦게나마 내용을 추가해 볼게!
연속 강화 계획은 행동 하나에 보상 한개가 일대일로 대응 되는 계획이야. 쥐가 레버를 한 번 누르면 먹이가 한 개 나오는 거지. 단순한 계획인데 왜 실생활에 적용이 안된다는 거야? 라고 할 수도 있는데.. 생각해 봐. 1행동 1보상이야. 학교에서 내가 착한 짓을 할 때 마다 선생님이 바로 칭찬을 해 주시는거야. 착한 짓을 할 때 마다! 만약 당신이 학생이 아니고 노동자라면? 회사에서 하나의 업무를 바로 끝낼따 마다 돈을 받는거야! 문서 작업 하나 할 때 마다 사장님이 "돈받아라!" 하고 돈을 주는 거야. 거리의 미화원이라면 쓰레기를 하나 치울 때 마다 돈을 받을 수도 있고, 편의점 알바라면 물건을 하나 팔 때마다 돈을 받는거야. 아이가 이쁜 짓을 할 때마다 매일매일 바로 칭찬을 해주는거야. 언뜻 보면 고정 비율 강화 계획 FR 과 비슷하지만.. FR에서는 행동 횟수에 대한 보상이 일정한 것이잖아. 그 행동에 대한 보상이 꼭 일대일 이지는 않아도 돼.
그렇다면?! 연속 강화 계획과 고정 비율 강화 계획에서 행동 한 번에 보상 한 번을 주는 FR1 이랑 동일한거 아냐? 라고 물어볼 수도 있는데.. 맞아! 내가 이게 맞는지 찾을라고 책을 한참 뒤졌네.. 하지만 같은건 아니라는거 명심해! 고정 비율 강화 계획에 연속 강화 계획이 포함 될 수는 있지만 같은건 아니고.. 더 중요한건 연속 강화 계획의 의미와 간헐 강화 계획의 차이를 아는것이 중요하다는 거 꼭 기억해!! 물론 이것도 시험에는 안나올거야.. 시험에는 강화 계획에서도 간헐(변화) 강화 계획이 나올 확률이 크지.. 연속 강화 계획으로는 낼 만한 문제가 없어.. 실생활에서 적용되기도 힘들고 내용 자체가 심플하니까..
이상의 강화 계획 다섯가지를 정리해보면..
이렇게 되겠네! 이제 헷갈리지 않겠지?
그럼 어떤 상황에서 어떤 강확 계획을 선택해야 할까에 대한 생각을 해 볼까?
내가 이 포스트를 처음 쓰고 난 후 몇달이 지났는데.. 생각나게 있어. 나는 이 주제에 대해 최소 네명 이상의 교수님에게 강의를 들었는데.. 생각해보니까. 교수님들마다 어떤 강화가 효과적인지에 대해 주장이 달랐던게 기억이 난거야. 내가 이 포스트를 쓸 때만 해도 변동 계획이 고정 계획보다 효과가 좋다고 알고있었는데.. 인지 심리학 책을 뒤져보니까 비율 계획이 간격 계획보다 효과가 좋다고 나와있네. 그 효과의 유효치는 변동 계획과 고정 계획의 유효치 이상이고.. 뭐지??
내가 이 부분에 대해 헷갈려 하는 이유에 대해 생각해 봤는데.. 바로 상황적 고려 없는 교수들의 문제 출제였어. 강화 계획에 대해 공부를 하고 시험을 볼려고 문제를 보면 "(간헐)강화 계획에서 가장 효과적인 것을 나열하시오' 이런 문제가 많이 나오는데.. 아니 상황을 주고 말을 하던가 아니면 상황에 대한 예시를 같이 쓰라고 하던가.. 그래야 되는게 맞는거 아냐?
무슨말이냐면,
예를들어 내가 내 아이를 키우는데, 그 아이가 거짓말을 안하고 진실말을 말하도록 키우고 싶어. 그럴때 어떤 강화 계획을 사용해야 될까? 가장 효과가 좋다는 변동 비율 강화 계획을 예로 들어볼게.
변동 비율 강화 계획에 따르면, 아이가 진실을 말할 때 마다 보상을 주는게 아니라 진실을 계속 말하면 어쩌다가 한번씩 보상을 주는건데.. 이러면 과연 아이는 진실에 대한 강화가 될까?
아이의 말 : 진실 진실 진실 (진실 3회 보상) 진실 (진실 1회 보상) 진실 진실 진실 진실 진실 (진실 5회 보상)
우리의 이상적인 생각으로는 위와 같이 아이가 진실을 말하고 어쩌다 보상을 주면 진실을 계속 말할거라 생각하는 거지.. 하지만 아닐거야. 아이는 거짓을 말해도 보상을 받을 수 있어. 위와 같은 변동 비율 계획이 적용 되었다면,
아이의 말 : 진실 거짓 진실 진실 (진실 3회 보상) 거짓 거짓 진실 (진실 1회 보상) 진실 진실 진실 진실 거짓 거짓 진실 (진실 5회 보상)
아이는 거짓을 말해도 무리 없이 보상을 받을 수 있어. 거짓을 말해도 진실을 말하면 보상을 받을 수 있으니까.. 그 진실이 몇번인 줄은 모르겠지만.. 그럼 이런 상황에서 가장 효과적인 강화 계획은 무엇일까? 당연히 연속 강화 계획이겠지! 진실을 말할 때 마다 사탕을 주는거야! 물론 시간도 돈도 많이 들고 신경도 많이 쓰이겠지. 하지만 내 아이를 도덕적으로 키우겠다는데 그런게 문제야? 우리가 생각할 것은 강화의 효과 이지 강화의 경제성이 아니잖아.
강화의 효과와 강화의 경제성에 대해 구분 하는 것이 중요하다고 생각 해.
경제성 보다 큰 연속 강화 계획의 단점이 있어. 바로 '소거'야. 강화를 끊었을 때 발생하는 일이지. 즉각 제공되는 보상이 끊기면? 그 행동도 끊길거야.. 다른 간헐 강화 계획들은 원래부터 즉각 보상이 아니었기 때문에 소거가 발생하더라도 행동 감소가 연속 강화보다 덜 하겠지..
그럼 대체 뭐가 효과가 좋은 강화라는거야?
처음에는 연속 강화 계획으로 행동으로 충분히 학습 한 후, 간헐 강화 계획을 적용하는거야! 이 과정은 모든 행동 강화에서 강화 계획이 올바르게 적용 될 수 있다고 생각 해.
선 연속 강화, 후 간헐 강화.
그럼 이제 간헐 강화를 골라야 되는데.. 위에서 내가 쓴 건 비율 계획이 간격 계획 보다 효과가 좋다고 했는데.. 다른 책에 보면 변동 계획이 고정 계획보다 효과가 좋다고 나와있어. 뭘까?? 공통 분모를 찾아 보면 변동 비율 계획이 확실히 효과가 좋은건 맞아. 효과가 제일 낮은건 고정 간격 계획이고.. 다시 정리하면,
효과가 제일 좋음 : 변동 비율 계획
효과의 우선 순위를 확실히 정의할 수 없음 : 변동 간격 계획 & 고정 비율 계획
효과가 제일 나쁨 : 고정 간격 계획
이렇게 될거야. 계획에 따라 효과의 우선 순위가 책 마다 다르니.. 차라리 저렇게 외우는게 정신 건강에 이로울거야. 나도 그렇게 할라고..
단, 상황에 따른 고려를 하게 되면 좀 명확해 지는데,
Skinner와 Ferster의 1957년 실험이야. (Skinner는 변동 강화 계획이 좀 더 효과가 있는 것으로 생각하고 실험은 한 거 같은데..)
스키너와 는 변동 비율 계획과 변동 간격 계획 중 어느 것이 더 효과가 있는지 알아보기 위해 비둘기 두마리를 데리고 실험을 했어.
실험이 조금 복잡하면서도 단순하니까 잘 읽어야 돼.
첫번째 비둘기는 보통의 VR로 건반을 쪼면 먹이가 나오도록 학습 시켰어.
두번째 비둘기가 중요한데, 두번째 비둘기는 첫번째 비둘기가 먹이를 얻으면, 단 한번의 건반을 쪼더라도 먹이를 먹을 수 있게 학습 했어.
첫번째 비둘기에 따라 두번째 비둘기가 먹을 수 있는 조건이 정해지는거지. 하지만 첫번째 비둘기는 단지 횟수에 의해 먹이를 얻게 되지만.. 그 횟수는 일정하지 않잖아. 하지만 두번째 비둘기는 건반을 쪼는 횟수와 관계 없이 첫번째 비둘기가 먹은 다음에 건반을 쪼아야 먹이를 얻을 수 있게 되고.. 즉, 첫번째 비둘기에 의한 변동 간격 강화 VI 계획이 적용된 거야! 스키너 진짜 머리 좋다.. ㅠ.ㅠ
두 비둘기의 강화 조건은 연결되어 있기에, 두 비둘기는 동일한 수의 강화를 받을 수 있도록 보장 되어 있는 거야.
그럼 비둘기가 건반을 쪼는 횟수를 조사하게 되면 같은 강화 조건에 따른 횟수의 비율을 통해서 어느 강화 계획이 더 효과가 있는지 알 수 있겠네!! 아 스키너 머리 진짜 좋다. 글 쓰다가 감격함..
결과는 변비 VR 비둘기가 변간 VI 비둘기의 3배만큼 더 반응했어. 이게 3배라는건지 3배를 더 반응했다는 건지는 잘 모르겠다.. 번역이 좀 꾸지네.. 아무튼 그게 중요한게 아니라 VR의 효과가 VI의 효과보다 월등하다는거지!!
그럼 변비 VR이 짱이네?! 라고 생각 할 수 도있지만.. 앞서 생각했던 소거에 대해 생각해 볼게. 만약 높은 비율로 강화물이 제공되는 변동 비율 강화 계획 : 변비 VR 라면.. 강화물이 끊겼을 때는? 비둘기의 행동은 금방 소거 될거야.. 아무리 내가 건반을 누르는 횟수로 인해 먹이가 나온다고 하여도 계속 눌르고 있는데 먹이가 안나오면.. 지치겠지? 뭐 반응을 중단 시키는 비율 긴장을 산출한다고 하는데.. 어려운 말이고.. 비둘기의 입장에서 생각해 보면 쉬워.
그럼 어떨때 변비 VR 보다 변간 VI가 효과가 좋을까? 위의 상황과 반대의 상황, 바로 강화물이 제공되는 비율 혹은 간격이 길 때야! 생각해 볼게. 내가 비둘기 인데 언제 먹이가 나올지는 몰라. 내가 건반을 쪼는 횟수와 상관 없으니까 건반을 계속 쪼을 필요는 없어. 하지만 계속 생각은 해야 돼. 언제 쪼아서 먹이가 나올지는 모르겠지만.. 쪼으면 먹이가 나올 수 있으니까. 계속 생각 해야돼. 계속. 먹이를 먹으려면.. 바로 '반응률'을 무한히 유지할 수 있는 거야. 비록 낮은 반응률을 갖겠지만.. 따라서 강화물이 아주 드물게 제공된다면 변간 VI가 좀 더 효과적인 강화 계획 이라고 생각 할 수 있어!!
글이 길어졌는데..
심리학에 정해진 딱 하나의 답은 없다고 생각해. (레스콜라-바그너 모델 빼고) 인간 정신 과정과 행동을 연구하는 학문이지만 인간 자체가 불완전한 동물이고 또한 환경이라는 상황적 변수가 무궁무진 하기 때문에.. 어떤 강화 계획을 선택 할 것인가에 대한 끊임없는 의문은 심리학자의 의무가 아닐까?
진짜 긴 글 읽어줘서 고맙고 내가 덧붙인 추가 내용 전에 글 읽은 사람들은 미안해~~~ 나도 불완전한 존재니까~~~ 안뇽~~~
'김학성의 심리학 이야기' 카테고리의 다른 글
강화계획의 활용 - 2부 : 인간 학습에 대한 함축성 (0) 2019.05.28 강화계획의 활용 - 1부 : 재소자에의 성공적인 활용 (0) 2019.05.28 강화와 처벌 - 2부 : 지연과 2차 강화물 (0) 2019.05.28 게슈탈트 심리학 Gestalt Psychology (1) 2019.05.28 강화와 처벌 - 1부 : 강화, 처벌 그리고 소거 (0) 2019.05.28