發(fā)了瘋地學習(下篇)——底層探究,激發(fā)學習的元動力
http://www.wxhgws.com2021年05月28日 13:50教育裝備網(wǎng)
強化學習,反饋回路與反饋強化就是構成人工智能理論中強化學習的基礎機制,強化是指在不斷嘗試中,個體所學習到的反饋回路,不斷更新,并最終優(yōu)化到可能目標的過程,它和監(jiān)督式機器學習一樣,是構成人工智能的基石,從生物學的角度講,強化學習更符合人類的進化方式,從古代的尼安德特人開始,不符合正反饋回路的行為或族群就注定被環(huán)境所更新,也意味著淘汰,人類之所以進化成人類,是因為除了總結舊有知識并發(fā)現(xiàn)規(guī)律外,還會不斷嘗試和探索。深度了解強化學習的機制我們就能發(fā)現(xiàn)“學習”這個動作的本質(zhì)。
學習,究竟是為了什么?不打游戲是為了更好的學習,更好的學習是為了更好的生活,那什么又是更好的生活呢?可以痛快的玩游戲,算不算更好的生活呢。我們從小被教導要好好學習,卻從來沒有真正思考過,為什么要好好學習,如果連成因機制都不了解,看再多的思維教學和學習導論,也沒有辦法讓自己高效的執(zhí)行學習這件事,我們真的厭惡學習嗎?
其實,站在人工智能的角度看,學習和玩游戲沒有本質(zhì)的區(qū)別,學習是一個枯燥的過程,你要背單詞,記公式,還要練習,玩游戲也是如此,你要記憶每個角色的技能,走位技巧,出裝順序,也要通過很多的對局來練習。在強化學習系統(tǒng)中,他們都是一種東西,即“動作”。動作本身無所謂枯燥和有趣,關鍵看它所處的狀態(tài)和預期的獎勵。人類厭惡枯燥的東西,所以當學習索然無味時,我們就會討厭學習,這是天性,學習并不能帶來和游戲一樣的快感,否則的話,沒有人會討厭學習,但是,也有人卻堅持學習并樂在其中,為什么?答案就是反饋機制,當學習的動作帶給人的收益為正,就會帶給我們所說的快感預期,也即前文所題的多巴胺,如果只靠意志力去學習,就像不斷繃緊一根弦,強行違背生理的感覺,到最后早晚會斷掉。
我們絕大多數(shù)人,沒有移山填海的毅力,因此這樣的學習是不科學的,大腦發(fā)出指令的動機其實和海洋館里的海豹一樣,是為了眼前那條小魚干,頂一次球給一條魚,只有不斷收到正向的反饋,才會自然而然地保持前進的動力。高清楚了這點,我們就可以思考,如何讓自己像打游戲一樣沉迷于學習。
我們該怎么做?學霸和學渣的區(qū)別,就在于對快感預期的不同,預期不同形成的反饋也不同。學霸,可以看作一個高效的強化學習系統(tǒng),它具備完整的反饋回路以及有效的反饋強化。具體到操作中,成為學霸,以下三點是基礎。
縮短反饋周期。反饋周期長意味著半衰期長。那半衰期是什么,以后的文章我會講,這里只需要知道,反饋周期太長,是大多數(shù)人無法堅持的主要原因。舉個例子,有的人高中學習成績很好,可是到了大學就一落千丈,有人說是因為高考之后人松懈了,容易變笨犯懶。很可惜,這個說法并沒有研究結論支撐,真正的原因是反饋周期的拉長。在高中時,一個月會有三四次測試,努力學習一個周,就能看到努力的效果,班級名次很容易進步,接著,同學吃驚,家長表揚,老師夸贊,你會覺得很開心,打了雞血一樣繼續(xù)學習,這種感覺可能會持續(xù)幾天,還沒等它消退,下一次考試又來了,在這樣的反饋回路中動作帶來的獎勵被極大加速,整個系統(tǒng)變得完全正向。而上了大學以后,認真學習一個學期才能有一個號的GPA,這個反饋周期變長了好幾倍,而且也很少有人再收到過度的夸獎和極大表揚。因此,大多數(shù)人堅持不下來,取而代之的很多人習慣,考試前一周開始執(zhí)行學習的動作,因為只需要一周就可以獲得獎勵,比如及格。所以,要想辦法減少你的反饋周期。其他做法,將大目標分解成小目標,會更容易塑造一個連續(xù)的回路。
增加反饋強化。前面我們提到過三種反饋模式,固定比率強化,固定時距強化,不固定比率強化,那么把游戲替換成學習,我們需要做什么?可以是考試累積進步10名,就請自己吃燒烤;也可以是隔壁班的小愛刮目相看的SSR;又或是再看三小時書就去打游戲。對應到相應的收益上來,就是提高學習留存率;延長學習時間;增加學習收益。
調(diào)整反饋難度,有研究表明,游戲玩家在大多高難度關卡挑戰(zhàn)成功后,大腦多巴胺回路會異常激活,也就是說,適當?shù)母唠y度游戲,能夠最大化的激化反饋回路,這也是很多游戲中設置排位賽機制的由來,通過匹配不同難度的對手,既不會讓你一直輸下去,也不會讓你永遠贏。而是塑造一種升段掉段的獎勵機制,讓你的反饋回路一直處于半激活狀態(tài)。在學習中,如何設置難度,需要根據(jù)個人情況制定,下一次考試提高10分,或成為班級第一,就是兩種不同的難度,既不要太簡單也不要太難。
一旦大腦完成了一次正反饋回路,那么久嘗試過一次甜頭,你的動力就會越來越足,甚至會享受學習這件事本身像打游戲一樣,瘋狂的學習,這,就是學霸的誕生規(guī)則。關于反饋機制,還有很多東西可以講,具體的學習方法也遠不止這些。那MR智慧教育,就是在探究學習動機和反饋的根源后,高效地輔助教學,引導反饋回路的正向,通過形象生動性增加反饋強化,大數(shù)據(jù)的指導下,也針對性的調(diào)整反饋難度。奧圖碼MR智慧教育,用底層思維邏輯,運用5G/VR/AR/MR/AI等技術手段,激發(fā)學習元動力。
更多精彩,敬請期待。
奧圖碼數(shù)碼科技(上海)有限公司致力于智慧教育驅動力協(xié)作發(fā)展,歡迎合作垂詢。
注:本文為企業(yè)發(fā)布的推廣文案,不代表本站觀點。
責任編輯:董曉娟
本文鏈接:TOP↑