本期項目回顧
我們(men) 將帶你“雲(yun) 體(ti) 驗”為(wei) 期七周的線上科研項目,跟隨大牛教授學習(xi) ,在博士導師的輔導下,完成科研課題並撰寫(xie) 科研論文的全過程。
本期課題:
#01 項目介紹
項目介紹:
“多臂強盜”問題是概率論中的一個(ge) 經典問題,亦是深度強化學習(xi) 中的重要模塊。人們(men) 針對解決(jue) 此類不確定性序列決(jue) 策問題,提出了“多臂強盜”算法框架(Multi-Armed Bandits,簡稱MAB,中文又譯作“多臂老虎機”)。近年來這一算法框架因優(you) 異的性能和較少的反饋學習(xi) 等優(you) 點,在推薦係統、信息檢索到醫療保健和金融投資等諸多應用領域中受到了廣泛關(guan) 注。
本課題正是以此框架為(wei) 核心內(nei) 容,學生將在參與(yu) 的過程中深入了解算法的基礎模型及應用,將認識到被廣泛使用的上置信界算法(Upper Confidence Bound,簡稱UCB)及湯普森采樣算法(Thompson Sampling Algorithms)。導師還將講授自身在該領域的最新研究成果。
項目大綱:
·多臂老虎機問題的基礎介紹
·隨機多臂老虎機模型
·上置信界(UCB)算法
·貝葉斯強盜策略與(yu) 湯普森采樣算法
·算法應用於(yu) 實施,算法性能分析
·多臂老虎機算法在推薦係統中的應用
·學術研討1:教授與(yu) 各組學生探討並評估個(ge) 性化研究課題可行性,幫助學生明晰後續科研思路
·學術研討2:學生將在本周課前完成程序設計原型(prototype)及偽(wei) 代碼(Pseudocode),教授將根據各組進度進行個(ge) 性化指導,確保學生優(you) 質的終期課題產(chan) 出
·項目成果展示
·論文指導
#02 導師介紹
導師:Osman
卡內(nei) 基梅隆大學 (CMU)終身正教授
Osman導師現任是卡內(nei) 基梅隆大學(CMU)計算機科學學院的終身正教授。此前他是CMU CyLab的博士後研究員。2011年秋季,他還在亞(ya) 利桑那州立大學擔任訪問博士後學者。導師於(yu) 2011年獲得馬裏蘭(lan) 大學(University of Maryland at College Park, MD)的電氣和計算機工程博士學位。
導師的研究重點是計算係統的建模、分析和性能優(you) 化,並使用應用概率、網絡科學、數據科學和機器學習(xi) 的工具。在數據科學和機器學習(xi) 的背景下,他正在研究使用順序樣本(例如,多臂機器人)的統計推斷和決(jue) 策,以及彈性分布式機器學習(xi) 。
#03 項目進行中
導師、副導師與(yu) 助教的教學以及班主任的全程陪伴,充分保證學員的項目學習(xi) 過程以及體(ti) 驗,提高項目學習(xi) 的效果。
課堂截圖
#04 項目成果展示
在科研小組成員的共同努力以及導師和班主任團隊的指導幫助下,學員將自主完成完整的項目,並最終向導師進行匯報。
成果展示
同時,在寫(xie) 作課程結束後,論文老師將安排論文課。配合論文輔導團隊的指導,學生將會(hui) 把小組的科研成果進一步精細打磨,形成高質量的科研成果產(chan) 出。
作業(ye) 展示
#05 學員反饋
班主任溝通截圖
學員收獲
評論已經被關(guan) 閉。