數據科學與統計學科研項目回顧：“橫行賭場” 基於統計分析原理不確定性過程決策分析，以如何利用算法在“多臂老虎機”遊戲中取勝為例

本期項目回顧

我們(men) 將帶你“雲(yun) 體(ti) 驗”為(wei) 期七周的線上科研項目，跟隨大牛教授學習(xi) ，在博士導師的輔導下，完成科研課題並撰寫(xie) 科研論文的全過程。

本期課題：

項目回顧｜數據科學與(yu) 統計學專(zhuan) 題：“橫行賭場” 基於(yu) 統計分析原理不確定性過程決(jue) 策分析，以如何利用算法在“多臂老虎機”遊戲中取勝為(wei) 例

#01 項目介紹

項目介紹：

“多臂強盜”問題是概率論中的一個(ge) 經典問題，亦是深度強化學習(xi) 中的重要模塊。人們(men) 針對解決(jue) 此類不確定性序列決(jue) 策問題，提出了“多臂強盜”算法框架（Multi-Armed Bandits，簡稱MAB，中文又譯作“多臂老虎機”）。近年來這一算法框架因優(you) 異的性能和較少的反饋學習(xi) 等優(you) 點，在推薦係統、信息檢索到醫療保健和金融投資等諸多應用領域中受到了廣泛關(guan) 注。

本課題正是以此框架為(wei) 核心內(nei) 容，學生將在參與(yu) 的過程中深入了解算法的基礎模型及應用，將認識到被廣泛使用的上置信界算法（Upper Confidence Bound，簡稱UCB）及湯普森采樣算法（Thompson Sampling Algorithms）。導師還將講授自身在該領域的最新研究成果。

項目大綱：

·多臂老虎機問題的基礎介紹

·隨機多臂老虎機模型

·上置信界（UCB）算法

·貝葉斯強盜策略與(yu) 湯普森采樣算法

·算法應用於(yu) 實施，算法性能分析

·多臂老虎機算法在推薦係統中的應用

·學術研討1：教授與(yu) 各組學生探討並評估個(ge) 性化研究課題可行性，幫助學生明晰後續科研思路

·學術研討2：學生將在本周課前完成程序設計原型（prototype）及偽(wei) 代碼（Pseudocode），教授將根據各組進度進行個(ge) 性化指導，確保學生優(you) 質的終期課題產(chan) 出

·項目成果展示

·論文指導

#02 導師介紹

導師：Osman

卡內(nei) 基梅隆大學 (CMU)終身正教授

Osman導師現任是卡內(nei) 基梅隆大學(CMU)計算機科學學院的終身正教授。此前他是CMU CyLab的博士後研究員。2011年秋季，他還在亞(ya) 利桑那州立大學擔任訪問博士後學者。導師於(yu) 2011年獲得馬裏蘭(lan) 大學(University of Maryland at College Park, MD)的電氣和計算機工程博士學位。

導師的研究重點是計算係統的建模、分析和性能優(you) 化，並使用應用概率、網絡科學、數據科學和機器學習(xi) 的工具。在數據科學和機器學習(xi) 的背景下，他正在研究使用順序樣本(例如，多臂機器人)的統計推斷和決(jue) 策，以及彈性分布式機器學習(xi) 。

#03 項目進行中

導師、副導師與(yu) 助教的教學以及班主任的全程陪伴，充分保證學員的項目學習(xi) 過程以及體(ti) 驗，提高項目學習(xi) 的效果。

課堂截圖