劍橋大學人工智能與數據科學AlphaGo的算法原理科研項目：強化學習與圖神經網絡（GNN）研究

招生狀態：招生中

課時安排：7周在線小組科研+5周論文輔導，教授全程參與(yu)

適合專(zhuan) 業(ye)

適合計算機科學、人工智能、數據科學、電子與(yu) 計算機工程等專(zhuan) 業(ye) ，軟件工程、自動化等相關(guan) 專(zhuan) 業(ye) 或者希望掌握強化學習(xi) 的學生；對人工智能、大數據以及交叉學科和方向感興(xing) 趣的學生；

學生需要具備線性代數及概率論與(yu) 數理統計基礎，至少會(hui) 使用一門編程語言實現神經網絡，有過強化學習(xi) 開發經驗的申請者優(you) 先。

項目收獲

1. 7周在線小組科研學習(xi) +5周論文指導學習(xi) 共125課時

2. 學術報告

3. 優(you) 秀學員獲主導師Reference Letter

4. EI/CPCI/Scopus/ProQuest/Crossref/EBSCO或同等級別索引國際會(hui) 議全文投遞與(yu) 發表指導（可用於(yu) 申請）

5. 結業(ye) 證書(shu)

6. 成績單

項目介紹

項目內(nei) 容涉及強化學習(xi) 核心理論和技能，具體(ti) 包括遺傳(chuan) 算法、強化學習(xi) 框架、Q-learning、行動者-批評（actor-critic；AC）模型、馬爾可夫決(jue) 策過程、優(you) 化控製、圖神經網絡（graph neural networks; GNN）、自動機器學習(xi) （Auto ML）等。學生通過項目了解如何開發基於(yu) 強化學習(xi) 的生產(chan) 力軟件，在結束時提交項目個(ge) 性化研究課題報告，進行成果展示。

個(ge) 性化研究課題參考：

強化學習(xi) 在博弈論中的應用：類alpha算法開發

利用經驗留存解決(jue) 強化學習(xi) 所需樣本太多問題的可行性分析

強化學習(xi) 中的機器獎勵設置方法迭代

為(wei) 強化學習(xi) 過擬合的特定場景重新建模的自動過程研究

具有精確尺度估計的動作-評價(jia) 網絡結構與(yu) 強化學習(xi) 優(you) 勢函數

項目大綱

強化學習(xi) ：項目將聚焦遺傳(chuan) 算法和強化學習(xi) 框架

環境：強化學習(xi) 由智能體(ti) 和環境兩(liang) 部分構成。項目將探討離策略、無模型強化學習(xi) 算法 Q-learning、行動者-批評（actor-critic；AC）模型、馬爾可夫決(jue) 策過程等

優(you) 化：項目將深入學習(xi) 強化學習(xi) 與(yu) 優(you) 化控製集成與(yu) 控製

集成：項目將進一步探討圖神經網絡、（graph neural networks; GNN）、自動機器學習(xi) （Auto ML）等

項目回顧與(yu) 成果展示

論文輔導

導師介紹

Pietro劍橋大學計算機科學與(yu) 技術終身正教授

Pietro教授是意大利國家認定Top100科學家，研究興(xing) 趣為(wei) 人工智能圖神經網絡建模，在國際知名學術期刊發表論文多篇，曾榮獲歐盟委員會(hui) 未來與(yu) 新興(xing) 技術（FET；迄今歐盟規模最大、資助力度最強的科研資助項目之一）會(hui) 展三等獎。 H-index64被引用次數35,000+。2021年連中三篇計算機頂會(hui) ICML，其論文還曾發表在包括世界級學術期刊《Nature》。

另外，教授還持有歐洲學習(xi) 和智能係統實驗室（Ellis；歐洲大型跨國人工智能研究所，目前擁有千位全球頂尖計算機工程師、數學家和其他領域科學家，旨在重構歐洲人工智能前沿研究）席位、劍橋大學大數據研究指導委員會(hui) 席位。

【競賽報名/項目谘詢+微信：mollywei007】