手機電腦屏幕前的你是否遇到過這樣的情況:
前腳剛在談論或者搜索的內(nei) 容,下一秒就會(hui) 出現在你的電腦網頁廣告或手機APP相關(guan) 產(chan) 品推薦中,仿佛被視監了一般;
又或者你在某寶上點進了某件商品的詳情頁,隔天你的推薦列表就變成了相關(guan) 產(chan) 品的專(zhuan) 場。
若經曆過以上場景,那你一定對“大數據”這個(ge) 詞不會(hui) 感到陌生。
事實上,數據無處不在,人類社會(hui) 的數據量一直處於(yu) 快速增長中,尤其在互聯網高度發達的今天。
於(yu) 是,有越來越多的人開始投身於(yu) 研究、分析數據,並把數據作為(wei) 重要的行事參考依據。Data Science 就在這樣的時代背景下逐步成為(wei) 火熱的專(zhuan) 業(ye) 。
什麽(me) 是 Data Science?
從(cong) 廣義(yi) 上來說,和數據相關(guan) 的科學研究都是數據科學(Data Science,簡稱DS);具體(ti) 點來說的話,Data Science 是指通過挖掘數據、處理數據、分析數據,從(cong) 而得到有用信息的技術和研究,再將這些信息應用到不同領域的各個(ge) 方麵。
該學科結合了諸多領域中的理論和技術,包括應用數學、統計、模式識別、機器學習(xi) 、數據可視化、數據倉(cang) 庫以及高性能計算等,通過運用各種相關(guan) 的數據來幫助非專(zhuan) 業(ye) 人士理解問題。
Data Science 都學些什麽(me) ?
總的來說,Data Science 的學習(xi) 主要分為(wei) 以下三個(ge) 模塊:
-
數據模型
-
數據處理
-
數據可視化
顯而易見的是,這些相關(guan) 的知識都和計算機、統計及數學有著密切的聯係。下麵給大家一張圖,或許可以更直觀地感受到 Data Science 和其他學科之間的關(guan) 係:
美國著名數據科學家 Drew Conway 的維恩圖
作為(wei) 一門跨領域學科,Data Science 專(zhuan) 業(ye) 的學生一般會(hui) 學習(xi) 包括數據分析、計算機編程、預測建模、統計學、概率論、微積分等課程。
那麽(me) 學習(xi) 這個(ge) 專(zhuan) 業(ye) ,能從(cong) 事哪方麵的工作?就業(ye) 前景又如何?去哪個(ge) 國家學習(xi) 比較好?申請難不難?
Data Science 畢業(ye) 後做什麽(me) ?
01就業(ye) 市場現狀
在以前,可能數據科學的工作主要集中在科技和金融領域,但隨著互聯網的快速發展,幾乎每個(ge) 行業(ye) 都需要懂得處理數據的專(zhuan) 業(ye) 人士,這也導致就業(ye) 市場對於(yu) 數據科學這個(ge) 職位的需求激增,並成為(wei) 了目前最具價(jia) 值的職業(ye) 領域之一。
根據 Glassdoor 《 2022 美國 Top 50 最佳工種》排名顯示,數據科學家以年薪中位數 $120,000(約76萬(wan) 人民幣)位列美國最佳職業(ye) 榜單的第三位,是美國最受歡迎的工作之一。
(圖片來源:glassdoor)
根據 Glassdoor 和美國勞工統計局給出的數據,美國將為(wei) 數據科學家和類似的高級分析職位創造超過 61,799 個(ge) 新工作崗位;到 2026 年,數據科學家的就業(ye) 人數預計將增加 20%。
02數據科學的工作內(nei) 容
數據科學的主要工作可以歸納分為(wei) 四個(ge) 部分:
-
歸納問題
-
準備探索數據
-
模型訓練檢驗調整
-
報告和產(chan) 品
1)歸納問題
客戶給公司的任務,或者上級給分析師的任務,不是一個(ge) 具體(ti) 的任務(用xx模型來做xx數據) ,而是一個(ge) 具體(ti) 的商業(ye) 問題。比如,上個(ge) 季度為(wei) 什麽(me) 盈利下降了?這就是一個(ge) 歸納問題的環節,需要有專(zhuan) 業(ye) 知識幫助我們(men) 找到方向。
2)準備探索數據
歸納問題結束之後,會(hui) 產(chan) 生很多假設,這就需要尋找數據驗證假設。
尋找數據一般是竭盡所能,比如收入不好與(yu) 市場推廣有關(guan) ,就會(hui) 去尋找廣告商的數據;尋找數據以後,要檢查數據質量是否有異動、缺失等等。通常,數據質量能夠決(jue) 定模型的準確率,所以花在“清洗整理”數據上的時間要占到總時間的60%甚至更多,有時候也需要跟客戶進行交流。檢查完質量以後,再做一些探索性分析。
3)模型訓練檢驗調整
先確定模型基本類型(回歸、聚類等),選取比較合適的模型進行搭建,用test對模型進行檢驗。檢驗的同時,再去尋找模型最優(you) 的參數配置對模型進行預測。如果預測結果很好的話,建模過程就結束了。
4)報告和產(chan) 品
如果你在谘詢公司工作,模型做完以後都會(hui) 和客戶進行交流,看是否符合實際情況;在科技公司中,模型往往會(hui) 發展成一個(ge) 產(chan) 品,放在公司平台上進行測試使用,最後進行正式發布。
總的來說,Data Science是多領域的結合,尤其是跟具體(ti) 各行各業(ye) 相結合的時候,除了具備專(zhuan) 業(ye) 知識和技能,以及實際運用知識的能力外,還需要對特定甚至多個(ge) 相關(guan) 行業(ye) 領域有深入的了解。
(圖源:oralytics.com)
03有哪些職位與(yu) Data Science相匹配?
互聯網時代,各行各業(ye) 都在利用大數據來解決(jue) 問題,所以各企業(ye) 都有與(yu) 數據科學相關(guan) 的職位設置。與(yu) Data Science 相關(guan) 的職位可能有很多種叫法,不同公司根據不同的背景,主要有以下一些常見的職位頭銜(title):
1)數據科學家 Data Scientist
數據科學家應具有商業(ye) 頭腦和分析技能,以及挖掘、清理和呈現數據的能力。該職位主要職責為(wei) 獲取、管理和分析大量非結構化數據,並提出相關(guan) 設計解決(jue) 方案。然後將結果綜合並傳(chuan) 達給關(guan) 鍵利益相關(guan) 者,以推動企業(ye) 的戰略決(jue) 策。
2)數據分析師 Data Analyst
數據分析師是數據科學家和商業(ye) 分析師之間的橋梁。該職位主要從(cong) 事數據處理工作,運用算法來解決(jue) 和分析問題,推動數據解決(jue) 方案的不斷更新,估計投資回報比,為(wei) 產(chan) 品方向提建議。
3)數據工程師 Data Engineer
數據工程師管理大量快速變化的數據。他們(men) 專(zhuan) 注於(yu) 數據管道和基礎設施的開發、部署、管理和優(you) 化,以便將數據轉換傳(chuan) 輸給數據科學家進行查詢。
4)數據挖掘工程師 Data Mining Engineer
數據挖掘工程師不僅(jin) 會(hui) 檢查他們(men) 自己的業(ye) 務數據,還會(hui) 檢查從(cong) 第三方收集的信息,數據挖掘工程師將創建複雜的算法來進一步分析數據。
5)數據架構師 Data Architect
數據架構師與(yu) 用戶、係統設計人員、以及開發人員密切合作,創建用於(yu) 集中、集成、維護和保護數據源的數據管理係統。
6)風控師 Risk Manager
風控師是提前識別風險並采取預防措施降低或減輕風險的職位,較多出現在金融相關(guan) 行業(ye) 。該職位與(yu) 數據科學緊密相連,風控師需使用數據處理工具/知識,有效地提供風險分析報告,幫助企業(ye) 擺脫損失。
去哪個(ge) 國家留學比較好?
在回答這個(ge) 問題前,我們(men) 先來看一下 EduRank 對各國各大學 Data Science 專(zhuan) 業(ye) 的排名。
1.University of Oxford
2. Stanford University
3. Harvard University
4. University College London
5. University of Washington - Seattle
6. Carnegie Mellon University
7. Massachusetts Institute of Technology
8. University of Michigan - Ann Arbor
9. University of California - Berkeley
10. University of Toronto
11. University of Wisconsin - Madison
12. University of California-San Diego
13. University of Manchester
14. McMaster University
15. Imperial College London
16. University of Illinois at Urbana - Champaign
17. Cornell University
18. University of Cambridge
19. Pennsylvania State University
20. University of Bristol“
完整排名可以在以下鏈接查看:https://edurank.org/cs/data-science/
從(cong) 以上榜單中我們(men) 可以看到,美國院校幾乎包攬了前十。
並且在 Top20 的名單中,絕大部分院校均為(wei) 美國大學,其次是英國,但在學校數量上還是和美國相差甚遠。
不止該榜單如此,美國數據科學人才測評專(zhuan) 業(ye) 機構 Correlation One 發布的白皮書(shu) 中,就有全球院校 Data Science 的專(zhuan) 業(ye) 排名,其中美國院校表現依然出挑。
(圖源:Correlation One-Future of Data Talent Report )
下麵我們(men) 主要來了解一下美國的 Data Science 專(zhuan) 業(ye) 。
01美國大學DS專(zhuan) 業(ye) 有哪些課程項目?
不管是教育質量,還是就業(ye) 發展,美國都是學習(xi) Data Science 專(zhuan) 業(ye) 的首選。近年來,美國開設數據科學專(zhuan) 業(ye) 的學校數量快速增加,不少院校都把它列入為(wei) STEM專(zhuan) 業(ye) ,可見美國對於(yu) 數據科學專(zhuan) 業(ye) 的重視程度。
以下是各大院校該專(zhuan) 業(ye) 普遍會(hui) 涉及的一些具體(ti) 課程,主要包括:
-
大數據 Big Data
-
機器學習(xi) Machine Learning
-
數據可視化 Data Visualization
-
數據探索與(yu) 分析 Data Exploration & Analysis
-
概率與(yu) 統計 Probability & Statistics
-
數據庫係統 Database Systems
-
數據結構和算法 Data Structures & Algorithms
-
數據挖掘 Data Mining
每個(ge) 學校具體(ti) 涉及的課程會(hui) 有所不同,但是主要都圍繞數據科學的五個(ge) 不同階段:
-
捕獲(數據采集、數據輸入、信號接收、數據提取);
-
維護 (數據倉(cang) 庫、數據清洗、數據分期、數據處理、數據架構);
-
過程 (數據挖掘、聚類/分類、數據建模、數據匯總);
-
分析 (探索性/確認性、預測性分析、回歸、文本挖掘、定性分析);
-
溝通 (數據報告、數據可視化、商業(ye) 智能、決(jue) 策製定)。
(截圖來源:UCberkeley)
在美國,大部分 Data Science 的相關(guan) 項目一般都開設在計算機學院、文理學院、工程學院下,也有少數設置於(yu) 商學院。
下麵為(wei) 大家推薦美國幾所排名相對不錯的院校以及碩士項目吧~
02推薦院校及項目
1)斯坦福大學 Stanford University
項目名稱:Master of Science in Statistics - Data Science track
所屬學院:School of Humanities and Sciences - The Department of Statistics
項目長度:1-2年
項目鏈接:https://statistics.stanford.edu/graduate-programs/statistics-ms/statistics-data-science-curriculum
2)哈佛大學 Harvard University
項目名稱:Master of Science inData Science
所屬學院:Harvard John A. Paulson School of Engineering and Applied Sciences
項目長度:1-2年
項目鏈接:https://www.seas.harvard.edu/applied-computation/graduate-programs/masters-data-science
3)華盛頓大學 University of Washington
項目名稱:Master of Science in Data Science
所屬學院:College of Arts & Sciences,Natural Sciences Division - Department of Statistics
項目長度:1.5年
項目鏈接:https://www.washington.edu/datasciencemasters/
4)密歇根大學安娜堡分校 University of Michigan,Ann Arbor
項目名稱:Master of Science in Data Science
所屬學院:College of Literature,Science,and the Arts
項目長度:1年
項目鏈接:https://lsa.umich.edu/stats/masters_students/mastersprograms/data-science-masters-program.html
5)卡內(nei) 基梅隆大學 Carnegie Mellon University
項目名稱:Master of Computational Data Science
所屬學院:School of Computer Science
項目長度:16個(ge) 月
項目鏈接:https://mcds.cs.cmu.edu/
6)加州大學伯克利分校 University of California,Berkeley
項目名稱:Master of Engineering - Data Science and Systems
所屬學院: College of Engineering - Department of Electrical Engineering And Computer Science
項目長度:1年
項目鏈接:https://eecs.berkeley.edu/academics/graduate/industry-programs/meng
7)康奈爾大學 Cornell University
項目名稱:Master of Professional Studies in Applied Statistics
所屬學院:College of Computing and Information Science
項目長度:1年
項目鏈接:https://stat.cornell.edu/academics/mps
8)南加州大學 University of South California
項目名稱:Master of Science in Computer Science (Data Science)
所屬學院:USC Viterbi School of Engineering
項目長度:1-2年
項目鏈接:https://catalogue.usc.edu/content.php?catoid=14&navoid=5199
9)賓夕法尼亞(ya) 大學 University of Pennsylvania
項目名稱:Master of Science in Engineering in Data Science
所屬學院:School of Engineering and Applied Science
項目長度:1.5-2年
項目鏈接:https://www.cis.upenn.edu/graduate/program-offerings/mse-in-data-science/
10)哥倫(lun) 比亞(ya) 大學 Columbia University
項目名稱:Master of Science in Data Science
所屬學院:Data Science Institute
項目長度:1.5年
項目鏈接:https://datascience.columbia.edu/education/programs/m-s-in-data-science/
當然,選擇哪個(ge) 國家就讀要考慮的因素有很多,比如學校排名及認可度、專(zhuan) 業(ye) 排名、個(ge) 人競爭(zheng) 力、就業(ye) 發展、文化氛圍等等。總的來說,美國數據科學專(zhuan) 業(ye) 院校更多,且專(zhuan) 業(ye) 排名會(hui) 相對更高,國內(nei) 認可度也高、就業(ye) 市場也會(hui) 更廣。
申請一般要求
01需要什麽(me) 樣的學術背景?
不論是國內(nei) 還是美國本土,本科就開設Data Science這個(ge) 專(zhuan) 業(ye) 的學校並不是特別多,所以大家不要一看自己專(zhuan) 業(ye) 名字和數據科學不搭邊就覺得是轉專(zhuan) 業(ye) 申請。
首先,學CS的同學顯然是可以申請的,因為(wei) 大多數數據工作都是通過編程和數據庫的相關(guan) 手段進行的;
學統計或者應用數學,且有一定編程基礎的同學也可以申請;
商科出身,尤其是量化背景較強的商科專(zhuan) 業(ye) ,比如金融工程,但又希望能選擇一個(ge) STEM專(zhuan) 業(ye) 的小夥(huo) 伴,那DS顯然也是個(ge) 非常好的選擇。
所以說,如果你有比較強的編程背景,又有比較好的數理基礎那你就很有競爭(zheng) 力;而純商科背景的小夥(huo) 伴則可以選擇Data Science(DS)和 Business Analytics(BA)混申吧,後者更偏商科更加Match一些。
02GPA
美國大部分排名較好的院校,GPA的最低要求都在3.0以上。所以,如果你要申請好的院校需要早點準備提高自己的GPA。
03語言成績
在美國,Data Science 專(zhuan) 業(ye) 排名稍好的學校語言成績一般為(wei) :雅思6.5-7.5;托福88-100。排名前十的院校一般要求雅思7.5,托福100。
04GRE/GMAT
美國大部分院校會(hui) 要求學生提供GRE/GMAT成績,不過因為(wei) 疫情原因,很多學校取消了GRE/GMAT的強製提交要求。
評論已經被關(guan) 閉。