數據科學專業介紹

01、專(zhuan) 業(ye) 是什麽(me) ?

基礎概念與(yu) 核心內(nei) 容介紹

數據科學(Data Science 簡稱DS)結合了應用數學,統計學,模式識別,機器學習(xi) ,數據可視化,數據庫以及高性能計算的交叉學科,目標是從(cong) 結構化與(yu) 非結構化數據中提取有價(jia) 值的信息與(yu) 洞見。通過挖掘數據,處理數據,分析數據從(cong) 而得到有用信息的技術和研究。是一門利用數據學習(xi) 知識的學科,其目標是通過從(cong) 數據中提取出有價(jia) 值的部分來生產(chan) 數據產(chan) 品。它融合了數學建模、編程實現、算法設計和數據可視化,是當前各行業(ye) 數字化轉型的核心支柱之一。

與(yu) 其他專(zhuan) 業(ye) 的區別:

  • 與商業分析(BA)相比:DS更強調底層模型構建與算法優化,對於編程能力的要求也相對更高,使用Python/R,SQL,Tableau,MATLAB等編程語言和軟件是DS家常便飯;BA更偏向解決具體商業問題,強調數據在企業決策中的應用。
  • 與計算機科學(CS)相比:計算機科學主要聚焦於計算的理論基礎、算法設計、軟件開發以及計算機係統和技術背後的深層次原理。 相比之下,數據科學主要聚焦於從利用計算機科學、統計等不同學科的知識和內容,從數據中挖掘出有價值的信息。
  • 與工業工程與運籌學(IEOR)相比:IEOR是一個結合了工程、數學、統計等多個領域的複合型專業。雖然兩者都重視建模與分析,但IEOR研究的模型往往以找到優為解為目標,而DS更關注數據和模型能夠帶來的insights和企業決策信息。

項目歸屬院係差異:

  • 工程學院開設的DS項目技術性更強,偏向計算與係統的實現,與計算機科學關係密切(代表項目:UPenn MSE DS, Stanford MSE DS等);
  • 統計學院開設的DS項目更強調數學基礎、重視統計建模,通常來說更偏理論和學術研究導向(代表項目Yale Stats and DS, Stanford Stats and DS等);
  • 另外一類DS項目開設在獨立的數據科學學院下,這一類的數據科學項目招生強調多元化,因此對於申請者的背景包容度高(代表項目UCSD DS, UVA MSDS等);
  • 最後還有少數商學院或信息學院開設的DS或DA項目,則更強調數據工具與行業結合,適合跨專業背景申請(代表項目CMU BIDA等)。

02、能做什麽(me) ?

職業(ye) 路徑與(yu) 發展方向

數據科學具有高度的職業(ye) 靈活性,是就業(ye) 市場極具競爭(zheng) 力的領域之一,適用的領域包括互聯網、金融、科技、生物醫藥、零售、製造等多個(ge) 行業(ye) 。不過同時,我們(men) 也需要說明一點:DS是一個(ge) 沒有行業(ye) 屬性的方向。這個(ge) 特征使得申請人可以在多個(ge) 不同就業(ye) 行業(ye) 與(yu) 方向中做選擇,極大地提升了就業(ye) 選擇,但同時也意味著各位同學需要盡早找到適合自己的數據科學分支或領域。

【專(zhuan) 業(ye) 介紹】| 數據科學篇

常見職位包括:

  • Data Scientist(數據科學家)
  • Machine Learning Engineer(機器學習工程師)
  • Data Analyst(數據分析師)
  • NLP Engineer(自然語言處理工程師)
  • Research Scientist(研究員)
  • Quantitative Analyst(量化分析師)
  • Business Analyst(商業分析師)

進階路徑包括:

  • 技術方向:算法研究、AI產品研發、科研崗位(PhD/研究機構)
  • 管理方向:數據團隊主管、技術產品經理、CTO技術管理崗
  • 跨界方向:創業、戰略分析、數據驅動運營等

核心技能包括:

  • 數據清洗與分析
  • 模型構建與優化(機器學習,深度學習等)
  • 編程能力(如Python, R, SQL, Tableau, MATLAB等)
  • 敏銳地發現商業問題並通過數據給出合理的解決方案和信息

推薦證書(shu) /競賽:

  • Google Professional Data Engineer/Google Analytics Certificate
  • AWS Data Analytics Certificate
  • Microsoft Azure Data Scientist Associate
  • Kaggle Data-related Competitions

03、學什麽(me) ?

項目設置與(yu) 課程架構

數據科學專(zhuan) 業(ye) 的課程體(ti) 係通常圍繞兩(liang) 個(ge) 主要“支柱”來構建:

  • 編程類課程:Python/R編程、SQL數據庫、機器學習、深度學習、雲計算、大數據處理(Hadoop/Spark)等;
  • 數學類課程:包括線性代數、概率論與統計、優化方法、算法設計與分析、時間序列分析等。

以哈佛數據科學碩士(Harvard Master's in Data Science)舉(ju) 例,核心課程包括兩(liang) 節數據科學專(zhuan) 業(ye) 課程、一節機器學習(xi) 課程、一節統計類課程以及一節計算機類課程:

【專(zhuan) 業(ye) 介紹】| 數據科學篇

DS/ML類課程的設置上有基礎數據科學,進階數據科學以及機器學習(xi) 三節,這三節課程會(hui) 作為(wei) 該項目學生的核心課程;

統計課程的設置上可以在5節課中選擇一節:統計推斷、線性模型、廣義(yi) 線性模型、進階統計推斷、線性與(yu) 廣義(yi) 線性模型;

計算機類課程則是4節課中選擇一節:進階數據科學實戰課、計算科學數學模型、計算科學基礎、統計學計算工具。

除了這三個(ge) 主要方向的課程學習(xi) 以及一些選修課外,學校還要求Thesis track的學生自己選擇一個(ge) 研究主題,完成畢業(ye) 論文(Thesis and Independent Research)。

04、去哪讀?

院校項目與(yu) 地域分布

數據科學碩士項目分布廣泛,主要集中在美國、英國、香港、新加坡等地區:

美國:頂尖項目紮堆,就業(ye) 機會(hui) 豐(feng) 富

  • 斯坦福大學- MS in Computational and Mathematical Engineering - DS Track
  • 斯坦福大學-M.S. in Statistics: Data Science
  • 哈佛大學- MS in Data Science
  • 賓夕法尼亞大學- MSE in Data Science
  • 耶魯大學- MS in Statistics and Data Science
  • 西北大學- MS in Machine Learning and Data Science
  • 芝加哥大學- MS in Applied Data Science
  • 康奈爾大學- Master of Professional Studies inApplied Statistics: Data Science
  • 哥倫比亞大學-MS in Data Science
  • 卡耐基梅隆大學-Master of Computational Data Science
  • 卡耐基梅隆大學- MS in Machine Learning
  • 密歇根安娜堡分校- MS in Data Science
  • 南加大- MS in Applied Data Science

項目設置多在工程/統計/信息學院下,強調數學能力和編程能力

絕大多數DS項目都是STEM-Designated,因此OPT最長達36個(ge) 月,適合求職留美

美國DS項目地理分布圖:

【專(zhuan) 業(ye) 介紹】| 數據科學篇

英國:一年製高強度緊湊學習(xi)

  • 牛津大學-MSc in Social Data Science
  • 倫敦政治經濟學院(LSE)- MSc Data Science
  • 倫敦大學學院(UCL)-MSc Data Science and Machine Learning

新加坡/香港:亞(ya) 洲樞紐+就業(ye) 跳板

  • 新加坡國立大學-MSc in Data Science and Machine Learning
  • 南洋理工大學- MSc in Data Science
  • 香港大學- Master of Data Science
  • 香港港中文大學-MSc in Data Science and Business Statistics
  • 香港科技大學- MSc in Big Data Technology

選校建議:

  • 看項目重點:偏研究、實戰還是行業導向
  • 看錄取偏好:數學背景 vs 工程背景
  • 看地理資源:就業網絡、企業合作項目多的地區更適合求職

05、適合誰?

典型申請人畫像與(yu) 背景要求

數據科學因為(wei) 其廣泛的職業(ye) 出路和職業(ye) 年薪,一直是申請的熱門項目,頂尖項目每年錄取人數較少。DS項目總體(ti) 來講對於(yu) 學生的績點(特別是量化課程的成績)和科研/競賽經曆要求很高。

  • 建議專業:數學,統計,計算機等理工科背景的同學申請
  • 先修課程:建議學生在本科期間選擇以下課程或掌握以下技能:
  • 數學類:Probability and Statistics, Mathematical Analysis, Math Modelling, Optimization
  • 計算機類:Machine Learning, Algorithm,Database and Data System
  • 編程技能:R, Python, SAS, Matlab, SQL
  • 經濟類:Time Series, Predictive Modelling,Stochastic Process
  • 其他背景要求:具備一定的科研/競賽經曆,最好是在本科期間有發表過論文/完整跟完一個科研項目組/有過Kaggle等類似編程競賽經曆/在GitHub上有多個project experience
  • 建議項目時長:對於編程背景稍弱的同學,建議選擇16-20個月(1.5-2年)的項目,特別是包含 Capstone或Internship的項目。這樣學生可以通過研究生期間的課程磨練量化/編程能力的同時投遞一些暑期實習,為就業做好準備、打好基礎,並增加實習獲得return offer的幾率。

跨專(zhuan) 業(ye) 申請怎麽(me) 準備?

對於(yu) ”DS能否跨專(zhuan) 業(ye) 申請?“這個(ge) 問題,需要看學生的具體(ti) 學術背景。盡管大多數的DS項目不需要任何的先修課程,但是在錄取時,學校還是會(hui) 偏好數理/計算機背景且編程能力優(you) 秀的候選人。總的來說,一些量化課程較少的專(zhuan) 業(ye) ,如商科、經濟等比較難跨專(zhuan) 業(ye) 申請DS方向。

而像數學、統計、CS等理工科背景的跨專(zhuan) 業(ye) 申請人需要提前補充一些DS相關(guan) 課程,如:Machine Learning, Data Base, Python, SQL等,同時也需要補充數據相關(guan) 的科研或實習(xi) 經曆。畢竟,除了GPA和標化成績以外,用我們(men) 的學術、科研、實習(xi) 背景講出一個(ge) 生動、有說服力的故事才是打動招生官的關(guan) 鍵所在。

06、申請難嗎?

錄取標準與(yu) 策略建議

  • GPA:頂尖DS項目錄取GPA普遍在3.8+以上,但是豐富的科研經曆或是競賽經曆可以彌補一些GPA上的弱點。
  • GRE:錄取的GRE分數普遍在325+,quantitative項165+。疫情之後的幾年很多美國研究生項目對於GRE成績都不再強製要求遞交,然而一個優秀的GRE成績往往能夠幫助申請人錦上添花或是彌補缺陷。
  • 托福/雅思:托福成績105+或雅思成績7.5+可以申請絕大部分項目,但是不排除小部分項目對於小分(閱讀、口語等單項)成績又要求,比如CMU和芝加哥大學等,需要根據具體項目來判定分數是否達到標準。
  • 推薦信:推薦人的選擇上一般參考以下幾個標準:
  • 與學生關係緊密的導師或教授:在他們從personal level更深度的了解學生之後,往往能寫出更出彩、生動、有說服力的推薦信
  • 在推薦人的課上取得優秀成績的:一般來說教授都會很願意給成績好的同學寫推薦信
  • 在推薦人的科研項目上取得成就的:假設我們的推薦人是一位科研導師,而學生在科研過程中發表了論文或者取得了其他優異的成果,這封推薦信也會更有含金量和份量
  • PS/Essay:在撰寫數據科學方向的文書時,找到學生的閃光點,或是與眾不同的點是至關重要的。近些年來,隨著DS這個方向的研究生申請越來越熱門、競爭越來越激烈,也導致很多文書會有同質化的現象。舉個例子來說,沒有招生官會被這樣主題的文書所打動:“我很熱愛數據科學,因為我從小就對數據/數字特別感興趣、敏感。在大學期間我進一步學習了Data相關的課程,現在我的職業目標是成為一名數據科學家”。這樣的文書本身也沒有錯,但是問題就在於這樣的文書每個申請季招生官會閱讀幾千甚至上萬篇。而在DS這種熱門的專業中,想要寫出一篇出彩的文書,則需要我們發現學生身上的亮點。

機構建議:

  • 數據科學專業的申請人需要盡快確定自己的specific track or domain:找到一個具體的分支不但會幫助同學們在申請中確定一個有說服力的故事線,也會對大家未來進入就業市場找工作起到積極的作用
  • 盡早規劃自己的背景提升:數據科學專業在申請的過程中想要收獲心儀的offer,除了保持優秀的GPA和寫出與眾不同的文書以外還有一個重要的因素——綜合背景(包括科研/實習/競賽等),而綜合背景並非一個暑假或是幾個月就可以補充完整的,這就需要我們在大一或者大二就有意識地提升自己的背景
  • 找到屬於自己的“亮點” or "X-Factor":精準地找到自己申請中的亮點或是與眾不同的地方,並巧妙的結合在文書中能夠幫助大家在如今“同質化”居多的申請人中脫穎而出
  • 頂級DS項目競爭激烈,建議盡早準備,積累項目與實戰經驗。即使是CS或數學背景的申請者,也需證明在“數據理解+實際建模”上的能力。

07、關(guan) 於(yu) 數據科學專(zhuan) 業(ye) 的FAQ

Q1

請推薦一下數據科學和統計專(zhuan) 業(ye) 哪些學校比較好?威斯康星麥蒂遜這個(ge) 學校這兩(liang) 個(ge) 專(zhuan) 業(ye) 怎麽(me) 樣?想以後在美國找工作,這個(ge) 學校推薦嗎?您還推薦哪幾個(ge) 學校?

威斯康星麥迪遜的統計係成立於(yu) 1960年,在US World News Report中的排名是第13,統計係有很多知名中國教授,中國學生也很多。統計碩士實踐性很強,難度也比較大,對語言能力要求比較高,尤其是對學生計算機能力要求非常高,幾乎所有的課程都以編程為(wei) 主,成績特別優(you) 秀的有機會(hui) 留下了讀博。數據科學碩士是2020年開設的項目,是統計係和計算機科學的聯合項目,由統計係管理。統計碩士和數據科學碩士這兩(liang) 個(ge) 項目實踐性都很強,如果能夠利用好學校的資源,加上自己能夠主動做networking的話,是可以在美國找到不錯的工作的。之前的畢業(ye) 生會(hui) 去到 Google, John Deere, By Green Bay Packaging, Volvo Cars, and Amazon 這樣的企業(ye) 。有數據科學和統計專(zhuan) 業(ye) 的學校比較多,很多數據科學碩士項目是統計係近幾年開設的新項目,當然有些數據科學是開在和統計係不同學院下麵的。常申請的數據科學和統計學校有哥大,耶魯,約翰霍普金斯,杜克,西北,伯克利,UCLA, 密歇根大學,南加大。

Q2

應用數學,統計學,數據科學這三個(ge) 專(zhuan) 業(ye) 有什麽(me) 不同?

這是一個(ge) 非常寬泛的問題。從(cong) 這三個(ge) 專(zhuan) 業(ye) 詞匯所涵蓋的內(nei) 容上來說,應用數學是最多的,凡是研究數學理論如何應用和服務於(yu) 解決(jue) 現實問題的都算是應用數學領域,比如運籌學和優(you) 化,隨機過程和控製論,計算生物學,計算物理,計算化學,精算和金融數學等子方向。統計學是專(zhuan) 門指一種處理和分析數據的方法,通常與(yu) 概率論結合在一起使用,通過對的一定數量的數據進行收集,處理和分析,最終得出結論,因為(wei) 統計學的很多理論模型已經非常成熟,應用領域非常廣泛,因此很多時候,統計學與(yu) 概率論也被劃歸到應用數學的一個(ge) 子方向裏。

數據科學相比前麵二者,涉及的專(zhuan) 業(ye) 領域更為(wei) 交叉,數據科學和統計學類似的地方在於(yu) 也是研究如何通過對數據進行獲取,分析和處理,得出結論,這也是我們(men) 經常可以看到美國數據科學的研究生項目,統計學與(yu) 概率論通常是必修的課程之一的原因,因為(wei) 統計學與(yu) 概率論是目前從(cong) 大量數據中獲取規律和結論的主要辦法。

不同之處在於(yu) ,第一,數據科學交叉性很強,要學習(xi) 的內(nei) 容更為(wei) 豐(feng) 富,包括計算機編程語言,數據庫編程,數學建模,數據挖掘,文本分析,機器學習(xi) ,統計學與(yu) 概率論,數據可視化等各個(ge) 領域的知識和技能,第二,數據科學相比統計學,往往要處理的數據量更為(wei) 龐大,這也是數據學科通常要學習(xi) 大數據處理與(yu) 計算機編程的主要原因。從(cong) 申請上來說,應用數學的碩士項目相對最少,申請難度最高,統計學和數據科學的碩士項目更多一些,申請難度也相比應數低一些,未來就業(ye) 來看,數據科學應該是出路最容易的,因為(wei) 研究生項目本身的開設就是為(wei) 了滿足工業(ye) 界對數據分析類人才大量需求的,學習(xi) 的東(dong) 西更綜合,與(yu) 企業(ye) 的實際需求貼合更緊密。

Q3

美本心理學+數學,如果申研DS,與(yu) 工科或理科背景的學生比,是否競爭(zheng) 力弱一些?如果是這樣,針對這個(ge) 背景,可否有DS結合心理學的這種研究生項目?是否還有其他美研項目可以考慮?例如統計學專(zhuan) 業(ye) ?

數據科學是一門實踐性非常強的學科,你可以理解為(wei) 它的基礎是統計學和計算機科學,在此基礎之上是數據分析在各個(ge) 領域的應用。由於(yu) 數據科學具有很強的跨學科性質,因此數據科學項目是歡迎不同背景學生的,也就是並不要求學生是理工背景。但因為(wei) 數據科學課程的主體(ti) 是統計和計算機,項目在錄取時會(hui) 要求學生有比較紮實的數理背景,也就是要求學生至少學習(xi) 了微積分、線性代數、數理統計,以及對至少一門編程語言的熟練掌握,例如R或者Python。如果你的成績單上沒有顯示這些課程,你可以通過自學或者相關(guan) 經曆來體(ti) 現你這方麵的能力。

當然,除了學校對學生的基本申請要求之外,錄取還受applicant pool申請者群體(ti) 水平的影響。有時侯,即使你滿足了學校的基本要求,由於(yu) applicant pool的整體(ti) 水平比較高,也會(hui) 出現“水漲船高”的現象。不過,從(cong) 你的背景來看,數學和心理雙學位,應該已經具備了紮實的數理背景,而你的心理學還可能成為(wei) 你跟理工科學生競爭(zheng) 時的優(you) 勢。

數據科學和心理學有很多結合的地方,申請時可以考慮心理學底下數據科學相關(guan) 的分支,比如,哥大Clinical Psychology有Research Method的分支,哥大的Educational Psychology有Cognitive, Behavioral, and Development analysis的方向。除此之外,還可以考慮申請Applied Behavioral Analysis, 哥大和南加大都有這個(ge) 項目,出來可以考Board Certified Behavior Analyst, 成為(wei) Licensed Behavior Analyst,主要治療自閉症患者和其他有學習(xi) 障礙患者。如果你對人在商業(ye) 領域的行為(wei) 比如市場研究感興(xing) 趣的話,還可以考慮南加大的應用心理學,威斯康星麥迪遜的心理學碩士的Data Science in Human Behavior的分支, 杜克的Statistics Market Research, 羅徹斯特大學的Market Analytics, 喬(qiao) 治亞(ya) 大學的Market Research, 密歇根州立大學的Market research, 和波士頓大學的marketing Communication research這些項目。

Q4

數據科學(偏地理)就業(ye) 方向是什麽(me) ?

數據科學(偏地理)在英文中叫Spatial Data Science(空間數據科學),或者Geographic Data Science(地理數據科學),這個(ge) 專(zhuan) 業(ye) 在很多行業(ye) 都有廣泛應用。簡單來講,空間數據科學就是利用地理信息和空間數據來解決(jue) 各種問題。我舉(ju) 幾個(ge) 離日常生活比較接近的應用場景。首先是導航和自動駕駛領域,空間數據被用來製作和更新地圖、實時定位、路況和交通管理、以及自主導航。另一個(ge) 例子商業(ye) 決(jue) 策中的應用。

零售商可以借助空間數據科學來分析客戶的地理位置、市場趨勢和商店位置,從(cong) 而更好地理解客戶需求和購物行為(wei) 。(不知道大家有沒有在逛街的時候收到過附近商鋪打折的信息?)再一個(ge) 例子是新冠疫情中利用空間數據來分析疫情傳(chuan) 播模式、高風險地區、疫苗發放情況、和社交距離的評估。除了上述應用領域,Spatial Data Science 還在地理信息係統、環境研究、城市規劃、交通管理、緊急響應和災害管理等領域發揮著關(guan) 鍵作用。空間數據科學的代表碩士項目有南加大的Master of Spatial Data Science,布裏斯托大學的MSc in Geographic Data Science and Spatial Analytics。

08、寫(xie) 在最後

數據科學的本質,是以數據為(wei) 媒介,連接世界的運行邏輯與(yu) 人的決(jue) 策偏好。在這個(ge) 變量飛快增加的時代,數據科學不是答案,但它是尋找答案的方法。

【競賽報名/項目谘詢+微信:mollywei007】

上一篇

瑞士巴塞爾大學全獎PhD博士項目招生中!

下一篇

美國各州立法“淘汰”專業 普渡、印第安納等校大量撤銷學位……

你也可能喜歡

  • 暫無相關文章!

評論已經被關(guan) 閉。

插入圖片
返回頂部