R語言和商業分析-洞悉商業世界中的資料科學

NT$3,000

描述

學習資料科學,不再手忙腳亂

龐大的市場需求、優渥的薪資、具有影響力的工作內容,讓資料科學家被譽為「21 世紀最性感的職業」,也因為資料科學的火熱,從 R、Python 程式設計到機器學習、統計學等課程大量出現。要成為資料科學家,似乎要具備資料科學文氏圖(下圖)中的所有技能,但是,大家有沒有想過,到底要從哪個領域切入,才不會像無頭蒼蠅,這邊學一塊、那邊學一點,永遠看不見盡頭呢?

剛入門學生最渴望獲得的通常是「程式撰寫」與「數學統計」的能力,剛開始的我們也是如此,買了許多資料科學相關的課程 (下圖都是大鼻購買的課程),雖然課程內容相當豐富,但除了有點生硬外,常常學了也不知道可以用來解決什麼問題。最後的結果往往是:大部分的課程都沒堅持下來,或是堅持到底以為收穫滿滿,最後卻說不出到底學到了什麼。

商業分析能力 – 成為傑出資料科學家的關鍵

僅管「程式撰寫」與「統計知識」是一名資料科學家的必備技能,但常被忽略的「商業分析能力」反而是讓你脫穎而出的關鍵。在 Facebook 資料科學家的職缺介紹中,就經常強調產品知識及跨部門合作的能力。在面試中可能被詢問的問題是:「請你設計一個方法,找到每一個用戶最好的朋友?你會需要使用什麼數據?要使用哪種演算法實作?」你必須先了解 Facebook 的商業目標,才能夠定義什麼叫做「最好的朋友」;有了清楚的問題與目標定義,才能夠設計資料分析流程,並蒐集、整理相對應的資料,實作出讓產品經理滿意的模型與解決方案。這就是為什麼我們要強調「商業分析」的能力:辨認出正確的問題,才能真正解決問題,創造價值。

 

R 語言和 Python 是目前資料科學界最受歡迎的兩種程式語言,儘管工作中常需要交互使用兩種語言,為什麼我們在這門課程會選擇教授 R 語言呢?

R 是專注於「資料分析」的程式語言

「為了資料分析而生」的 R 語言專注於用戶導向的資料操作、統計建模以及視覺化分析;而 Python 作為一般化的程式語言,強調運作效率和程式的可讀性。因此,對於靠近工程端的資料工作者,Python 是比較適合的工具,但對於分析端的資料工作者,專注於「資料分析」的 R 語言絕對是最適合的程式語言。

R 是容易學習的「資料分析」工具

由於 R 是為了分析而設計的程式語言,許多資料分析的精神、流程與方法都已經內建於 R 語言的底層了!相較之下,Python 作為一般化的程式語言,除了得仰賴如 Pandas, SciPy, Numpy 等運算套件,學習時更需要花不少時間了解程式語言與電腦科學的相關知識。以 R 語言作為授課語言,可以讓學生專注於「資料分析」的學習,減少分心學習其他議題的時間。

R 能完成大部份資料分析專案的需求

下圖為 O’Reilly 資料科學薪資調查報告中「資料科學家常見的工作任務」:

其中 R 語言較擅長的任務有:

  • 基本的探索性資料分析 (運用各類統計與視覺化套件)
  • 運用資料分析解決特定的研究問題  (運用各類統計與機器學習套件)
  • 與決策者溝通資料分析結果 (運用 R Markdown)
  • 建立模型的 prototype (運用各類統計與機器學習套件)
  • 建立視覺化圖表 (運用 ggplot2 / plotly / Shiny Apps)
  • 與外部關係人溝通 (運用 R Markdown / Shiny Apps)
  • 建立企業內部的資料儀表板 (運用 Shiny Apps)

相較於 Python 適合用於「量產/機器學習/深度學習」的使用情境,R 語言本身更擅長處理常見的資料分析專案任務。當然,Python 也可以完成這些任務,但生態體系較為複雜,也不像 R 語言一樣容易上手。