2020年9月1日 星期二

使用R進行探索式資料分析之初探(2)_資料視覺化的探索

   隨著大數據一詞的流行資料視覺化再度被人們討論,其實資料視覺化在台灣20年前就在發展了,而資料視覺化其實每天都出現在我們的身邊,如常條圖、圓餅圖、流程圖、渲染圖、Google Map都是資料視覺化的表現,以比較學理的講法資料空間轉換成圖形空間。

  舉一個例子以政府資料公開平台民中通報1999案件數量,經整理後的資料如下圖

從上圖我們可清楚民眾通報的案件類型,其他就看到一堆數字,當然聰明的我們當然知道這些數字就是民眾所通報的案件數,然後......嗯......就不是很清楚了,但我們繪製成下圖

透過上圖我就知道民中經常通報三種案件類型,包含黃色線的道路維修、綠色線的髒亂及汙染、橘色線的交通運輸,是民眾報案數最多類型的案件,其中我們可以看到黃色線的道路維修在3月份民眾通報案件數就逐漸攀高,到7月及8月通報案件數達到高峰,在市府的積極維修下,從9月份通報數逐漸下修。

所以透過上圖我們是不是可以給出市政府一點建議,在市政上必須著重道路維護、髒亂及汙染、交通運輸,這三者的管理及加強藉以提升施政滿意度;第二點從上圖可明確呈現每一類型的案件都有減少的趨勢,也代表該市政府市有在做事的。

這就是資料視覺化的威力,所以學者John Tukey說到與其他任何設備相比簡單的圖形為資料分析師帶來了更多的資訊。

在R資料視覺化採用ggplot2的套件,當然R的核心中也有繪圖的能力但劃出來的圖形都很醜,各位可自行上網了解,所以使用R做資料分析幾乎都使用ggplot2的套件。

1.首先安裝ggplot2套件開啟RStudio並點選下圖

2.按下Install Package出現下圖輸入ggplot2

3.在下方的Console會出現安裝進度,RStudio有點奇怪完成安裝都會出現紅色的字,錯誤也出現紅色的字,所以你必須看訊息,因為在其它開發介面只有錯誤才出現紅色的字,剛開始有點不適應。

4.開新檔你可以從File下拉選單中開新檔,也可從HotKey為Ctrl+Shift+N即可開出新檔

5.呼叫ggplot在新檔中輸入library(ggplot)後面Alt+Enter,即可執行該指令,注意游標必須在該行指令,R才能判斷是執行哪一行指令。

寫到這邊!還真的有點累!前置作業差不多,讓我們開始首先下載資料集,如下網址

https://github.com/YuJoe1215/Ironman-Challenge.git

在開始前不要急著寫程式,我以前也是如此囫圇吞棗,我們必須了它的資料集定義,對於

資料科學而言欄位是很重要的資訊,對於我們了解該資料集是第一步重要資訊 在學習的過程中發現有很多不同的名詞,對於資料科學的人變量或變數,對於統計的人會說變項,

對於學MIS會說欄位,其實都是說同一件事就是欄位,當初被這些名詞搞得霧煞煞.......

而為什麼一開始選擇鐵達尼資料集,因為大家都有看過電影,因此對於該資料集有一定的認識,

這對於後續的資料分析是很有幫助。也可快速進入資料科學探索的領域中,下圖為該資料集的

欄位說明

下一篇進入隊鐵達尼資料集的分析,藉由這些資料還原看到人性的光輝


沒有留言:

張貼留言

無現金支付的反思!

  **購物經歷** - 作者花費大量時間尋找立燈,最終在IKEA購買了一個649元的立燈 - 在IKEA附近停車場遇到只接受無現金支付的情況,被迫註冊並使用Line Pay **無現金支付的觀察** - 作者認為Line Pay作為前端介面,有助於提高停車場付費效率 - 作者預...