但是在學習R的過程中 從懵懂到囫圇吞棗的學習 隱約了解R是甚麼東西
而在內心裡總是有種不踏實的感覺 對於琳瑯滿目的領域包跨機器學習、
文字探勘、影像辨識、神經網路都嘗試過 但是我懂了嗎?答案是我並不懂
但在這囫圇吞棗的過程還是有些收穫 發現就是對資料掌握和探索是最基本
當然也就是EDA探索式資料分析 不論你是要用文字探勘、機器學習等
都需要進行探索資料進行分析 發現變相之間的關係及有趣的議題才進行模式的運算
得到你要答案及主題 ,而探索式資料分析包含兩大項圖形及變量;甚麼是探索是分析ㄋ?
探索式資料分析 (Exploratory Data Analysis) 的主要精神是運用視覺化、基本的統計等工具,反覆的探索資料特性,獲取資料所包含的資訊、結構和特點,因為在進行複雜或嚴謹的分析之前,必須要對資料有更多認識,才能訂定對的資料分析方向。(資料來源:曾意儒 _資料科學與R語言)。
學者Garrett Grolemund在R for Data Science一書中提到EDA不是具有嚴格規則的正式過程。最重要的是,EDA是一種心態。在EDA的初始階段,您應該隨時調查您遇到的每個想法。這些想法中的一些會付諸實踐,而另一些則是死胡同。隨著探索的繼續,您將置身於一些特別富有成效的領域中,這些領域最終會寫出來並與他人交流。
EDA是任何數據分析的重要組成部分,即使問題很簡單,因為您始終需要調查數據的品質。數據清理只是EDA的一種應用:您會問有關您的數據是否符合您的期望的問題。要進行數據清理,您將需要部署EDA的所有工具:可視化,轉換和建模。
上述國內外學者發現進入資料科學領域中的基礎為EDA即為探索是分析,不論未來要學習機器學習、資料探勘、類神經網路等都要了解你的資料集品質、變數等各項關係的了解,才可進行後續建模及各項應用,而探索式分析對資料集的了解最快的方式即為視覺化以及變數與變數之間的關係,就像學者Garrett Grolemund指出EDA是一種心態。而講到心態就抽象了對於寫程式的工程師就痛苦了,在程式的世界不就是0與1嗎?是的!這也是本次參加鐵人賽想要表達的理念。
能寫出上述的心得是走過很多冤望路才發現,當然也不是多了不起;記得在學習R的過程中教授就先講基本指令再到資料結構 再到資料清理,當然這些東西都很重要,但在吸收上就是不好,還記得一次交作業以政府公開資料平台中資料集為範例進行分析,使用中發現該資料集之議題,光是將資料載入及清理就花了2/3時間,對於探索資料的時間就更本不夠,更不用說對R指令的了解及操作 想當然爾作業成績並不理想。
讓我想感觸最深的是最近碩士論文先行嘗試模擬基本資料分析,用SAS統計軟體輕鬆愉快但使用R時我竟然不知如何下手,就很簡單問題男生與女生受測長條圖,竟然不知道怎麼做讓我有很深的挫折感,難道之前所花的時間都是無效的嗎?
所以重新思考改變學習方法,並了解資料科學到底是甚麼後才發現EDA是資料科學的基礎,而培養對資料的洞悉能力,沒有別的方法就是多練,所以本次會使用大量的範例,初期會採用R內建的資料集,因為前面提到拿外面的資料光載入及資料整理就需花大量的時間及模索,對於資料的洞悉能力以及R的語法掌握並沒有幫助。
第二階段會以實際資料為主例如購物網站的消費分析、政府公開資料平台、論文中問卷等務實資料來發掘這些資料的分析。
第三階段再做資料分析都以自己電腦為主也就是單機,但資料分析的結果需要與人溝通說明,讓其他人知道你的分析結果,而R有一個套件就是Shiny將結果形成互動式的呈現,以現今主流程式來說就是Web系統。
而本次你需要準備以下必備工具
- 一台筆電或PC(好像在說廢話!)
- 連上網路(又是廢話!)
- 安裝R的核心及R Studio可參考網址:https://www.dotblogs.com.tw/michael80321/2014/12/15/147656
蠻簡單的!不須太多的東西,而我的開發平台R核心為R x64 3.5.2 開發介面使用Rstudio,因為你們的版本比較新,有時會我的code在你們較新的核心運作會出不來(機率蠻小的),但不能排除所以可以在每篇文章下方留言告知,我會盡力排除。
在套件部分R的套件是很多的,會配合每篇文章來安裝相關套件,在R的程式基本語法我不會提到,因我讓我回想到每次教授講R的基本操作時,周公都叫我趕快登入,每次上課都在跟周公搏鬥,很苦啊.........所以基本操作可參閱下列網址(R的基本操作很簡單,簡單到讓你很想睡)
https://joe11051105.gitbooks.io/r_basic/content/
後續將學習的過程心得予以分享 有些不足之處或不對的地方 請各位同號能不吝指正及交流,希望自己能完成30天的堅持。
沒有留言:
張貼留言