2020年7月29日 星期三

放暑假的兩個禮拜迷上了對馬戰魂

論文等待指導教授的兩個禮拜  迷上了對馬戰魂

當然官方的名稱為對馬戰鬼  以英文名字Ghost地確可以翻為鬼

但我覺得翻成魂是比較能符合意境  而這一款能吸引我

除了風景漂亮就是他的打鬥風格  他的打都風格比較接近真實

沒有像仁王及隻狼絢麗打鬥  所以最近迷上了日本武士

因此最近再YT追劍豪生死鬥的動漫  因為太過血腥暴力  再YT並沒有影集

只有漫畫的解說但我也覺得還不錯的  但其實有位YT作者對武士道的評論不錯

他說武士道是一種極富魅力一種精神象徵  從他的專注、忠心、儀式、目標

塑造出一種堅毅的感覺  但在日本的舊時代能成武士就那10%  而其餘90%都在服務這10%

使的日本再舊時代的階級分明  有能力的人因階級的關係  永遠無法發揮他的才能

再用武士道一詞進行包裝  真的對有能力的人是一種不公平  逼迫人民服從

但對馬戰魂俳句卻讓我很吸引  我們現在生活有很多意境跟俳句是相同的

而藉由俳句短短幾句  有種讓自己的心境得到理解的感覺

論文的生活與思考煎熬又開始

論文提案回覆給老師之後  兩個禮拜我的指導教授才回覆我

給了三建議緒論需補充加強、文獻補充加強、問卷再發展

換言之我度過了兩個禮拜沒有論文的壓力  這是放暑假嗎?

或許這只是我的小確信罷了!  現實的生活總是在我心中揮之不去

當然這幾天晚上查了很多文獻  今天終於可以開動筆寫了

但一開始寫就絞腦汁了  有了想法知道要寫甚麼

到真的開始寫又是一回事  當然這些事我都知道

但又是一陣腦力風暴  有一種逃避的心態

其實老師指導地確沒錯  我並不是奴隸的心態覺得教授都對

在這一年半的時間從不懂到略懂再到水深  過程之中地確有所體悟

再老師指導的當下我只能聽懂他要我改甚麼  卻不知道我的論缺陷再那?

最近這幾天看了一些文獻  再隔兩個禮拜再看我的論文  地確是有種寫期中報告的感覺

是需要再加強再補充....


2020年7月23日 星期四

使用R進行探索式資料分析之初探(3)_資料視覺化的探索

曾經有一位專家說過  與其他任何設備相比簡單的圖形為資料分析師帶來了更多的資訊

不好意思!是誰說還真的忘記  首先開啟並按裝該有的套件  開啟Rstudio




當然您也可以輸入指令進行安裝 

安裝完成後載入套件




資料欄位的說明可輸入?mpg  出現下圖

對於資料科學而言欄位是很重要的資訊  對於我們了解該資料集是第一步重要資訊

在學習的過程中發現有很多不同的名詞  對於資料科學的人變量或變數  對於統計的人

會說變項  對於學MIS會說欄位  其實都是說同一件事就是欄位  當初被這些名詞

搞得霧煞煞.......


完成上述  讓我們來發覺引擎的大小在高速公路上是否耗油  一般人直覺會說會!

但這是個人的感覺  我們用資料科學的圖形來說話

輸入˙ggplot(data=mpg)+
                     geom_point(mapping = aes(x=displ,hwy)))  

出現下圖


從上圖可以看到答案是引擎的大小在高速公路行駛的確是耗油 displ為引擎cc數  hwy為高速公路

每加淪行駛的英哩數  從散點圖可以看到引擎數愈大行駛的英里數愈少  其中引擎6000cc每加侖

只能跑15英里  而引擎2000cc每加侖可跑到32英里  兩者之間相差17英里。

我們再提出第二個假設  汽車的汽缸數多寡在高速公路行駛上是否會影響油耗

輸入:ggplot(data=mpg)+
                 geom_point(mapping = aes(x=cyl,y=hwy))

出現下圖

從上圖中我們可發現mpg資料集的汽缸數四種類型,分別有4汽缸、5汽缸、6汽缸、8汽缸

從4汽缸來看每加侖最低可跑到20英里  而8汽缸每加侖最低只能跑到3英里  從圖形來看

汽缸數多寡會影響油耗的表現

當然我們可提出更多的假設來進行探索  而上述我們只是單純用散點圖集黑色圓點作呈現

若我們將顏色對應到資料集中其他變項中  是否會有更多的發現

因此我們以第一個範例引擎大小行駛高速公路上是否會耗油例子  將車子的類型對應到顏色

輸入ggplot(data=mpg)+
            geom_point(mapping = aes(x=displ,y=hwy,color=class))


我們可以看到車子類型的變項名稱為class包括雙人車、皮卡、suv等等

藉由顏色對應更進一步了解車的類型、引擎大小、高速公路行駛的油耗

當然也可做進一步的變化使用size來對應,會以實心圓圈表示  圓圈愈大表示資料愈大

輸入ggplot(data=mpg)+
                 geom_point(mapping = aes(x=displ,y=hwy,size=class))





從上圖可以了解美國車子哪類型車子使用較多  以SUV及皮卡車子的種類較多人使用

在執行中會出現一句警告size不建議使用離散變量

上述我們以三個變量進行對資料的探索  那我們可已使用五個變量進行探索嗎?

答案是可以!在ggplot稱為構面  facet_wrap

輸入ggplot(data = mpg)+
               geom_point(mapping = aes(x=displ,y=hwy,color=class))+
               facet_wrap(drv~cyl)


上圖中可以發現我們使用了五個變量對車子的引擎大小(displ)、高速公路油耗(hwy)、類型

(class)、汽缸數(cyl)、車子的驅動方式(drv)來探索  更清楚每種油耗的表現

在構面facet_warp參數中有看到~(蟲字號),當初我以為他是從drv變量到cyl間的所有變數

進行計算,結果查了許多資料才發現  ~  是分為兩個變數的意思  那為什麼不使用逗號區隔

關於這各問題就要問套件開發者,為甚麼提到這個問題因為這個蟲字號困擾我很久。

當然我也可以變化一下

輸入:ggplot(data = mpg)+
                    geom_point(mapping = aes(x=displ,y=hwy))+
                    facet_wrap(~class,nrow = 2)


在上面程式碼中發現~class代表的意思為前面沒有變量,目前只有一個變量,那可不可以寫成

class~可以試一下,規定蟲字號在前變量在後(對於一個變量而言);nrow=2為使用2行作呈現

對於facet_warp構面而言可以加入資料集所有的變量,對於mpg在facet_warp我加入四個變量

大家可以試一下。

最後,上述是R圖形繪製語法很簡單,在未來繪製R困難的圖形,都是由上述語法

作為基礎延伸而來,若上述未能了解後面對R圖形繪製會感到很挫折,這是我小小心得

可能有些大神並不怎麼認為,後面在分享更進一步ggplot的曲線圖形,對於資料探索更視覺化。

無現金支付的反思!

  **購物經歷** - 作者花費大量時間尋找立燈,最終在IKEA購買了一個649元的立燈 - 在IKEA附近停車場遇到只接受無現金支付的情況,被迫註冊並使用Line Pay **無現金支付的觀察** - 作者認為Line Pay作為前端介面,有助於提高停車場付費效率 - 作者預...