2020年9月7日 星期一

13_電商女鞋消費分析_先來個傳說中的資料清理吧!

 資料集來自Kaggle網站,該網站主要由企業或研究者將資料集PO到該平台,資料由資料科學的愛好者進行建模、分析、預測並將結果進行競賽並獲得獎金,在2017年被谷哥大神買下,所以資料集都是合法並真實。

本次的資料集是店商網站女鞋的相關資訊,先用Execl開啟來看一下

看到都暈了!還是先關起開R比較實在,並將資料集導入至R,並觀看資料結構

library(ggplot2)

library(dplyr)

shoes <- read.csv("D:/工作區/我的筆記/程式筆記/R/Ironman Challenge/shoes/7210_1.csv",

                  stringsAsFactors=FALSE,

                  sep=",",encoding="UTF-8",na.strings=NA,fill=TRUE)

str(shoes)

可以看到該資料集有33,799筆資料52個變數,以及變數的資料型態,看一下資料表

View(shoes)

看起來舒服多了!順便研究哪一些變數可以刪除,而本次的刪除原則如下

1.與本分析毫無相關欄位如條碼、產品影像路徑、功能目錄等等。

2.需要其他資料集關聯才能分析的欄位刪除。

3.變數內幾乎都是空值沒有分析的意義

shoes <- shoes[,-c(2,6,9:16,18:20,23:24,26,28:30,32:35,37:41,43:50)]

此時觀看資料表,發現後面有x2和x3變數,判斷應該將資料匯R中自動產生,當然也是刪除

shoes <- shoes[,-c(15:16)]

str(shoes)

View(shoes)

所以目前有14個變數,刪除變數在資料探勘中稱之為降維,若你的維度太大會造成計算的成本增加及影響模型的準確度,當然如何刪除變數是依據你的分析需求而定,而目前的預測模型的語言都會建議你選擇變數的套件,這是題外話了!所以我們將這14個變數整理如下表

將變數整理完成後,我個人覺得還可以在刪但就先這樣吧並不會影響分析;在上面以大手術一刀切掉36個變數。

下一篇看列也就是筆數裡面是否有不合理之處!今天線到這邊

沒有留言:

張貼留言

無現金支付的反思!

  **購物經歷** - 作者花費大量時間尋找立燈,最終在IKEA購買了一個649元的立燈 - 在IKEA附近停車場遇到只接受無現金支付的情況,被迫註冊並使用Line Pay **無現金支付的觀察** - 作者認為Line Pay作為前端介面,有助於提高停車場付費效率 - 作者預...