2021年2月12日 星期五

R_線性回歸和多元回歸

線性回歸簡介

線性回歸是在統計領域開發的一種簡單算法。顧名思義,線性回歸假設輸入變量和單個輸出變量之間存在線性關係。不用說,輸出變量(您要預測的)必須是連續的。可以將輸出變量計算為輸入變量的線性組合。

線性回歸有兩個類型包含簡單線性回歸僅一個輸入變量;第二個為多元線性回歸可多個輸入便量。

您可以使用線性回歸模型通過檢查係數來了解哪些特徵很重要 。如果係數接近零,則認為相應特徵的重要性不如係數為大的正值或負值。

一般來說線性回歸模型都有假設,包含以下

  1. 線性假設 -模型假設變量之間的關係是線性的
  2. 無噪音 -模型假設輸入和輸出變量沒有噪音-因此請盡可能消除異常值
  3. 沒有共線性 -輸入變量高度相關時,模型將過擬合
  4. 正態分佈 —如果您的輸入和輸出變量呈正態分佈,則模型將做出更可靠的預測。如果不是這種情況,請嘗試對變量使用一些轉換,使它們看起來更普通
  5. 重新 縮放的輸入-使用縮放器或歸一化器做出更可靠的預測
從零開始的簡單線性回歸

如果只有一個輸入變量,則需要處理簡單的線性回歸。在大多數情況下不會是這種情況,但知道就不會感到受傷。一個簡單的線性回歸可以表示為:

如您所見,您需要預先計算兩個術語-Beta。首先,您將了解如何計算Beta1,因為Beta0取決於它。公式如下:


這是Beta0的公式:


library(ggplot2)

# Generate synthetic data with a clear linear relationship
x <- seq(from = 1, to = 300)
y <- rnorm(n = 300, mean = x + 2, sd = 25)

# Convert to dataframe
simple_lr_data <- data.frame(x, y)

# Visualize as scatter plot
ggplot(data = simple_lr_data, aes(x = x, y = y)) +
  geom_point(size = 3, color = "#0099f9") +
  theme_classic() +
  labs(
    title = "Dataset for simple linear regression",
    subtitle = "A clear linear relationship is visible"
  )

上述程式碼我們使用seq函式產生1到300序列數存放於X;Y使用了常態分佈n帶屌有300各,mean平均值為x的序列值+2,sd為標準差為25。
接下來轉換資料框架並用ggplot繪製散點圖





沒有留言:

張貼留言

無現金支付的反思!

  **購物經歷** - 作者花費大量時間尋找立燈,最終在IKEA購買了一個649元的立燈 - 在IKEA附近停車場遇到只接受無現金支付的情況,被迫註冊並使用Line Pay **無現金支付的觀察** - 作者認為Line Pay作為前端介面,有助於提高停車場付費效率 - 作者預...