線性回歸簡介
線性回歸是在統計領域開發的一種簡單算法。顧名思義,線性回歸假設輸入變量和單個輸出變量之間存在線性關係。不用說,輸出變量(您要預測的)必須是連續的。可以將輸出變量計算為輸入變量的線性組合。
線性回歸有兩個類型包含簡單線性回歸僅一個輸入變量;第二個為多元線性回歸可多個輸入便量。
您可以使用線性回歸模型通過檢查係數來了解哪些特徵很重要 。如果係數接近零,則認為相應特徵的重要性不如係數為大的正值或負值。
一般來說線性回歸模型都有假設,包含以下
- 線性假設 -模型假設變量之間的關係是線性的
- 無噪音 -模型假設輸入和輸出變量沒有噪音-因此請盡可能消除異常值
- 沒有共線性 -輸入變量高度相關時,模型將過擬合
- 正態分佈 —如果您的輸入和輸出變量呈正態分佈,則模型將做出更可靠的預測。如果不是這種情況,請嘗試對變量使用一些轉換,使它們看起來更普通
- 重新 縮放的輸入-使用縮放器或歸一化器做出更可靠的預測
從零開始的簡單線性回歸
如果只有一個輸入變量,則需要處理簡單的線性回歸。在大多數情況下不會是這種情況,但知道就不會感到受傷。一個簡單的線性回歸可以表示為:
如您所見,您需要預先計算兩個術語-Beta。首先,您將了解如何計算Beta1,因為Beta0取決於它。公式如下:
這是Beta0的公式:
library(ggplot2)
# Generate synthetic data with a clear linear relationship
x <- seq(from = 1, to = 300)
y <- rnorm(n = 300, mean = x + 2, sd = 25)
# Convert to dataframe
simple_lr_data <- data.frame(x, y)
# Visualize as scatter plot
ggplot(data = simple_lr_data, aes(x = x, y = y)) +
geom_point(size = 3, color = "#0099f9") +
theme_classic() +
labs(
title = "Dataset for simple linear regression",
subtitle = "A clear linear relationship is visible"
)
上述程式碼我們使用seq函式產生1到300序列數存放於X;Y使用了常態分佈n帶屌有300各,mean平均值為x的序列值+2,sd為標準差為25。
接下來轉換資料框架並用ggplot繪製散點圖
沒有留言:
張貼留言