LIFE: R_線性回歸和多元回歸

2021年2月12日星期五

線性回歸簡介

線性回歸是在統計領域開發的一種簡單算法。顧名思義，線性回歸假設輸入變量和單個輸出變量之間存在線性關係。不用說，輸出變量（您要預測的）必須是連續的。可以將輸出變量計算為輸入變量的線性組合。

線性回歸有兩個類型包含簡單線性回歸僅一個輸入變量；第二個為多元線性回歸可多個輸入便量。

您可以使用線性回歸模型通過檢查係數來了解哪些特徵很重要。如果係數接近零，則認為相應特徵的重要性不如係數為大的正值或負值。

一般來說線性回歸模型都有假設，包含以下

從零開始的簡單線性回歸

如果只有一個輸入變量，則需要處理簡單的線性回歸。在大多數情況下不會是這種情況，但知道就不會感到受傷。一個簡單的線性回歸可以表示為：

如您所見，您需要預先計算兩個術語-Beta。首先，您將了解如何計算Beta1，因為Beta0取決於它。公式如下：

這是Beta0的公式：

library(ggplot2)

# Generate synthetic data with a clear linear relationship

x <- seq(from = 1, to = 300)

y <- rnorm(n = 300, mean = x + 2, sd = 25)

# Convert to dataframe

simple_lr_data <- data.frame(x, y)

# Visualize as scatter plot

ggplot(data = simple_lr_data, aes(x = x, y = y)) +

geom_point(size = 3, color = "#0099f9") +

theme_classic() +

labs(

title = "Dataset for simple linear regression",

subtitle = "A clear linear relationship is visible"

)

上述程式碼我們使用seq函式產生1到300序列數存放於X；Y使用了常態分佈n帶屌有300各，mean平均值為x的序列值+2，sd為標準差為25。

接下來轉換資料框架並用ggplot繪製散點圖

LIFE