机器学习实战:Python基于LR线性回归进行预测(十)

2023-07-04 14:38:10

1 前言

注意这里的LR指的是Linear Regression,线性回归。而非逻辑回归Logistic Regression,虽然二者简称都是LR,但是后者我们还是俗称Logistic多点

1.1 LR的介绍

线性回归(Linear Regression)是一种用于建立自变量与连续因变量之间线性关系模型的统计学和机器学习方法。它是最简单、最常见的回归分析方法之一。

线性回归的目标是通过拟合最优的直线(一元线性回归)或超平面(多元线性回归)来描述自变量与因变量之间的关系。它假设自变量和因变量之间存在线性关系,即因变量可以被自变量的线性组合所解释。

一元线性回归模型的数学表达式为:Y = β0 + β1*X + ε,其中Y是因变量,X是自变量,β0和β1是回归系数,ε是误差项。这个模型描述了因变量Y与自变量X之间的直线关系,β0是截距,β1是斜率。

多元线性回归模型扩展了一元线性回归,可以处理多个自变量。数学表达式为:Y = β0 + β1X1 + β2X2 + ... + βn*Xn + ε,其中Y是因变量,X1, X2, ..., Xn是多个自变量,β0, β1, β2, …, βn是回归系数,ε是误差项。

优点:

  • 简单和解释性: 线性回归是一种简单直观的方法,易于理解和解释。它建立了自变量与因变量之间的线性关系,通过回归系数可以解释自变量对因变量的影响程度和方向。

  • 计算效率高: 线性回归的计算效率通常很高,特别是在具有大量样本和低维特征空间的情况下。拟合线性回归模型的计算复杂度较低,可以处理大规模数据集。

  • 可解释性强: 线性回归可以提供变量之间的关系和影响程度的定量信息。回归系数可以量化自变量对因变量的贡献,帮助了解变量之间的关联关系。

  • 预测准确度高: 在数据符合线性关系的情况下,线性回归可以提供较高的预测准确度。当自变量与因变量之间存在线性关系时,线性回归可以得到较好的拟合效果。

缺点:

  • 线性假设限制: 线性回归假设自变量和因变量之间存在线性关系,这在实际问题中并不总是成立。如果数据的真实关系是非线性的,线性回归模型可能无法捕捉到复杂的模式和关联。

  • 对异常值敏感: 线性回归对异常值(在因变量或自变量中的极端值)比较敏感。异常值可能对模型的拟合产生显著影响,导致模型的不准确性。

  • 无法处理高维特征: 线性回归在处理高维特征空间的问题时面临挑战。当自变量的数量远大于样本数量时,线性回归可能会遇到过拟合问题。

  • 缺乏灵活性: 线性回归的灵活性较低,无法捕捉复杂的非线性关系。对于非线性问题,需要采用其他更复杂的模型来提高拟合能力。

1.2 LR的应用

这是最基础的机器学习算法,应用领域也十分广泛:

  1. 经济学和金融学:线性回归可以用于预测经济指标(如GDP、通货膨胀率等)与自变量(如消费、投资、出口等)之间的关系,进行经济预测和政策分析。在金融领域,线性回归可用于预测股票价格、利率等金融指标。

  2. 市场营销:线性回归可以用于市场营销研究,例如预测销售量与广告投入、价格等因素之间的关系,进行市场需求分析和营销策略制定。

  3. 医学和健康科学:线性回归可用于分析医学和健康领域的数据,例如预测疾病发展与风险因素之间的关系,评估治疗方法的效果,分析生物医学数据等。

  4. 社会科学:线性回归可用于社会科学领域的研究,如教育研究中预测学生成绩与学习时间、家庭背景等因素之间的关系,社会经济学中分析收入与教育水平、职业等的相关性。

  5. 环境科学:线性回归可用于分析环境数据,如预测气温与温室气体排放、大气污染物之间的关系,评估环境因素对生态系统的影响。

  6. 工程和物理科学:线性回归可用于建立物理模型和工程设计中的预测。例如,预测材料强度与温度、压力等因素之间的关系,分析电子元件的性能与设计参数的关联。

2. weather数据集实战演示

2.1 导入函数

import pandas as pd  
import numpy as np  
import matplotlib.pyplot as plt  
import seaborn as seabornInstance 
from sklearn.model_selection import train_test_split 
from sklearn.linear_model import LinearRegression
from sklearn import metrics
%matplotlib inline

2.2 导入数据

weather数据集包括降水,降雪,温度,风速以及当天是否包括雷暴或其他恶劣天气条件。任务是预测以输入特征为最低温度的最高温度。
下载地址:https://github.com/Vaibhav-Mehta-19/linear-regression-weather-dataset

dataset = pd.read_csv('weather.csv')
print(dataset.shape)
dataset.describe()

2.3 数据整体可视化

# 最高温和最低温的二维散点图
dataset.plot(x='MinTemp', y='MaxTemp', style='o')  
plt.title('MinTemp vs MaxTemp')  
plt.xlabel('MinTemp')  
plt.ylabel('MaxTemp')  
plt.show()

# 检查平均最高温
plt.figure(figsize=(15,10))
plt.tight_layout()
seabornInstance.distplot(dataset['MaxTemp'])


根据结果看大概在15~20。

2.4 训练模型

X = dataset['MinTemp'].values.reshape(-1,1)
y = dataset['MaxTemp'].values.reshape(-1,1)
# 老惯例,训练集/测试集按7/3分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)
regressor = LinearRegression()  
regressor.fit(X_train, y_train) 

计算截距和斜率:

print(regressor.intercept_)
print(regressor.coef_)


意味着最小温度每变化一个单位,最高温度的变化约为0.82

2.5 预测模型

y_pred = regressor.predict(X_test)
df = pd.DataFrame({'Actual': y_test.flatten(), 'Predicted': y_pred.flatten()})
df

# 柱状图可视化结果
df1 = df.head(25)
df1.plot(kind='bar',figsize=(16,10))
plt.grid(which='major', linestyle='-', linewidth='0.5', color='green')
plt.grid(which='minor', linestyle=':', linewidth='0.5', color='black')
plt.show()


这里展示了25组数据,模型准确性有点不高,但是预测的百分比还是相对接近实际百分比

# 绘制组间比较线
plt.scatter(X_test, y_test,  color='gray')
plt.plot(X_test, y_pred, color='red', linewidth=2)
plt.show()

2.6 评估模型

  • 平均绝对误差(MAE),误差绝对值的平均值:

MAE = (1/n) * Σ|i - yi|

  • 均方误差(MSE),平方误差的平均值:

MSE = (1/n) * Σ(i - yi)^2

  • 均方根误差(RMSE),平方误差均值的平方根:

RMSE = √(MSE)

评估模型主要是以上三个指标,用Scikit-Learn库预构建的函数计算即可

print('Mean Absolute Error:', metrics.mean_absolute_error(y_test, y_pred))  
print('Mean Squared Error:', metrics.mean_squared_error(y_test, y_pred))  
print('Root Mean Squared Error:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))


三个指标都是越小越好,虽然有点差强人意,不过均方根误差为4.42,平均绝对误差为3.76,可以认为该模型的预测误差相对较小

3.讨论

我认为线性回归是机器学习中最基础和常见的模型之一。线性回归模型通过建立特征与目标变量之间的线性关系来进行预测。它具有一些优点,如模型的简单性和可解释性,使其在许多应用领域得到广泛应用。

然而,线性回归模型也有一些限制。它假设特征与目标之间的关系是线性的,并且对异常值敏感,像2.3的散点图中可以看出数据的发散性较强。此外,它不能捕捉到非线性关系和特征之间的复杂交互作用。对于这些情况,可能需要考虑更复杂的模型或对特征进行转换。

更多推荐

拓世科技集团到访考察吉安青原区:共谋AIGC数字经济产业园发展大计

千帆竞发立潮头,奋勇争先谋发展,在中国这片广袤的大地上,先行者的每一次拓进都是历史的华章,远谋者的每一次交汇都是未来的预言。当红色江西大地与现代科技脉搏共振,当青原区的绿意拥抱拓世科技的AIGC科技,一场关于科技与地区发展的交响曲就此奏响。在这个充满变革与机遇的时代,拓世科技集团与吉安青原区政府携手共谋AIGC产业布局

计算机毕业设计 高校普法系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌🍅文末获取源码联系🍅👇🏻精彩专栏推荐订阅👇🏻不然下次找不到哟————————————————计算机毕业设计题目《10

深眸科技自研工业AI视觉检测设备,检测精度99.9%加速智造进程

随着机器视觉技术的持续升级,国内制造行业不断发展,工艺水平持续优化,产品的数量和种类与日俱增。当前社会将产品质量标准提高,在满足正常的性能使用外,还需要具有良好的表面外观质量。但在工业制造过程中,受到产品工艺、生产设备、现场环境等因素的影响,制造产品表面往往存在各种各样的缺陷,包括裂纹、堵孔、凹凸、破损等。这些表面缺陷

爬虫异常处理实战:应对请求频率限制和数据格式异常

作为一名资深的爬虫程序员,今天我要和大家分享一些实战经验,教你如何处理爬虫中的异常情况,包括请求频率限制和数据格式异常。如果你是一个正在进行网络爬虫开发的开发者,或者对异常处理感兴趣,那么这篇文章将帮助你更好地完成爬虫任务。第一部分:请求频率限制的处理当我们进行网络爬虫时,有些网站会设置请求频率限制,以防止过多的请求对

【2023 睿思芯科 笔试题】~ 题目及参考答案

文章目录1.题目&答案单选题编程题问题1:解析1:问题2:解析2:声明名称如标题所示,希望大家正确食用(点赞+转发+评论)本次笔试题以两种形式考察的,分别是:选择题(包括单选和多选)和编程题。这里强调的是笔试全英文!!!其实不光这一家公司,很多都是这样的,所以,英语还是那么的重要!一共5个选择+2个编程题。PS:大家在

跨境电商如何更好地备战销售旺季?

跨境电商秋促来临!不知道各位卖家是否做好准备了呢?据外媒报道,TikTokShop于近日开启了年度最大规模的黑五大促,而为了抢占旺季流量,继周二亚马逊宣布将于10月10日至11日举办第二届“PrimeBigDealDays”大促后,周三沃尔玛、Target和BestBuy也都宣布将推出自己的大促,提前开启假日促销。这几

Docker进阶:mysql 主从复制、redis集群3主3从【扩缩容案例】

Docker进阶:mysql主从复制、redis集群3主3从【扩缩容案例】一、Docker常规软件安装1.1docker安装tomcat(默认最新版)1.2docker指定安装tomcat8.01.3docker安装mysql5.7(数据卷配置)1.4演示--删除mysql容器,里面的数据是否能正常恢复1.5docke

HTML的学习 Day01

《网页设计与制作》是web前端开发技术中静态网页中的内容,主要包括html、css、js中的静态内容部分,是专业基础课程。随着5G时代的到来,人工智能与物联网结合行业的飞速发展,更多的互联网的崛起。这肯定就比如伴随着对移动互联网领域新的开发场景的需求,需要大量的前端和移动前端开发来呈现。【技术越来越成熟就越要想每一个给

认识面向对象-PHP8知识详解

面向对象编程,也叫面向对象程序设计,是在面向过程程序设计的基础上发展而来的,它比面向过程编程具有更强的灵活性和扩展性。它用类、对象、关系、属性等一系列东西来提高编程的效率,其主要的特性是可封装性、可继承性和多态性。面向对象编程的主要好处就是吧编程的重心从处理过程转移到对现实世界实体的表达。这十分符合人们的正常思维方法。

鞋服零售企业如何进行数字化运营

企业进行信息化和数字化都是在解决同一个问题,降本增效,用信息产生数据,用数据解读业务。在信息化行业操盘十多年,在我的大脑中始终有一个伟大的蓝图,那就是“作战室”,特别是在鞋服零售各种解决方案非常成熟,对作战室的建设几率又大大增加。作战室不仅是数据的可视,更重要的是能指挥作战,如线上线下同步,而线下店铺可视,在通过一个销

百货店失去核心竞争力了吗?全靠超市即时零售撑起

近年来,传统百货不景气,不过,从今年上半年的情况看,似乎有些好转。然而,实际情况并不如预期那么好,有专家认为:“百货上市公司业绩和去年相比增长是正常的。实际上,百货业态增长的可能性几乎为零,如果没有新店开张,没有面积的扩大,单是百货这一块,有增长的可能性不是很大,因为很多上市公司百货店,其实很大一块是有超市带动的,超市

热文推荐