【线性回归、岭回归、Lasso回归分别预测患者糖尿病病情】数据挖掘实验一

2023-09-18 00:56:06

Ⅰ、项目任务要求

  • 任务描述:将“diabetes”糖尿病患者数据集划分为训练集和测试集,利用训练集分别结合线性回归、岭回归、Lasso回归建立预测模型,再利用测试集来预测糖尿病患者病情并验证预测模型的拟合能力。
  • 具体任务要求如下:
    • 搜集并加载“diabetes”患者糖尿病指数数据集。
    • 定义训练集和测试集(训练集和测试集比例分别为8:2;7:3;6:4)。
    • 建立线性回归模型。
    • 分别利用可视化方法和交叉验证法确定惩罚参数λ并建立岭回归模型。
    • 分别利用可视化方法和交叉验证法确定惩罚参数λ并建立Lasso回归模型。
    • 分别用岭回归模型和Lasso回归模型通过测试集预测患者糖尿病病情。
    • 利用最小平均均方误差来评估上述三个预测模型的拟合能力。
    • 结果分析(上述三种预测模型的对比分析),建议图表结合说明并写出预测模型方程。

参考资料网址:

II、数据集描述(10)

。。。。。。(详细描述数据集:如特征属性名称及意义、记录数等)

III、主要算法原理及模型评价方法陈述(15分)

。。。。。。(写出项目中涉及的主要算法原理及模型评价方法)

IV、代码实现(45分)

import matplotlib.pyplot as plt
import numpy as np
from sklearn import datasets, linear_model, model_selection


# from sklearn import datasets, linear_model, discriminant_analysis, model_selection

# todo: 查看数据(训练集:X_train, y_train; 测试集X_test, y_test)
def check_data():
    with open("data/X_train.txt", "w") as file:
        for i in range(len(X_train)):
            file.write(f"【样本{i+1}】:{X_train[i]}\n")
    with open("data/y_train.txt", "w") as file:
        for i in range(len(y_train)):
            file.write(f"【样本{i+1}】:{y_train[i]}\n")
    with open("data/X_test.txt", "w") as file:
        for i in range(len(X_test)):
            file.write(f"【样本{i+1}】:{X_test[i]}\n")
    with open("data/y_test.txt", "w") as file:
        for i in range(len(y_test)):
            file.write(f"【样本{i+1}】:{y_test[i]}\n")

# todo: 可视化展示
def show_plot(alphas, scores):
    figure = plt.figure()
    ax = figure.add_subplot(1, 1, 1)
    ax.plot(alphas, scores)
    ax.set_xlabel(r"$\alpha$")
    ax.set_ylabel(r"score")
    ax.set_xscale("log")
    ax.set_title("Ridge")
    plt.show()


# Todo: 加载数据
# 加载糖尿病数据集
diabetes = datasets.load_diabetes()
# 使用 model_selection.train_test_split() 将数据集分成训练集和测试集,其中训练集占 75%,测试集占 25%(最佳)
# random_state 参数设置了随机种子,以确保结果的可重复性
X_train, X_test, y_train, y_test = model_selection.train_test_split(diabetes.data, diabetes.target, test_size=0.25, random_state=0)
# 查看划分数据(保存至data/*)
check_data()


# Todo: 建立线性回归模型
print('========== ※ 线性回归模型 ※ ==========')
# 通过sklearn的 linear_model 创建线性回归对象
linearRegression = linear_model.LinearRegression()
# 进行训练
linearRegression.fit(X_train, y_train)
# 通过LinearRegression的coef_属性获得权重向量,intercept_获得b的值
print("权重向量:%s, b的值为:%.2f" % (linearRegression.coef_, linearRegression.intercept_))
# 计算出损失函数的值
print("损失函数的值: %.2f" % np.mean((linearRegression.predict(X_test) - y_test) ** 2))
# 计算预测性能得分
print("预测性能得分: %.2f" % linearRegression.score(X_test, y_test))


# Todo: 分别利用可视化方法和交叉验证法确定惩罚参数λ并建立岭回归模型
print('========== ※ 岭回归模型 ※ ==========')
ridgeRegression = linear_model.Ridge()
ridgeRegression.fit(X_train, y_train)
print("权重向量:%s, b的值为:%.2f" % (ridgeRegression.coef_, ridgeRegression.intercept_))
print("损失函数的值:%.2f" % np.mean((ridgeRegression.predict(X_test) - y_test) ** 2))
print("预测性能得分: %.2f" % ridgeRegression.score(X_test, y_test))

# todo: 测试不同的α值对预测性能的影响
alphas = [0.01, 0.02, 0.05, 0.1, 0.2, 0.5, 1, 2, 5, 10, 20, 50, 100, 200, 500, 1000]
scores = []
for i, alpha in enumerate(alphas):
    ridgeRegression = linear_model.Ridge(alpha=alpha)
    ridgeRegression.fit(X_train, y_train)
    scores.append(ridgeRegression.score(X_test, y_test))
show_plot(alphas, scores)


# Todo: 分别利用可视化方法和交叉验证法确定惩罚参数λ并建立Lasso回归模型
print('========== ※ Lasso归模型 ※ ==========')
lassoRegression = linear_model.Lasso()
lassoRegression.fit(X_train, y_train)
print("权重向量:%s, b的值为:%.2f" % (lassoRegression.coef_, lassoRegression.intercept_))
print("损失函数的值:%.2f" % np.mean((lassoRegression.predict(X_test) - y_test) ** 2))
print("预测性能得分: %.2f" % lassoRegression.score(X_test, y_test))

# todo: 测试不同的α值对预测性能的影响
alphas = [0.01, 0.02, 0.05, 0.1, 0.2, 0.5, 1, 2, 5, 10, 20, 50, 100, 200, 500, 1000]
lassos_scores = []
for i, alpha in enumerate(alphas):
    lassoRegression = linear_model.Lasso(alpha=alpha)
    lassoRegression.fit(X_train, y_train)
    lassos_scores.append(lassoRegression.score(X_test, y_test))
show_plot(alphas, lassos_scores)

V、运行结果截图(15分)

在这里插入图片描述

  • 岭回归
    在这里插入图片描述
  • Lasso回归
    在这里插入图片描述

VI、结果分析(15分)

。。。。。。(详细分析结果)

VII、小组分工及贡献比

更多推荐

【AGC】认证服务开发问题汇总

1.开发者在服务端集成认证服务SDK,想通过验证用户凭据接口来验证从客户端获取的token,在调用过程中响应数据报code203818355的错误解决方案:该错误显示accessToken格式不正确。首先确认Authorization中的accesstoken是通过管理员角色,项目为N/A的ClientID和Clien

【mysql】—— 函数的基本介绍

前言:MySQL是一种常用的关系型数据库管理系统,它提供了许多内置的函数来进行数据操作和处理。本期,我将给大家介绍的就是关于“函数”的相关知识!!!目录(一)日期函数(二)字符串函数(三)数学函数(四)其它函数总结(一)日期函数MySQL提供了一系列用于处理日期和时间的内置函数,可以对日期值进行提取、格式化、计算和比较

企业蓄电池怎么实时监测?这个方法最简单使用!

在这个数字时代,企业对电力的依赖性愈发显著,这使得电池系统成为维持业务连续性的不可或缺的一环。蓄电池监控不仅有助于实时跟踪电池系统的性能和状态,还有助于预测问题,提前采取措施以防止电力中断。它还可以帮助企业降低能源成本,延长电池寿命,提高能源效率,以及满足可持续性和环保目标。客户案例常州某制药公司生产设施在各地内分布,

C++回顾录03-C++类和对象

类是创建对象的模板,一个类可以创建多个对象,每个对象都是类类型的一个变量;创建对象的过程也叫类的实例化。每个对象都是类的一个具体实例(Instance),拥有类的成员变量和成员函数。类是用户自定义的类型,如果程序中要用到类,必须提前说明,或者使用已存在的类(别人写好的类、标准库中的类等),C++语法本身并不提供现成的类

京东医疗器械分类汇总

京东医疗器械分类汇总,发布医药商品的时候需要选择的分类,有需要的吗整理为HTML代码<selectname="type"><optionvalue=""></option><optionvalue="Ⅱ类6866">Ⅱ类6866</option><optionvalue="Ⅱ类6822">Ⅱ类6822</option>

Hadoop设置固定ip无效的解决办法

今天配置Hadoop的时候,执行vi/etc/sysconfig/network-scripts/ifcfg-ens33修改网络配置文件后,一切正常,但重启后IP改变了,并且在修改以及重启网络连接数次后,IP依旧不按照我在ifcfg-ens33中配置的那样,检查了各处地方,仍然不行,在数小时的查错改错过程中发现了问题所

提升利润的秘密武器:超好用的跨境电商系统源码推荐

在竞争激烈的电商市场中,提高利润是每个卖家的追求。而跨境电商系统源码成为了许多成功卖家的秘密武器。本文将揭示为什么选择跨境电商系统源码,以及它在利润提升方面的重要作用。超好用的跨境电商系统源码推荐如果你正在寻找一款功能强大、易于使用和定制的跨境电商系统,那么你来对地方了。在本节中,我们将推荐一款超好用的跨境电商系统源码

60从零开始学Java之与数字相关的类有哪些?

作者:孙玉昌,昵称【一一哥】,另外【壹壹哥】也是我哦千锋教育高级教研员、CSDN博客专家、万粉博主、阿里云专家博主、掘金优质作者前言我们在解决实际问题时,会经常对数字、日期和系统设置进行处理,比如在我们的代码中,经常会遇到一些数字&数学问题、随机数问题、日期问题和系统设置问题等。为了解决这些问题,Java给我们提供了多

【无标题】

昨天(2023年9月20日),汉字小达人的主办方在官方发布了《“中文自修杯”第十届上海市小学生“美丽汉字小达人”区级活动“自由报名”区级初选规则》的通知,区级比赛自由报名的参赛从9月25日到9月30日,共持续六天。现将该规则的核心内容划重点如下:无需提前报名,在比赛期间直接用学生正确的学校、姓名、学号等信息,通过微信公

【Redis GEO】3、地理位置类型的性能优化及使用限制

在使用Redis的地理位置类型时,为了提高查询性能和降低资源消耗,需要进行一些优化和性能考虑1、使用合适的半径在执行GEOADD和GEORADIUS命令时,需要根据实际情况选择合适的半径。如果半径过大,可能会导致查询时间过长和资源消耗增加;如果半径过小,可能会导致查询结果不完整。因此,需要根据实际需求进行合理的配置。2

Excel VLOOKUP 初学者教程:通过示例学习

目录前言一、VLOOKUP的用法二、应用VLOOKUP的步骤三、VLOOKUP用于近似匹配四、在同一个表里放置不同的VLOOKUP函数结论前言Vlookup(V代表“垂直”)是excel中的内置函数,允许在excel的不同列之间建立关系。换句话说,它使您可以从一列数据中查找(查找)一个值,并从另一列中返回其相应或对应的

热文推荐