泛化误差上界(二分类)

2023-09-22 14:27:00

对于二分类问题,当假设空间是有限个函数的集合 F = { f 1 , f 2 , . . . , f d } F=\{f_1,f_2,...,f_d\} F={f1,f2,...,fd}时,对 ∀ f ∈ F \forall f \in F fF,至少以概率 1 − δ , 0 < δ < 1 1-\delta,0<\delta<1 1δ,0<δ<1,以下不等式成立
R ( f ) ≤ R ^ ( f ) + ϵ ( d , N , δ ) R(f)\leq \hat{R}(f)+\epsilon(d,N,\delta) R(f)R^(f)+ϵ(d,N,δ)
其中, ϵ ( d , N , δ ) = 1 2 N ( l o g d + l o g 1 δ ) \epsilon(d, N, \delta) = \sqrt{\frac{1}{2N}(logd+log\frac{1}{\delta})} ϵ(d,N,δ)=2N1(logd+logδ1)

这个公式描述了一个关于模型泛化性能的概率界限。让我解释这个公式的每个部分:

  • R ( f ) R(f) R(f):这表示真实风险(真实误差),也就是模型 f f f 在整个数据分布上的性能。真实风险是我们真正关心的,因为它表示了模型在未见数据上的表现。

  • R ^ ( f ) \hat{R}(f) R^(f):这表示经验风险,也称为训练误差。经验风险是模型在训练数据上的性能,即模型在已知数据上的表现。

  • ϵ ( d , N , δ ) \epsilon(d, N, \delta) ϵ(d,N,δ):这是一个上界,表示模型 f f f 的真实风险 R ( f ) R(f) R(f) 和经验风险 R ^ ( f ) \hat{R}(f) R^(f) 之间的差异上界。具体地,它被定义为:

    ϵ ( d , N , δ ) = 1 2 N ( ln ⁡ ( d ) + ln ⁡ ( 1 / δ ) ) \epsilon(d, N, \delta) = \sqrt{\frac{1}{2N}(\ln(d) + \ln(1/\delta))} ϵ(d,N,δ)=2N1(ln(d)+ln(1/δ))

    其中:

    • d d d 是假设空间中的函数数量。假设空间是模型可以选择的不同函数的集合, d d d 表示这个集合中的函数数量。
    • N N N 是训练数据的样本数量。 N N N 表示我们拥有的用于训练模型的样本数量。
    • δ \delta δ 是置信度,它表示我们希望不等式成立的概率。即,我们希望以概率至少 1 − δ 1 - \delta 1δ,不等式 R ( f ) ≤ R ^ ( f ) + ϵ ( d , N , δ ) R(f) \leq \hat{R}(f) + \epsilon(d, N, \delta) R(f)R^(f)+ϵ(d,N,δ) 成立。

这个不等式告诉我们,以概率至少 1 − δ 1 - \delta 1δ,模型 f f f 的真实风险 R ( f ) R(f) R(f) 不会远远超过经验风险 R ^ ( f ) \hat{R}(f) R^(f) 加上一个与假设空间大小 d d d、样本数量 N N N 和置信度 δ \delta δ 有关的上界 ϵ ( d , N , δ ) \epsilon(d, N, \delta) ϵ(d,N,δ)。也就是说,我们可以使用经验风险来估计真实风险,并且可以在一定的概率下对真实风险进行界定。

这个不等式是机器学习中泛化理论的重要结果之一,它有助于我们理解模型在未见数据上的性能,并提供了一个可靠的误差估计。根据这个不等式,我们可以通过控制样本数量 N N N、假设空间大小 d d d 和置信度 δ \delta δ 来管理模型的性能估计和泛化性能。

更多推荐

Python实现逐步回归

逐步回归(StepwiseRegression)是一种逐步选择变量的回归方法,用于确定最佳的预测模型。它通过逐步添加和删除变量来优化模型的预测能力。本文重点讲解什么是逐步回归,以及用Python如何实现逐步回归。文章目录一、什么是逐步回归?二、实现逐步回归的函数参数详解三、Python实现逐步回归1读取数据2双向筛选逐

如何在SOLIDWORKS PDM中快速导出BOM表

在SOLIDWORKSPDM中,选择装配体后,下方就可以直接看到该装配体的材料明细表,并直接导出CSV文件,在材料明细表里我们可以去定义我们要输出哪些属性信息,但是不能定义BOM表格的表头样式,所以导出材料明细表之后还要再编辑表头信息,才能够做出符合公司规范的BOM表。今天我们介绍一款工具-SOLIDWORKSBOM插

大采购B-PaaS平台,助力企业打造供应链商业网络生态圈

近日,由葡萄城举办的大型线上直播活动“Wyn商业智能V7.0发布会暨嵌入式BI研讨会”重磅召开。北京筑龙大采购标品产研群总经理谢芳受邀参会,并作题为“大采购B-PaaS平台之采购指标体系构建”的主题分享,为线上伙伴分享北京筑龙在打造B-PaaS平台的过程当中,如何借助Wyn产品来构建采购指标体系,提升大采购产品的数字化

Vue3:组件的生命周期函数

这一篇博客是结合官网完档和书籍后整理的,会很简单,可能对很对朋友都没有任何的帮助,这只是我对自己的学习vue这个技术栈的笔记。onMounted注册一个会调用函数,在组件挂载完成后执行。那么vue组件在什么情况下,算是已经挂载了呢?所有同步的子组件都已经被挂载;自身的DOM树已经创建完成并且插入父容器中。这个时候,组件

Python 数据可视化:Seaborn 库的使用

✅作者简介:人工智能专业本科在读,喜欢计算机与编程,写博客记录自己的学习历程。🍎个人主页:小嗷犬的个人主页🍊个人网站:小嗷犬的技术小站🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。本文目录Seaborn简介Seaborn安装Seaborn使用Seaborn样例数据集Seaborn样式设置Seab

遥感数据与作物模型同化技术应用

基于过程的作物生长模拟模型DSSAT是现代农业系统研究的有力工具,可以定量描述作物生长发育和产量形成过程及其与气候因子、土壤环境、品种类型和技术措施之间的关系,为不同条件下作物生长发育及产量预测、栽培管理、环境评价以及未来气候变化评估等提供了定量化工具。但是,当作物生长模型从单点研究发展到区域尺度应用时,由于空间尺度增

C++核心编程——P36-友元

友元客厅就是Public,你的卧室就是Private客厅所有人都可以进去,但是你的卧室只有和你亲密的人可以进。在程序中,有些私有属性也想让类外特殊的一些函数或者类进行访问,就需要用到友元技术。友元的目的就是让一个函数或者类访问另一个类中的私有元素。友元的关键字——friend友元的三种实现全局函数做友元类做友元成员函数

进入docker容器内部使用命令行工具

进入Docker容器内部后,你可以使用以下命令行工具和方式来进行交互和操作容器内部的环境:bash/shell:大多数基于Linux的Docker容器提供了bash或shell作为默认的命令行工具。可以使用以下命令进入容器的shell环境:dockerexec-it<container_name_or_id>bash或

Mybatis&MybatisPlus 操作 jsonb 格式数据

最近有用到postgresql,里面的一个特色数据类型便是jsonb,和json差不多,但是查询比较快,关于概念,这里就提一句,不赘述。我们先来看下用mybatisplus,首先是查询数据。依赖:<dependency><groupId>com.baomidou</groupId><artifactId>mybatis

java版Spring Cloud+Mybatis+Oauth2+分布式+微服务+实现工程管理系统

鸿鹄工程项目管理系统SpringCloud+SpringBoot+Mybatis+Vue+ElementUI+前后端分离构建工程项目管理系统1.项目背景一、随着公司的快速发展,企业人员和经营规模不断壮大。为了提高工程管理效率、减轻劳动强度、提高信息处理速度和准确性,公司对内部工程管理的提升提出了更高的要求。二、企业通过

Spring Boot + Vue3前后端分离实战wiki知识库系统<十三>--单点登录开发二

接着https://www.cnblogs.com/webor2006/p/17608839.html继续往下。登录功能开发:接下来则来开发用户的登录功能,先准备后端的接口。后端增加登录接口:1、UserLoginReq:先来准备用户登录的请求实体:packagecom.cexo.wiki.req;importjava

热文推荐