剔除数据中的异常值(python实现)

2023-09-19 23:19:22

目录

 一、3σ原则

二、箱线图发现异常值

三、boxcox数据变换


 一、3σ原则

该准则仅局限于对正态或近似正态分布的样本数据处理,此外,当测量次数少的情形用准则剔除粗大误差是不够可靠的。

异常值是指样本中的个别值,其数值明显偏离其余的观测值。异常值也称离群点,异常值的分析也称为离群点的分析。

在进行机器学习过程中,需要对数据集进行异常值剔除或者修正,以便后续更好地进行信息挖掘。
对于异常值的处理,3σ原则是最常使用的一种处理数据异常值的方法。那么,什么叫3σ原则呢?
3σ原则,又叫拉依达原则,它是指假设一组检测数据中只含有随机误差,需要对其进行计算得到标准偏差,按一定概率确定一个区间,对于超过这个区间的误差,就不属于随机误差而是粗大误差,需要将含有该误差的数据进行剔除。

其局限性:仅局限于对正态或近似正态分布的样本数据处理,它是以测量次数充分大为前提(样本>10),当测量次数少的情形用准则剔除粗大误差是不够可靠的。在测量次数较少的情况下,最好不要选用该准则。

3σ原则:

  • 数值分布在(μ-σ,μ+σ)中的概率为0.6827
  • 数值分布在(μ-2σ,μ+2σ)中的概率为0.9545
  • 数值分布在(μ-3σ,μ+3σ)中的概率为0.9973
  • 其中,μ为平均值,σ为标准差。

一般可以认为,数据Y的取值几乎全部集中在

更多推荐

物联网:用python调入机器学习分析物联网数据入侵检测模块

要使用Python调用机器学习分析物联网数据入侵检测模块,您需要以下步骤:安装Python和相关的机器学习库,如scikit-learn、pandas、numpy等。您可以使用pip命令来安装这些库。准备输入数据。这些数据可以是来自物联网设备的原始数据,例如传感器读数、错误代码等。对输入数据进行特征工程。这涉及将原始数

“探索前后端分离架构下的Vue.js应用开发“

目录引言1.前后端分离2.Vue的简介1.Vue.js是什么?2.库和框架的区别3.MVVM的介绍3.Vue的入门数据的双向绑定数据的单项绑定4.Vue的生命周期总结引言在当今互联网时代,前后端分离架构已经成为了Web应用开发的主流趋势。前后端分离架构的核心思想是将前端和后端的开发过程解耦,使得前端和后端可以独立开发、

[JAVEee]SpringBoot项目的创建

SpringBoot可以更好的开发Spring项目,本文章将使用idea社区版来演示创建项目的过程与注意事项.SpringBoot的优点SpringBoot中内置快速添加依赖的功能,能够便捷的集成各种框架,帮助开发.内置运行容器,无需配置Tomcat容器等其他web容器,可直接进行项目的部署与运行.更好的使用注解与配置

AI Studio星河社区生产力实践:基于文心一言快速搭建知识库问答

还在寻找基于文心一言搭建本地知识库问答的方案吗?AIStudio星河社区带你实战演练(支持私有化部署)!相信对于大语言模型(LLM)有所涉猎的朋友,对于“老网红”知识库问答不会陌生。自从大模型爆火后,开发者都希望尽快进行开发实战,企业都希望尽快在产品中集成LLM的能力,结合业务快速落地,那最直接的方式就是构建知识库问答

算法 杨辉三角求解 java打印杨辉三角 多路递归打印杨辉三角 递归优化杨辉三角 记忆法优化递归 帕斯卡三角形 算法(十二)

1.杨辉三角:是二项式系数在三角形中的一种几何排列,中国南宋数学家杨辉1261年所著的《详解九章算法》一书中出现。在欧洲,帕斯卡(1623----1662)在1654年发现这一规律,所以这个表又叫做帕斯卡三角形。帕斯卡的发现比杨辉要迟393年,比贾宪迟600年。--百度百科2.杨辉三角特点:1.每个数等于它上方两数之和

CATTI考试,拿证必看篇:CATTI备考,你不可不知的东西都在这里!

打工人,打工魂,打工都是人上人。在人才拥挤的就业市场里,我们如何能够脱颖而出,赢得一份好工作呢?于是很多人把目光投向了CATTI。CATTI是一项面向全社会的职业资格考试,全称为全国翻译专业资格(水平)考试。具有一定外语水平的人员,不分年龄、学历、资历和身份,均可报名参加相应语种二、三级的考试。本文将带大家快速了解这门

SkyWalking快速上手(一)——安装单机版SkyWalking、使用SkyWalking

文章目录什么是SkyWalking为什么选择SkyWalking安装步骤前置条件环境要求下载SkyWalking配置SkyWalkingSkywalking使用Agent配置Collector配置启动SkyWalking配置SkyWalking代理SkyWalking的监控功能分布式调用链追踪性能指标监控告警和报警总结

黑马JVM总结(六)

(1)常量池方法区的组成中都由一个叫做运行时常量池的部分,内部包含一个叫做StringTable的东西反编译二进制字节码:类的基本信息:常量池:方法定义:构造方法main方法:方法中有一些指令,通过指令#2去常量池中找这个静态指令常量池:#2它是要找java/lang/System类下的out变量,类型是java/io

负载均衡原理及应用

🌷🍁博主猫头虎(🐅🐾)带您GotoNewWorld✨🍁🦄博客首页——🐅🐾猫头虎的博客🎐🐳《面试题大全专栏》🦕文章图文并茂🦖生动形象🐅简单易学!欢迎大家来踩踩~🌺🌊《IDEA开发秘籍专栏》🐾学会IDEA常用操作,工作效率翻倍~💐🌊《100天精通Golang(基础入门篇)》🐅学会Gol

基于Java+SpringBoot+Vue的图书借还小程序的设计与实现(亮点:多角色、点赞评论、借书还书、在线支付)

图书借还管理小程序一、前言二、我的优势2.1自己的网站2.2自己的小程序(小蔡coding)2.3有保障的售后2.4福利三、开发环境与技术3.1MySQL数据库3.2Vue前端技术3.3SpringBoot框架3.4微信小程序四、功能设计4.1主要功能描述五、系统实现5.1小程序界实现5.1.1首页展示5.1.2点赞、

MYSQL_

文章目录①.索引的概述②.二叉树和红黑树③.Hash建立索引结构④.B树的数据结构⑤.MyISAM存储引擎索引实现⑥.InnoDB索引实现(聚集)⑦.联合索引的设定①.索引的概述①.索引是帮助MySQL高效获取数据的排好序的数据结构②.mysql数据库的实现原理通过b+树实现的,b+树的原理是先找到所有的数据,然后折半

热文推荐