机器学习实战(01)-人工智能概要

2023-07-24 22:51:37

1 发展历程

20世纪50年代:人工智能概念诞生

  • 1956年,“人工智能”这个术语由麦卡锡在达特茅斯会议上首次提出
  • 主要研究逻辑和推理,以及如何在机器上模拟人类智能

20世纪60年代:知识表达期

  • 开始研究知识表达,使用谓词逻辑来表达知识
  • 开发可以解题的专家系统,例如Dendral专家系统

20世纪70年代:知识库期

  • 研究汇集知识到知识库,并开发程序利用知识库做推理
  • 出现视觉、语音、运动控制等领域的专家系统

20世纪80年代:专家系统盛行期

  • 专家系统成为人工智能的主流应用,应用于医疗、工程等领域
  • 持续完善知识表达与推理系统

20世纪90年代:统计学习和深度学习兴起

  • 机器学习成为主流,神经网络和深度学习理论进展显著
  • 1997年,深蓝击败国际象棋世界冠军卡斯帕罗夫

21世纪:深度学习和人工智能应用爆发期

  • 深度学习技术不断成熟,语音、图像、自然语言处理取得进展
  • AlphaGo击败围棋世界冠军,人工智能应用进入爆发期

人工智能发展至今,已经由最初的专注推理转为数据驱动的统计学习与深度学习,并取得了巨大的进步,未来发展潜力巨大。

好的,人工智能主要可以分为以下几个分支:

2 人工智能的主要分支

2.1 机器学习(Machine Learning)

机器学习是人工智能的核心分支之一,它主要是通过算法和统计模型来实现机器对数据特征的自动学习,并对新的输入数据进行预测或决策。常见的机器学习算法有监督学习、无监督学习、半监督学习、强化学习等。

2.2 计算机视觉(Computer Vision)

计算机视觉通过相机、图像传感器和图像处理算法,来模拟人眼对物体进行识别和跟踪的功能。它可以应用于面部识别、医学影像分析、自动驾驶等领域。

2.3 自然语言处理(NLP)

自然语言处理让机器解析、理解人类的语言。它的应用有机器翻译、语音识别、信息检索等,是智能助手、chatbot的关键技术。

2.4 机器人(Robotics)

机器人技术研究如何模拟人类的行为能力,分为运算能力、感知能力、决策能力、执行能力等。它广泛应用于工业、服务、家居、军事等领域。

2.5 知识表示与推理(KR&R)

知识表示与推理关注如何用计算机来表示世界知识,并模拟人类经验进行推理。它可用于专家系统、知识管理、智能助手等应用。

以上是人工智能的主要研究方向,它们相辅相成,共同推动着人工智能技术的发展。不同方向都有自己的独特侧重点和应用领域。

3 机器学习是什么

使机器通过算法和统计模型对数据进行学习,并对新的数据做出预测或决策。

简单来说,机器学习就是让计算机自己通过数据去“学习”,而不需要人工进行明确的编程。机器学习的基本思想是构建一个可以从数据中 generalization(归纳总结)知识的系统。

机器学习主要可以分为以下三类:

  1. 监督学习(Supervised Learning):给机器提供大量带有正确答案(标签)的数据,使其通过这些样本数据去学习一个预测模型,然后对新数据做出预测。例如分类和回归。

  2. 无监督学习(Unsupervised Learning):不提供正确答案,让机器自己通过探索数据的内在结构来进行学习。例如聚类和降维。

  3. 强化学习(Reinforcement Learning):通过让机器与环境进行交互,提供反馈的方式让机器学习最优解。例如机器人。

机器学习算法包括支持向量机、神经网络、贝叶斯算法、集成学习等。它广泛应用于图像识别、自然语言处理、预测分析等领域。随着算法和算力的进步,机器学习正在推动人工智能的发展。

4 机器学习的工作流程

1.获取数据
2.数据基本处理
3.特征工程
4.机器学习(模型训练)
5.模型评估
结果达到要求,上线服务

没有达到要求,重新上面步骤

4.1 获取数据

在数据集中一般:

  • 一行数据我们称为一个样本
  • 一列数据我们成为一个特征
  • 有些数据有目标值 (标签值),有些数据没有目标值(如上表中,电影类型就是这个数据集的目标值

数据类型构成

数据类型一:特征值+目标值 (目标值是连续的和离散的)

数据类型二:只有特征值,没有目标值

数据分割

机器学习一般的数据集会划分为两个部分:

  • 训练数据

    用于训练,构建模型

  • 测试数据

    在模型检验时使用,用于评估模型是否有效

划分比例:

  • 训练集: 70% 80% 75%
  • 测试集: 30% 20% 25%

4.2 数据基本处理

即对故据进行缺失值、去除异常值等处理。

4.3 特征工程(Feature Engineering)

使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。

意义:会直接影响机器学习的效果。

意义

吴恩达说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

内容

特征提取:将任意数据 (如文本或图像) 转换为可用于机器学习的数字特征
特征预处理:通过一些转换函数,将特征数据转换成更加适合算法模型的特征数据过程

特征降维:在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程。

更多推荐

将 Pandas 换为交互式表格的 Python 库

Pandas是我们日常处理表格数据最常用的包,但是对于数据分析来说,Pandas的DataFrame还不够直观,所以今天我们将介绍4个Python包,可以将Pandas的DataFrame转换交互式表格,让我们可以直接在上面进行数据分析的操作。PivottablejsPivottablejs是一个通过IPythonwi

【Zabbix监控一】zabbix的原理与安装

利用一个优秀的监控软件,我们可以:●通过一个友好的界面进行浏览整个网站所有的服务器状态●可以在Web前端方便的查看监控数据●可以回溯寻找事故发生时系统的问题和报警情况总结:zabbix主要功能监控,cpu负载,内存使用,硬盘使用,网络状态,端口监视,日志监视,插件开发自定义zabbixserver端口号:10500za

【系统架构】分布式系统架构设计

1分布式系统是什么分布式系统是指由多个计算机节点组成的一个系统,这些节点通过网络互相连接,并协同工作完成某个任务。与单个计算机相比,分布式系统具有更高的可扩展性、可靠性和性能等优势,因此广泛应用于大规模数据处理、高并发访问、分布式存储等领域。分布式系统的设计目标是将计算机资源、数据和控制权分布在多个节点上,以提高系统的

使用GGML和LangChain在CPU上运行量化的llama2

MetaAI在本周二发布了最新一代开源大模型Llama2。对比于今年2月发布的Llama1,训练所用的token翻了一倍,已经达到了2万亿,对于使用大模型最重要的上下文长度限制,Llama2也翻了一倍。在本文,我们将紧跟趋势介绍如何在本地CPU推理上运行量化版本的开源Llama2。量化快速入门我们首先简单介绍一下量化的

决策树的划分依据之:信息增益率

在上面的介绍中,我们有意忽略了"编号"这一列.若把"编号"也作为一个候选划分属性,则根据信息增益公式可计算出它的信息增益为0.9182,远大于其他候选划分属性。计算每个属性的信息熵过程中,我们发现,该属性的值为0,也就是其信息增益为0.9182.但是很明显这么分类,最后出现的结果不具有泛化效果.无法对新样本进行有效预测

网络安全(黑客)自学

前言1.不要试图以编程为基础的学习开始学习我在之前的回答中,我都一再强调不要以编程为基础再开始学习网络安全,一般来说,学习编程不但学习周期长,而且实际向安全过渡后可用到的关键知识并不多一般人如果想要把编程学好再开始学习网络安全往往需要花费很长时间,容易半途而废。而且学习编程只是工具不是目的,我们的目标不是成为程序员。建

重新理解 RocketMQ Commit Log 存储协议

最近突然感觉:很多软件、硬件在设计上是有rootreason的,不是bydesgin如此,而是解决了那时、那个场景的那个需求。一旦了解后,就会感觉在和设计者对话,了解他们的思路,学习他们的方法,思维同屏:活到老学到老。问题思考1、ConsumerQueueOffset是连续的吗,为什么?2、CommitLogOffse

Rust 数据类型 之 结构体(Struct)

目录结构体(Struct)定义与声明结构体定义结构体实例结构体分类单元结构体(UnitStruct)元组结构体(TupleStruct)具名结构体(NamedStruct)结构体嵌套结构体方法例1:结构体转换为字符串描述例2:矩形的周长和面积例3:结构体字段的更新与输出关联函数结构体方法与关联函数的区别参数传递方式的区

爬虫工作者必备:使用爬虫IP轻松获得最强辅助

目录一、爬虫IP的作用与优势二、选择合适的爬虫IP服务商三、使用爬虫IP的注意事项和技巧代码示例四、合法合规使用爬虫IP总结随着互联网的发展,数据已经成为企业竞争的核心资源。而获取这些数据的有效方式,就是通过爬虫技术。但是,爬虫在运行过程中很可能会触及到目标网站的限制,从而被禁止访问甚至封号。为了解决这个问题,我们可以

“熊猫杯” | 赛宁网安获网络安全优秀创新成果大赛优胜奖

9月11日,四川省2023年国家网络安全宣传周正式启动。由四川省委网信办指导,中国网络安全产业联盟(CCIA)主办,成都信息工程大学、四川省网络空间安全协会承办的“2023年网络安全优秀创新成果大赛—成都分站赛(暨四川省‘熊猫杯’网络安全优秀作品大赛)”落下帷幕。赛宁网安凭借主动防御安全网格解决方案脱颖而出,荣获大赛优

Hadoop源码阅读(一):NameNode启动

说明:1.Hadoop版本:3.1.32.阅读工具:IDEA2023.1.23.源码获取:Indexof/dist/hadoop/core/hadoop-3.1.3(apache.org)4.工程导入:下载源码之后得到hadoop-3.1.3-src.tar.gz压缩包,在当前目录打开PowerShell,使用tar-

热文推荐