CIIS 2023丨聚焦文档图像处理前沿领域,合合信息AI助力图像处理与内容安全保障

2023-09-21 22:08:21

近日,2023第十二届中国智能产业高峰论坛(CIIS 2023)在江西南昌顺利举行。大会由中国人工智能学会、江西省科学技术厅、南昌市人民政府主办,南昌市科学技术局、中国工程科技发展战略江西研究院承办。本次大会重点关注AI大模型、生成式AI、无人系统、智能制造、数字安全等领域,汇集了来自中国工程院、国际欧亚科学院、国际核能院等多个学术机构的院士进行主题报告演讲、专题论坛研讨。近200位人工智能领域专家学者同场交流分享,吸引了线上线下超千万人次观会。

大会现场

行业的发展离不开信息传递,文档是信息传递最常见的载体之一。智能文档处理技术历来便是学术界重点关注的领域,多模态大模型可以利用大量的数据进行预训练,有效解决文档图像质量及自然语言处理技术限制问题。基于此,大会期间,中国人工智能学会(CAI)模式识别专委会与合合信息共同承办了《多模态大模型与文档图像智能理解》专题论坛,论坛主席为华南理工大学金连文教授、复旦大学邱锡鹏教授。来自清华大学、华中科技大学、复旦大学、百度、科大讯飞、合合信息等研究机构和企业的技术专家,围绕行业焦点议题展开探讨。

《多模态大模型与文档图像智能理解》专题论坛现场

“大模型的出现势必对行业带来巨大的影响,文档图像的分析、识别、理解与大模型技术间存在互补关系。”合合信息智能技术平台事业部副总经理、高级工程师丁凯博士在《文档图像预训练模型的探索与思考》分享中提到,在互联网语料“见底”之日逐渐逼近之时,电子书成为了大模型训练的新“燃料”,而电子书很多是由文档图像组成的,文档图像识别分析与智能理解技术可以将大量的文档图像转化为具有丰富格式信息的文本,为大模型提供更丰富更高质量的训练语料,解决大模型训练的‘token荒’的问题。

合合信息智能技术平台事业部副总经理、高级工程师丁凯博士进行《文档图像预训练模型的探索与思考》主题分享

文档图像技术已走过百年历程,但文档图像质量退化、文字检测及版面分析困难、非限定条件文字识别率低、结构化智能理解能力差等问题如今仍是工业化落地中的难题。丁凯认为,文档图像处理技术在推动大模型技术发展的同时,大模型的小样本学习能力、多任务能力、智能涌现能力对于文档图像处理问题的解决具有重要的研究价值。

“在已有的学术研究中,文档图像专有大模型在更复杂的文档理解问题上存在天然的短板,而一些多模态大模型已经表现出了从含有表格、图片等多重元素的文档中提取关键信息进行分析,理解内容的潜力。”丁凯表示,研究人员可以基于现有的领域做更好的融合,开辟新的研究方向。

合合信息-华南理工大学文档图像分析识别与理解联合实验室也对以下行业前沿问题进行了研究,包括如何将文档图像识别分析的各种任务定义为序列预测的形式,通过不同的AI提示词(prompt)引导模型完成不同的文档图像识别分析与理解任务,让模型更好地支持篇章级的文档图像识别分析。

大模型蓬勃生长的背面,大量经过人工、生成式AI篡改合成的图片被用于散播谣言、经济诈骗,AI图像内容安全也成为了文档大模型发展中亟待解决的痛点。丁凯表示,合合信息智能文档处理技术覆盖了图像预处理、解析识别到AI安全等文档图像处理全生命周期,在端到端提升文件处理效率、准确率的同时,有效保障用户及企业数据安全。

今年8月,合合信息战胜了来自全球的上千支参赛团队,获得了文档分析与识别国际会议(ICDAR 2023)“文本篡改检测”赛道冠军。合合信息技术团队提出的方案能够在保持极低误检率的同时,准确识别并定位图片中文本的篡改行为,从而有效保障文本信息的真实性。相关方案此前已在银行、证券、保险多个场景中应用。此前,合合信息曾获得ICPR、ICFHR 等十余项文档图像处理、文字识别领域国际竞赛冠军。

更多推荐

为何学linux及用处

目前企业使用的操作系统无非就是国产类的,windows和linux类。我们要提升自己的技能,需要学习这两款。我记得在大学时期,学习过windows以及linux,但当时觉得又不常用,就学的模棱两可。毕业之后,你会发现,其实这两种操作系统是很主流的。为什么学?下面就是一些工作中遇到的例子分享一下。我记得在企业中有次遇到数

【python第7课 实例,类】

文章目录一、实例1.1实例的变量1.2实例方法1.3构造方法1.4析构函数1.4预置实例属性:二,类1.1类变量1.2类方法1.3静态方法1.4类属性的增删改查一、实例1.1实例的变量使用示例classdog:def__init__(self,k,c,a):self.kinds=kself.color=cself.ag

【Hash表】两数之和-力扣 1 题

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。推荐:kuan的首页,持续学习,不断总结,共同进步,活到老学到老导航檀越剑指大厂系列:全面总结java核心技术点,如集合,jvm,并发编程redis,kaf

Docker笔记

安装卸载旧版本以及相关的依赖项sudoyumremovedocker\docker-client\docker-client-latest\docker-common\docker-latest\docker-latest-logrotate\docker-logrotate\docker-engine安装所需的软件包

leetcode分类刷题:二叉树(一、简单的层序遍历)

二叉树的深度优先遍历题目是让我有点晕,先把简单的层序遍历总结下吧:配合队列进行的层序遍历在逻辑思维上自然直观,不容易出错102.二叉树的层序遍历本题是二叉树的层序遍历模板:每次循环将一层节点出队,再将一层节点入队,也是所有可用层序遍历解二叉树题目的模板,只需要在模板里稍加改动即可解题fromtypingimportLi

Docker学习大纲

Docker是一个用于自动部署应用程序在轻量级容器中的平台。下面列出一些Docker的基础和必知概念。1.容器(Containers)容器是独立的应用程序运行环境。命令:dockerrunhello-world解析:该命令会从DockerHub下载一个叫做“hello-world”的镜像,并运行一个容器。2.镜像(Im

模型分类model

模型可以按照多个维度进行分类,以下是常见的几种模型分类方式:(1)根据应用领域分类:数学模型:基于数学原理和方程式来描述和解决问题,如微积分模型、线性代数模型等。物理模型:基于物理原理和规律来模拟和解释现象,如力学模型、电路模型等。经济模型:用于研究和预测经济系统的行为和变化,如供求模型、消费者行为模型等。生物模型:用

token登录的实现

token登录的实现我这种token只是简单的实现token,就是后端利用UUID生成简单随机码,利用随机码作为在Redis中的键,然后存储的用户信息作为值,在每次合理请求的时候对token的有效时间进行刷新(利用拦截器),以确保用户信息的有效性。为什么要用token使用令牌(Token)进行身份验证和授权是一种常见的

Python vs C#:首先学习哪种编程语言最好?

进入编码可能很困难。最艰难的部分?决定先学什么语言。当谈到Python与C#时,可能很难知道在您的决定中要考虑哪些因素。我们为您提供了有关这些全明星编程语言的所有信息。什么是C#?自2000年作为MicrosoftVisualStudio的一部分开发C#以来,它一直是开发人员(包括新编码人员)的最爱。它标志着技术的一个

JAVA设计模式6:代理模式,用于控制对目标对象的访问

作者主页:Designer小郑作者简介:3年JAVA全栈开发经验,专注JAVA技术、系统定制、远程指导,致力于企业数字化转型,CSDN博客专家,阿里云社区专家博主,蓝桥云课讲师。目录一、什么是代理模式二、代理模式实例2.1静态代理2.2动态代理三、代理模式的应用场景四、代理模式面试题一、什么是代理模式代理模式是一种常用

【算法训练-二叉树 四】【对称与翻转】对称二叉树、翻转二叉树

废话不多说,喊一句号子鼓励自己:程序员永不失业,程序员走向架构!本篇Blog的主题是【二叉树的形态变化】,使用【二叉树】这个基本的数据结构来实现,这个高频题的站点是:CodeTop,筛选条件为:目标公司+最近一年+出现频率排序,由高到低的去牛客TOP101去找,只有两个地方都出现过才做这道题(CodeTop本身汇聚了L

热文推荐