汉王智能家居

门窗网 > 资讯中心 > 汉王智能家居:以“OCR+NLP”智慧化管理文献资料档案

汉王智能家居:以“OCR+NLP”智慧化管理文献资料档案

2022-01-26 08:02

投资金额:面议

门店数量:未公开

一对一人工客服
在线解答加盟疑问

加盟咨询
  • 预约考察
  • 咨询费用
  • 了解区域
  • 开店选址
  • 厂家地址:北京市海淀区东北旺西路8号中关村软件园5号楼汉王大厦3层
  • 加盟热线:获取加盟电话

近十年来,档案管理工作由原来的纸质档案管向电子档案管理进行转化,无疑电子档案的产生彻底改变了原有的档案管理模式。大数据、人工智能技术的日新月异,推动社会向智慧化、物联化、互联化发展。同时,也对电子档案的应用也提出了智能化管理的时代要求。在杭州档案馆《OCR+NLP在档案数据化中的研究与实践》项目中,汉王科技利用人工智能技术对杭州档案馆现有档案系统进行升级改造,对存量档案进行加工,活化档案内容,一方面更便于应用,另一方面,也是新时代档案建设的一大要务。

汉王智能家居:以“OCR+NLP”智慧化管理文献资料档案_1

(图片来源:汉王智能家居公众号,侵删)

档案数据化难题

正如杭州市档案馆副馆长马列强在《OCR+NLP在档案数据化中的研究与实践》这一项目中所指出的,“我国现存的档案一直在进行持续的电子化扫描工作,大量的纸质档案经扫描后得到图像数据。这一方面为档案的长期保存提供了便利,一方面也为档案的电子化利用提出了新的挑战。”

马列强认为,档案的电子化应用离不开档案的数据化。相比于档案的电子化,档案的数据化是对档案数据的进一步整理和挖掘。

可以这样理解,档案电子化后得到的图像数据仍然是一种非结构化数据,不利于查询检索和统计分析。档案数据化是将非结构化的档案图像转化为结构化数据的过程,在这个过程中档案中的核心结构化数据被提取出来,可以为针对档案的全文检索、精准查询、统计分析、关联挖掘等下游任务提供数据支持。

据介绍,档案数据化的工作可以分为三个层级。第一,是针对档案图像的文字识别,在这个过程中主要采用OCR技术对档案进行文字的识别和提取。第二,是知识抽取,在这个过程中主要是基于NLP(自然语言处理)技术对档案的核心要素进行抽取。第三,是关联挖掘,在这个过程中主要是基于前面两个阶段获得的结构化数据,应用知识图谱和数据挖掘的技术,对数据内在的关联性进行挖掘,形成文档级别和要素级别的普遍关联。

他指出,目前我国的档案数据化工作的现状中存在一些问题,主要表现在上述档案数据化工作的第二个和第三个层级,即对档案进行知识抽取的工作进行得很少,对档案进行知识抽取缺乏统一的标准,关于OCR文字识别作为知识抽取的上游环节应该输出怎样的数据格式,缺乏明确的规范和标准。

解决方案:OCR+NLP

在该研究中,马列强称,传统的OCR技术的核心是识别图像中的文字,再加上通过NLP技术进行文字块的自然语言语义分析,才能较好地进行完整的知识抽取。

他还提到,该项目的联合申报单位之一为汉王科技,在深度学习和人工智能领域有较强的技术积累,在OCR和NLP技术领域已有多个成功的相关落地案例,例如中国文史出版社知识图谱项目、中国建设银行云档案项目、上海图书馆现刊自动著录项目、国家图书馆地方志知识抽取项目等、汕头市民国档案数字化项目等。

无独有偶,在行业实践中,汉王科技也意识到了一个同样的问题——只有OCR是不够的。

资料显示,2013年,汉王科技将文档电子化的触角延伸至图书馆、档案馆,银行、医院、法院等多个国家级项目。但在这些具体项目的实施中,汉王科技也开始逐渐意识到,文档电子化只是完成了知识、信息应用的一部分。

“静态的文字是没有生命的。”汉王数字首席数据科学家聂昱告诉记者,电子文档没有对文本进行挖掘、知识之间缺乏关联,要将文档的非结构化数据进行结构化处理,转化为技术术语,就要用到NLP自然语言处理技术。

应用创新与未来趋势

一方面,得益于当时的行业背景,2015年,深度学习算法的快速进展,大规模社交文本数据以及语料数据的不断积累,NLP技术有了飞跃式的发展。另一方面,汉王在抢先布局NLP领域,2016年,汉王科技与武汉大学的自然语言处理团队联合进行文档大数据化研发工作,力图突破NLP技术,建立起自己的文档大数据库体系。

同时,汉王科技还积极推进NLP行业应用并进行创新研发,比如,其新一代人工智能档案大数据处理平台基于全卷积神经网络(FCN)提取特征序列,实现全局特征与局部特征联合,可以较好地解决版式复杂、噪声严重的档案图像的文字定位与检测。

据介绍,该平台采用长短时循环神经网络(LSTM)作为序列学习,嵌入时序特征,有效建模序列内部关系,解决版式复杂、噪声严重的档案图像的单字符切分与识别问题。基于以上技术构建的OCR,全文识别引擎对于任意扫描的档案图像都能够自动定位文字区域,并自动辨认文字类型(手写体或印刷体),然后准确识别文字,输出识别结果,能够在带背景噪声的情况下定位文字区域,综合大量样图实测,平均识别准确率可超过95%。汉王科技OCR技术同时在少数民族语言中广泛应用,尤其在满文、藏文等识别方面最为突出,平均识别准确率在98%以上。

汉王相关负责人指出,从2016年开始NLP的技术积累,到各子公司的行业应用,汉王科技在NLP领域,形成了从技术研发,到法院、医院、图书馆、档案馆、银行等多行业应用的闭环,各子公司也在技术和场景应用的协同中,形成了良好的联动效应。

最后,马列强总结道:“从国内外的研究和发展趋势来看,目前档案数据化的工作大多集中在对档案图像进行OCR识别,目前的OCR识别以准确识别文字为主要目标,对于后续的知识抽取所需要的版面相关信息往往未进行识别和保存。但基于档案相关数据的特点,OCR识别从文字识别扩展到文字块区域识别、表格识别、连线识别、字体字号识别是未来必然的趋势,只有这样才能与下游的信息或知识抽取处理进行无缝连接。所以,未来的档案数据化必将是从基于纯文本的信息抽取技术向结合文本语义信息与版面信息进行整体信息抽取技术发展是必然趋势。”

注:OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。NLP(Natural Language Processing,自然语言处理) 是研究人与计算机交互的语言问题的一门学科。

 本文转载自《环球网》

(文章来源:汉王智能家居公众号,侵删)

汉王智能家居 门窗厂家大全 2025-11-13

招商加盟区域查询

  • 1分钟前浙江杭州市 周女士查询了品牌招商区域
  • 3分钟前湖南长沙市 胡先生查询了品牌招商区域
  • 2分钟前辽宁大连市 杨女士查询了品牌招商区域
  • 4分钟前北京 肖女士查询了品牌招商区域
  • 5分钟前云南昆明市 王女士查询了品牌招商区域
  • 7分钟前福建福州市 李先生查询了品牌招商区域
  • 8分钟前湖南长沙市 蒋先生查询了品牌招商区域

用户信息授权确认书(仔细阅读)

汉王智能家居加盟预算及利润

帮您快速计算加盟汉王智能家居需要多少钱?

预算总价

*以上投资费用为预估,可能会与品牌实际情况所有差别,具体以品牌公布为准,结果仅供参考。

用户信息授权确认书(仔细阅读)

  • 1分钟前,浙江杭州周女士获得详细加盟预算
  • 3分钟前,辽宁大连杨女士获得详细加盟预算
  • 3分钟前,北京袁女士获得详细加盟预算
  • 4分钟前,云南昆明王女士获得详细加盟预算
  • 4分钟前,福建福州李先生获得详细加盟预算
  • 5分钟前,湖南长沙周女士获得详细加盟预算
  • 8分钟前,广东韶关赵女士获得详细加盟预算

感谢您的提交

加盟管家会在1个工作日内致电联系您
请保持手机畅通

X
X

信息已成功提交

稍后一对一专业客服将回电给您,免费提供品牌咨询服务,具体加盟预算请以厂家报价为准。

X

加盟费用计算中

稍后会有客服与您联系,并提供详细加盟预算供您参考,具体加盟预算请以厂家报价为准。

X恭喜

您离千万财富又近一步

您的投资加盟信息,我们已经收到,
稍后您的专属招商经理会与您联系,
请保持手机畅通

X

信息已成功提交

感谢您的支持与信任,我们会在收到您加盟信息后第一时间与您联系。请保持您手机的畅通!

其他人还关注了这些品牌

分享到
微信好友 微信朋友圈 新浪微博 QQ空间

感谢您的提交

加盟管家会在1个工作日内致电联系您
请保持手机畅通

X

感谢您的提交

加盟管家会在1个工作日内致电联系您
请保持手机畅通

X

感谢您的提交

您的评论已经提交审核

X
加盟热线 我要加盟
加盟预算