首页 > 人工智能:破解梵蒂冈神秘卷宗之谜

竖排连体字在线生成器,人工智能:破解梵蒂冈神秘卷宗之谜

互联网 2021-03-06 05:51:24

梵蒂冈秘密档案馆(Vatican Secret Archives)可谓全球最伟大的历史藏品之一,但其珍藏的许多文件从未转录。近日,一个名为 Codice Ratio 项目,利用人工智能与光学字符识别(简称 OCR)软件的组合重现这些被忽视的文本,并将其重新呈现在世人面前。下面就随嵌入式小编一起来了解一下相关内容吧。

这个 AI 认识中世纪手写拉丁文

“以后青铜铭文也交给 AI 来识别好了!”

AI 识别文字已经不算是什么难事,但是如果字体是手写,而且还是古文呢?

这似乎听起来具有相当的难度!

梵蒂冈秘密档案馆(Vatican Secret Archives)可谓全球最伟大的历史藏品之一,但其珍藏的许多文件从未转录。近日,一个名为 Codice Ratio 项目,利用人工智能与光学字符识别(简称 OCR)软件的组合重现这些被忽视的文本,并将其重新呈现在世人面前。

这座恢宏的建筑坐落在梵蒂冈城墙之内,毗邻使徒图书馆、位于西斯廷大教堂北侧,拥有着可追溯于1200年之前的总长达53英里的书架。除了将Martin Luther逐出教会的《教皇诏书》之外,其中还包括苏格兰玛丽女王被处决之前发给教皇西克斯五世的函件。在规模与范围方面,其中的收藏几乎著称无与伦比。

然而,梵蒂冈秘密档案馆对现代学者却没多大现实意义。因为在这长达53英里的书架当中,只有极少数书页经过扫描以提供在线版本,这当中的一小部分转录为计算机文本以供内容搜索。如果我们打算阅读其它任何内容,则必须申请特殊的访问权限,一路前往罗马,并亲自动手翻开这些古籍。

传统 OCR 技术只适用于经过严格排版的文字,而对于字母之间缺少间隔空间(即脏分割)的手写卷宗形式则无法识别。对此, Codice Ratio 项目利用拼图分割法将单词理解为一种单笔笔划,软件只需要知晓哪些组块代表真实的字母,而哪些只是连笔造成的假象即可。该软件的手写字母判断准确率已经高达96%。如果成功,这项技术还将被用于处理世界各地其它历史档案库当中数不胜数的其它记录文件。

利用拼图分割法让 OCR 识别连体字

由于传统OCR技术是把单词分割成一个个字母来识别的,所以对于这类连体字,OCR无法识别字母。有人想出了一个方案,直接让OCR去识别一个个的单词,但是,如何让OCR掌握成千上万的拉丁文单词呢?大概需要一个排的中世纪拉丁文专家来辨认不同单词的图形。

除了请专家辨认单词外,还有更简单的方法帮助OCR识别手写字母,只要找实习生就可以搞定了。

我们知道,无论中文还是英文,连体字中粗的部分是笔画,细的部分是笔尖移动造成的虚线,并不是笔画的一部分。根据这个原则,In Codice Ratio的专家们发明了新的方法——拼图分割法。拼图分割法改变了传统OCR把单词分成字母的传统方式,而是是把连在一起的单词按照笔画分隔开,在此之后,该软件会进一步进行字母绘制,并最终生成以下一系列拼图碎片:

这些拼图碎片本身作用不大,但该软件能够将其通过多种方式组合起来以生成可能的字母。具体来讲,软件只需要知晓哪些组块代表真实的字母,而哪些只是连笔造成的假象即可。

为了教会软件这项能力,研究人员们选择了不同寻常的导师——高中生。该团队在意大利的24所学校当中招募了一批高中生用于建立项目的记忆库。学生们在登录相关网站后,会看到如下图所示的三分屏幕界面:

之后,就要让识别系统判断对错:识别出的字母,哪些是真正的字母,哪些是虚线的误判。

通过一次次点击,学生们努力教授该软件如何识别22个中世纪拉丁字母(a-i,l-u,以及s与d的某些替代形式)。 22个中世纪拉丁文字母都学会之后,这个识别系统就成为了一个能认识手写体中世纪拉丁文的AI。

当然,最终学生们也不再需要参与其中。当训练进行到一定阶段之后,该软件即可独立拼图,并自行判断字母的具体位置。这,正是人工智能的价值所在。

在另一方面,这也证明单靠拼图碎片还不足以组合出正确的字母。计算机仍然需要额外的帮助才能破解手写文本的秘密。想象一下,大家正在读信,并在其中看到下面这句:

中间的单词到底是“clear”还是“dear”?很难判断,因为“d”与“cl”的笔画构成实际上完全相同。OCR软件也面临着同样的问题,特别是在处理高度风格化的文本时更是如此。以下图为例:

在经过不同的拼图组合之后,OCR认为可能的选项包括aimo、amio、aniio、aiino甚至是aiiiio。但这个词实际上是anno,也就是拉丁语中的年。该软件认准了a和o,但却弄不清中间的四个竖到底该如何划分。

为了解决这个问题,Codice Ratio团队不得不为自己的软件提供一些常识性的知识。他们建立起一套包含150万个经过数字化的拉丁词汇语料库,并对其中的双字母与三字母组合进行了检查。通过这种方式,他们确定了哪些字母组合较为常见,而哪些永远不会出现。通过将这些统计信息提供给OCR软件,其能够了解到不同字符串的具体出现概率,从而意识到nn比iiii的可能性高得多。

随着这样的改进,OCR终于能够自行阅读部分文本了。该团队决定为其提供一些来自梵蒂冈秘密归案馆的资料。这是一份超过18000页的档案集合,其中包括写给欧洲国王的信件、关于法律问题的裁决以及其它信件。

最初的结果有好有坏。在迄今为止的全部转录文本中,有三分之一文档中包含一处或多处拼写错误——意味着OCR作出了错误的判断。然而,该软件仍然带来了高达96%的手写字母判断准确率。Merialdo表示,即使是“不完美的转录结果,亦可提供关于手稿内容及背景的大量有价值信息。”

经过对AI更专业的训练后,它可以识别各大文明的古代文献并电子化。

所以,为了给AI提升难度,青铜铭文了解一下?

梵蒂冈秘密档案馆(Vatican Secret Archives):由教皇保罗五世(Pope Paul V)主导创立,是欧洲教会中收藏档案最丰富,最古老的档案馆。梵蒂冈秘密档案馆拥有着可追溯于1200年之前的总长达53英里的书架,其中保存着各种古籍、历史事件档案、教皇的私人信件以及一些有关超自然现象和神秘学的资料。梵蒂冈秘密档案馆收录了许多重要史料,除了将 Martin Luther 逐出教会的《教皇诏书》之外,还包括苏格兰玛丽女王被处决之前发给教皇西克斯五世的函件。

    以上是关于嵌入式中-人工智能:破解梵蒂冈神秘卷宗之谜的相关介绍,如果想要了解更多相关信息,请多多关注eeworld,eeworld电子工程将给大家提供更全、更详细、更新的资讯信息。

关键字:人工智能 编辑:李强引用地址:http://news.eeworld.com.cn/qrs/article_2018051448282.html

上一篇:亚马逊是如何从一家网上书店变成全球市值第二的科技公司? 下一篇:2018全球电池材料市场将增至435亿美元

关注eeworld公众号 快捷获取更多信息 关注eeworld公众号快捷获取更多信息 关注eeworld服务号 享受更多官方福利 关注eeworld服务号享受更多官方福利

推荐阅读

智能工厂发展受阻,如何做才能实现破局? 建立智能工厂是所有工业制造业企业的愿景,在工业4.0大背景下,人工智能、数字化、物联网等新技术不断涌现,向企业生产、运营、管理等各个环节渗透,颠覆传统的模式,打造全新的制造业生态系统。如数字化所带来的优势,利用创建的数字孪生,实现了减少停机时间的预测性维护、加强质量控制、需求驱动生产、优化库存、能源和材料成本得以降低、安全和环境性能得以改善。智能工厂既然能带来诸多益处,为何发展却受阻?需要怎么做?就预测达到量化价值,麦肯锡预测到2025年,物联网所引发的经济效益将达1.2至3.7万亿美元。美国制造商和智能制造商每年的成本将有望降低了570亿美元。但事实上,投资制造业周期比较长,流程和设备要达到数字化、网络化、智能化程度并非一朝一夕 发表于 2020-12-18 发展VR行业应从哪几个方面着手? 机器人、无人机、虚拟现实(VR)等行业在人工智能、5G等新技术推动下快速发展。其中,虚拟现实(VR)应用范围不断扩展,从游戏、教育等场景渗透到人们日常生活,将其推到了全新的发展阶段,迎来蓬勃增长态势,市场渗透率也持续提升。为了中国VR行业发展,去年各地政府出台相关政策支持。为其落地和市场成长提供了坚定支撑。目前,在全球范围内,中国已成为VR行业终端产品制造国,关键技术取得一定突破。工信部曾表示,中国VR行业市场规模持续扩大,预计到2021年,市场规模将增长至544.5亿元。面对如此庞大的市场,中国VR行业存在高端市场占比不足、科技创新体系建设不够完善、行业知名品牌培育滞后等问题,该如何打破当前困境?从哪四方面着手?一、集中硬件战场 发表于 2020-12-17 安森美半导体的系列汽车智能感知解决方案 近日,安森美半导体智能感知部全球市场和应用工程副总裁易继辉(Sammy Yi)在媒体交流会上分享了过去一年,安森美半导体在智能感知领域取得的进展及成就,以及安森美半导体全系列的智能感知解决方案。现在的智能感知技术在很多行业均有应用,尤其在汽车、机器视觉等方面都有颇多应用趋势。安森美半导体的智能感知部门主要分为三大方向:汽车、机器视觉、边缘人工智能。由于电力化和智能化,汽车智能感知领域发展迅速;机器视觉也因为工业4.0时代,再加上自动化、人工智能的导入,使这个行业有了新的动力、新的活力,成长速度也非常快。边缘人工智能是具有巨大潜力的新兴市场,主要是由人工智能、5G、IoT等新技术导入后开发出新的应用。● 安森美半导体在汽车感知 发表于 2020-12-16 安森美半导体的系列汽车智能感知解决方案 新一代车载AI芯片:感应到鸡皮疙瘩就帮关空调 人工智能到底能不能像人类一样智能呢?梅赛德斯-奔驰正在探索神经形态芯片如何使汽车能像人类一样思考,为汽车带来新的人工智能功能。英特尔公司和埃森哲公司(Accenture PLC)的研究人员表示,尝试模仿人类大脑工作方式的实验性计算机芯片可以加速汽车中语音和手势指令的使用。这种被称为神经形态计算的尖端技术,可以通过云端与汽车进行无线连接,比传统的计算机和图形处理单元耗能更低。如今的汽车还不具备识别许多语音和手势指令的人工智能能力,部分原因正是这些功能运转需要额外消耗大量能源。作为英特尔神经形态研究社区(INRC)成员之一,埃森哲实验室技术研究员蒂姆·谢依(Tim Shea)表示,汽车制造商正在认识到需要找出一种消耗更少能量的人工智能 发表于 2020-12-15 新一代车载AI芯片:感应到鸡皮疙瘩就帮关空调 人工智能企业格灵深瞳计划登陆科创板,已开启上市辅导 12月4日,据北京监管局网站显示,海通证券发布了关于北京格灵深瞳信息技术股份有限公司首次公开发行股票并在科创板上市之辅导基本情况表。据披露,海通证券和北京格灵深瞳信息技术股份有限公司(以下简称“格灵深瞳”)于2020年11月签署《北京格灵深瞳信息技术股份有限公司与海通证券股份有限公司首次公开发行股票并上市辅导协议》。资料显示,格灵深瞳是一家行业领先的人工智能科技公司,专注于把先进的人工智能、物联网和大数据技术转化为智能的产品和服务,针对客户不同的场景需求提供应用软件、智能传感器以及云服务等。目前,格灵深瞳的客户已经覆盖智慧金融、智慧城市、智慧商业等多个领域。 发表于 2020-12-05 人工智能企业格灵深瞳计划登陆科创板,已开启上市辅导 Xilinx CTO:自适应计算将延续摩尔定律的精神 本文作者:赛灵思(Xilinx)CTO Ivo Bolsens芯片架构的发展正在加速,因此采用正确的工具来完成正确的工作至关重要。世界变得越来越智能。从口袋里的智能手机到当今管理交通和运输系统的智慧城市,人工智能几乎遍及每个行业,并正在影响我们的日常生活。人工智能产生了大量非结构化数据,这些数据通常必须实时进行管理和处理。对硬件的需求猛增,越来越依赖芯片架构的创新来提供必要的性能改进以跟上步伐。摩尔定律的持续改进需要数千名工程师、数百家公司、数百亿的研发来实现,人工智能芯片同样如此,这不是一个适合所有应用的单一规格,也不会是一个公司或芯片架构占主导的市场。那么,您的硬件如何适应AI处理的不断增长的需求?答案是域特定体系结构(DSA 发表于 2020-12-04 Xilinx CTO:自适应计算将延续摩尔定律的精神 热门资源推荐 更多  rar文件300多个原创人工智能完整设计(文档,电路,代码)  pdf文件人工智能行业研究报告(附346家关联企业介绍)-参照系  pdf文件人工智能基础(高教版)  doc文件企业为人工智能在数据中心的广泛应用做好准备了吗  现代通信技术 第4版 开关电源各部电路详解 从实践中学嵌入式Linux c编程 电子管放大器(第4版)
免责声明:非本网注明原创的信息,皆为程序自动获取自互联网,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责;如此页面有侵犯到您的权益,请给站长发送邮件,并提供相关证明(版权证明、身份证正反面、侵权链接),站长将在收到邮件24小时内删除。

相关阅读