咨询热线

400-007-6266

010-86223221

2017年中国NLP 行业技术发展及应用领域分析(图)

         一、语言认知技术不断演进,深度学习成推动 NLP 发展新引擎 

         语言技术是 AI 的核心部分,并将在很大程度上同知识技术相结合。语言是知识的钥匙,而知识正是 AI 的终极目标。人工智能必须能同时进行“阅读”和“聆听”才能获取到,其关键技术正是 NLP;NLP 还是实现人与 AI 之间成功沟通的技术关键。1954 年,IBM 公司不美国乔治敦大学合作机器翻译系统,成功地将超过 60 句的俄语自动翻译成英语,拉开了自然语言处理技术研究的序幕。广义来看,NLP 包含了语音处理;狭义来看,NLP 仅指处理及理解文本。NLP 技术大体可以分为自然语言理解(NLU)和自然语言生成(NLG)两部分。 
   
 
图:1954 年-2016 年语言技术发展史


图:NLP 技术简单分类

         目前业界主要通过两种思路来进行自然语言处理,一种是基于规则的理性主义,一种是基于统计的经验主义。理性主义方法通过描述人类语言规则表示来处理自然语言处理业务,而经验主义方法通过从语言数据中获取语言统计知识,有效建立语言的统计模型。二十世纪八十年代以来的趋势就是统计学习方法越来越受到重规,大规模语言数据处理成为主要研究目标,自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识,深度神经网络的兴起进一步驱动自然语言处理技术快速发展。 
   

图:2012  年-2017 年各类 NLP 会议上深度学习相关论文趋势
 

图:传统 NLP 技术和深度学习 NLP 技术的流程区别

         自然语言有规律性不明确、可以组合、是开放的集合、需要联系到实践知识、使用要基于环境的特性。在深度学习之前,经典的数据挖掘算法在自然语言处理方面有着许多相当成功的应用,比如垃圾邮件过滤、词性标注等,但仍存在难以把握语言绅节、基于总体摘要的算法(如词袋模型)在提取文本数据的序列性质时效果不佳;N 元模型(n-grams)在模拟广义情境时产生“维度灾难”等问题难以克服。 

         深度学习模型有效降低了语言模型输入特征的维度,降低了输入层的复杂性;具有其他浅层模型不能比拟的灵活性,同时复杂的模型能够对数据进行更精准的建模,增强实验效果。NLP 技术涵盖的分词、词性、语法解析、信息抽取等基础模块,到自然语言生成、机器翻译、对话管理、知识问答等高层领域,几乎都可以应用以 CNN、RNN 为代表的深度学习模型,效果明显。微软的语音对话研究小组在 Switchboard 语音识别业务中将错误率进一步降低,从去年的 5.9% 降低到 5.1%;谷歌已经发布八个语言对的神经翻译系统,将旧的翻译系统和人工翻译之间的质量差距大大缩小,带来了明显的改善。 

         参考观研天下发布《2017-2022年中国语言服务市场竞争调研及未来前景分析报告


图:深度学习提升语音识别能力
 

图:深度学习提升机器翻译能力

         二、智能语音市场处于爆发前期,深层次认知是 NLP 突破方向 

         (一)语音识别性能快速提升,智能语音市场处于爆发前期

         语音识别的性能在近几年得到了快速提高,深度学习、高性能计算和大数据的迅速发展,尤其是卷积神经网络(CNN)、循环神经网络(RNNs)以及使用连接时序分类(CTC)Loss(由百度支持) 等端到端神经体系结构的应用,大大提升了语音识别技术的水平和准确性,并减少了模型讦练的时间,使得智能语音的商业化落地成为可能。从 Gartner 在今年 7 月仹发布的人工智能技术成熟的曲线图来看,随着 IBM、微软、谷歌、亚马逊和百度这样的科技巨头在智能语音方面不断取得进展,语音识别技术将在 2 年内达到成熟期。随着基于语音交于的垂直场景如智能车载,智能家居,智能可穿戴等日益成熟,智能语音市场有望率先过来爆发。 


图:2017 年人工智能技术成熟度曲线
 

图:2017 年人工智能优先矩阵图

         (二)深层次认知将是 NLP 突破方向,三大领域应用值得关注
 
         今年 6 月,Yann LeCun 对阵 Yoav Goldberg 关二 NLP 的争论在业界引发很大反响,我们从中可以看到深度学习在 NLP 的应用带来的提升以及深度学习的不足。当前的深度学习方法已经改善并实现了 NLP 技术的很多应用,但还不足以完全解决 NLP 领域的核心问题。自然语言处理,在一定程度上需要考虑技术上界和性能下界的关系。现在的深度学习 NLP 本质是用数据驱动的方法去模拟人,通过人工智能闭环去逼近人的语言使用能力。 

         人工智能的发展是从感知智能到认知智能,现有的 NLP 已经实现初步的认知,进一步的深层次认知将是 NLP 技术的突破方向,包括语言知识的从人工构建到自动构建;对话机器人的从通用到场景化;文本理解与推理的从浅层分析向深度理解迈进;文本情感分析的从亊实性文本到情感文本;社会媒体处理的从传统媒体到社交媒体;文本生成的从规范文本到自由文本等,不断提升认知能力推动 NLP 不行业领域深度结合,创造价值。 

         我们认为其中知识图谱、情感分析、意图分析三大领域应用值得关注。首先深度学习的弊端在于让一切处于神经网络的黑盒之中,缺少了必要的直观性和鲁棒性。将人类先验知识融入深度学习可以提高框架的可解释性和鲁棒性,将是 NLP 未来发展的重要方向。在聊天机器人、QA、语义搜索、知识推理、语义理解等应用领域都需要 NLP 不知识图谱的融合;情感分析(SA)是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,目的是对文本进行褒义、贬义、中性的判断,在商业和政府舆情上将有很好地应用;在对话应用中,机器在应答层存在一种 “多轮对话”,在有些时候,用户需要不机器进行多次对话后,才能将意图表达完整,目前单轮对话越来越好,但是多轮对话需要进一步去研究和解决,多轮对话的基础就是实现词汇模型并行的记忆和推理,准确理解用户的意图。 

资料来源:观研天下整理,转载请注明出处(ZQ)

更多好文每日分享,欢迎关注公众号

【版权提示】观研报告网倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本网站的内容。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至kf@chinabaogao.com,我们将及时沟通与处理。

我国算力行业现状及前景分析:供需匹配度提升空间大 大数据市场价值有待挖掘

我国算力行业现状及前景分析:供需匹配度提升空间大 大数据市场价值有待挖掘

从区域市场来看,受我国数据中心建设投资的影响,我国算力行业区域市场主要集中在华东、华南和华北地区。2024年上半年我国算力行业区域市场规模分布华东地区占比37.63%,华中占比9.18%,华南占比16.81%,华北地区占比18.53%,东北地区占比2.56%,西南地区占比11.67%,西北地区占比3.62%。

2024年11月04日
小游戏异军突起成为手游细分新贵 蓝海市场下行业尚未出现垄断性龙头公司

小游戏异军突起成为手游细分新贵 蓝海市场下行业尚未出现垄断性龙头公司

国内小游戏平台最大的当属微信小程序游戏平台。微信小游戏平台诞生于2017年的《跳一跳》,并在2018年开放接入,目前已有接近40万开发者,2023年小游戏规模同比增长超50%,超100个团队季度流水超千万元。

2024年09月13日
我国智算中心建设加速 目前市场正面临应用多元化、供需不平衡挑战

我国智算中心建设加速 目前市场正面临应用多元化、供需不平衡挑战

目前政府、运营商、互联网企业等积极布局智算中心,中国移动正在规划建设亚洲最大的智算中心。各级政府、运营商、互联网企业也纷纷开启智算中心建设计划,目前已有超过40座城市布局智算中心。在行业下游需求驱动和政策持续引领下,智算中心行业市场规模持续扩大,2023年达到1466亿元。

2024年08月09日
新兴技术带来新增长点 技术创新成我国互联网软件开发行业发展核心驱动力

新兴技术带来新增长点 技术创新成我国互联网软件开发行业发展核心驱动力

随着云计算、人工智能、物联网等技术的不断发展,软件开发行业将面临更多的市场机遇,推动互联网软件开发行业市场规模不断扩大。截至2023年,我国互联网软件开发行业市场规模已经达到27805亿元,并且仍在不断增长。

2024年06月27日
我国光存储行业:产品优势逐步凸显 市场需求日益旺盛

我国光存储行业:产品优势逐步凸显 市场需求日益旺盛

根据《中国存力白皮书(2023年)》的统计数据,2022年我国的存储总规模继续增长,增速达到25%,总规模已经达到1000EB。2023年发布的《算力基础设施高质量发展行动计划》,也对存力规划给出目标,至2025年存储总量需超过1800EB, 其中先进存储容量占比超过30%,重点行业核心数据、重要数据灾备覆盖率达到10

2024年05月14日
我国数据标注行业:下游持续扩张带来可观发展前景 未来市场有望快速增长

我国数据标注行业:下游持续扩张带来可观发展前景 未来市场有望快速增长

近年来数据标注行业发展迅速,行业内涌现了大批量的中小企业,据统计截止2023年数据标准行业相关企业数达到1123家,呈现出井喷的趋势。未来,在大数据产业的不断发展下,预计数据标注相关企业数量将呈现不断增长趋势。

2024年03月08日
微信客服
微信客服二维码
微信扫码咨询客服
QQ客服
电话客服

咨询热线

400-007-6266
010-86223221
返回顶部