EMBA

EMBA

网聚EMBA的力量
切换项目
登录后,EMBAhope更懂你,内容更有趣
发布头条
分享独家资讯
发布问答
有问题就有答案

武汉大学MBA |《基于NLP自然语义处理的机器学习算法》研讨会论坛成功举办

+关注
本次论坛由武汉大学2020级MEM商业/金融数据分析工程管理专业研究生尹俊主讲。

基于NLP自然语义处理的机器学习算法

近日,武汉大学经济与管理学院珞珈论语《基于NLP自然语义处理的机器学习算法》研讨会在线上成功举办。

本次论坛由武汉大学2020级MEM商业/金融数据分析工程管理专业研究生尹俊主讲,来自武汉大学2020级MEM商业/金融数据分析工程管理专业部分研究生参加了研讨会。

论坛讲了四个部分:

NLP是什么

NLP(Natural Language Processing)是人工智能(Al)的一个子领域。机器,人,动物都有自己的沟通语言,不同的语言之间无法直接沟通。

不同人类语⾔之间可以通过翻译互相理解,⼈类和机器之间也可以通过“翻译”的方式来直接交流。NLP 就是⼈类和机器之间沟通的桥梁。

人类的语言,文章文本是非结构化数据,NLP是通过算法处理让机器能够理解和处理非结构化的人类语言和文字文章。

NLP处理的过程和算法介绍

2.1、文本预处理

文本分类的处理大致分为文本预处理、文本特征提取、分类模型构建等。

英文文本预处理:英文文本的分词处理相对简单,语义单元可以是单词,谚语,短语。

中文文本预处理:中文文本分词,文本切分成构成文本的基本语义单元:可以是句子、成语、短语、词语或单个的字。

分词方法:基于词典的中文分词,基于统计的中文分词方法,基于理解的分词方法:基于理解的分词。

2.2、去除停用词

停用词包括一些连接词、副词、形容词。去除这些词可以改善机器学习效果:(在英文中例如: “for”、“with”、 “as”、“to” 、“the”、“of”等,在中文中例如:“的”、“得”、“啊”、“了”、“哦”、“因此”等)。

2.3、文本特征提取

1、词袋模型(BOW):

思想:用无序的单词序列来表达一段文字或者一个文档,按照词语出现的次数来表示文档。

问题:(1)维度太大,语料库太大,导致计算困难。(2)仅考虑词语出现的次数,语义信息未考虑

2、TF-IDF文本特征提取

TF-IDF 由两部分组成:TF(Term frequency,词频),IDF(Inverse document frequency,逆文档频率)两部分组成,TF 是词频,每一个文档中出现的词语的次数越多词语的重要性更大。IDF是体现词语在文档间的重要性即如果某个词语出现在极少数的文档中,说明该词语对于文档的区别性强,对应的特征值高,IDF值高。

3、特征选择和分类器

NLP任务非常重要的一步就是特征提取(降维)。常用的word2vec主要是CBOW和skip-gram两种模型。word2vec通过训练大量的语料最终用定维度的向量来表示每个词语,词语之间语义和语法相似度都可以通过向量的相似度来表示。

● 基于特征工程 + 分类算法 :

机器学习算法中能用来分类的模型常见的有:聚类算法(kmeans,optics,DBSCAN),随机森林模型(RF),朴素贝叶斯分类器(Naive Bayes),SVM分类模型,KNN分类模型模型,Logistic regression (逻辑回归),梯度提升决策树(GBDT)等。

● 基于词向量 + 神经网络:

词向量技术是将自然语言中的词转化为稠密的向量,语义相似的词会有相似的向量表示。生成词向量的方法从一开始基于统计学到基于神经网络的语言模型,比较经典的语言模型:word2vec、FastText、TextCNN、TextRNN、RCNN、HAN、Bert(Google发表的BERT模型,目前为止,在NLP大赛中有最好表现)。

NLP的4个典型应用

舆情分析

舆情行业是个新兴行业,近年来发展特别迅猛,各级机构,企事业单位,KOL个人都非常关注网络舆情。互联网上有大量的文本信息,评论数据。通过NLP机器学习算法进行分析,可以快速了解和预测网络舆论走向。电商网站评价的情感分析也是舆情分析的一个方向,对于指导产品更新迭代具有关键性作用。

语⾳指令

目前计算机已经可以理解人的简单语音指令。比如汽车里面的语音导航,百度智能音响指令。机器识别人的复杂语音指令,通过人的语音识别人的情绪,识别人的讽刺反话语义将成为可能。未来语音搜索将应用更加广泛。

机器人客服

人的意图被识别以后,自然的对话就可以借此实现了。人类意图识别本质上也是一个分类问题,意图识别工作最大的难点其实是在于标注数据的获取。目前标注数据的获取主要是专门的数据标注团队对数据进行标注,未来通过半监督的方式自动生成标注数据的方式将越来越多。机器人客服上线之后有很多人用,得到了有很多人的反馈,在与客户互动中,不断学习并更新迭代。

机器翻译

目前Google 翻译基本比较准确了。虽然在专业技术论文翻译,高端商务活动方面机器翻译暂无法完全准确,但是可以作为非常给力的辅助。随着技术的发展,机器翻译的应用也将更加广阔。

NLP可以应用在各行各业

只要有文本的地方,就有NLP技术的用武之地。当前社会以文本形式积累了海量数据,使得NLP不仅仅是一种计算机技术,而是一个可以融合应用在全部社会科学和自然科学领域的技术。

金融领域:上市公司财报,金融新闻,股吧的评论数据的提取和分析。

工商领域:利用工商总局公开信息,数据提取和分析相关公司信息。

法律领域:裁判文书网上海量的裁判文书的读取和分析。

数字健康领域:病例数据,体检数据的读取和分析。

制药行业:从海量研究文档中提取信息,以查证过去的实验结果。

NLP自然语义处理是⼈工智能领域皇冠上的明珠。NLP也是人工智能未来应用最为广泛的领域之一。NLP自然语言处理未来将应用在社会生活中的方方面面,提高社会生产和协作效率,造福我们的生活。

《珞珈论语》理事会招募会员+志愿者15名,有意向同学可以联系,理事会会长尹俊的邮箱:yinjun20@whu.edu.cn

微信号:kyan2588(点击一键复制)
加微信好友,免费领取2022联考答案精准估分
推荐资料
答案已出!2022届管理类联考写作真题参考答案,快速估分尽快准备复试!
1.51M 下载 3289
快速估分,2022届管理类联考数学真题参考,快来对答案吧!
2.06M 下载 3145
2023届MBA提前面试一般四五月就会开始,MBA提面的申请资料要提前准备好。
730.84KB 下载 3037
新鲜出炉!2022届管理类联考写作真题解析,帮助你快速精准估分!
904.16KB 下载 2654
2023届MBA考研大战已打响,做好提前面试准备明年顺利上岸!
2.98M 下载 2639
答案来了!2022届管理类联考逻辑真题参考答案,免费快速精准估分!
2.57M 下载 2590
2023届管理类联考早已打响,专硕君在这里为所有MBA人送上一份高效的学习方法。
0.00KB 下载 2002
全真命题,高频考点要点全包括,非常适合最后阶段自我评估与提升!
1.11M 下载 1644

推荐阅读

猜你喜欢

© 2021-2023 EMBAhope 粤ICP备19104725号

广播电视节目制作经营许可证:(粤)字第04902号