首页 欧洲联赛正文

智联招聘官方网,NLP自然语言处理学习道路总结,张国荣图片

1、自然言语处理概述

自然言语处理(Natural Language Processing,NLP)是核算机科学范畴与人工智能范畴中的一个重要方向。它研讨人与核算机之间用自然言语进行有用通讯的理论和办法。融言语学、核算机科学、数学等于一体的科学。旨在从文本数据中提取信息。意图是让核算机处理或“了解”自然言语,以履行主动翻译、文本分类和情感剖析等。自然言语处理是人工智能中最为困难的问题之一。

2、自然言语处理入门根底

2.1 数学根底

(1)线性代数

向量、 矩阵、间隔核算(余弦间隔、欧式间隔、曼哈顿间隔、明可夫斯基间隔、切比雪夫间隔、杰卡德间隔、汉明间隔、标准欧式间隔、皮尔逊相联系数)。

(2)概率论

随机实验、条件概率、全概率、贝叶斯定理、信息论。

(3)核算学

  • 图形可视化(饼图、条形图、热力求、折线图、箱线图、散点图、雷达图、仪表盘)
  • 数据衡量标准(平均数、中位数、众数、希望、方差、标准差)
  • 概率散布(几许散布、二项散布、正态散布、泊松散布)
  • 核算假定检验

2.2 言语学根底

语音、词汇、语法

2.3 Python根底

Python从入门到实践系列书本、廖雪峰教程

2.4 机器学习根底

核算学习办法、机器学习周志华、机器学习实战

2.5 深度学习根底

CNN、RNN、LSTM

2.6 自然言语处理的理论根底

统西兰空气新鲜剂计自然言语处理(宗成庆第二版)、Python自然言语处理、数学之美(第二版)

3、智联招聘官方网,NLP自然言语处理学习路途总结,张国荣图片自然言语处理的首要技能范畴

3.1 语义文本类似度剖析

语义文本类似度剖析是对两段文本的含义和实质之间的类似度进行剖析的进程

3.2 信息检索(Information Retrieval, IR)

信息检索是指将信息按必定的办法加以安排,并通过信息查找满意用户的信息需求的进程和技能。

3.3 信息抽取(Information Extraction)

信息抽取是指从非结构化/半结构化文betroth本(如网页、新闻、 论文文献、微博等)中提取指定类型的信息(如实体、特点、联系、事情、产品记载等),并通过信息归并、冗余消除和冲突消解等手法将非结构化文本转换为结构化信息的一项归纳技能。

3.4 文本分类(Text Categorization)

文本分类的使命是依据给定文档的内容或主题,主动分配预先界说的类别标签。

3.5 文本发掘(Text Mining)

文本发掘是信息发掘的一个研讨分支,用于根据文本信息的常识发现。文本发掘的准备工作由文本搜集、文本剖析和特征修剪三个进程组成。现在研讨和运用最多的几种文本发掘技能有:文档聚类、文档分类和摘要抽取。

3.6 文本情感剖析(Textual Affective Analysis)

情感剖析是一种广泛的片面剖析,它运用自然言语处理技能来辨认客户谈论的语义情感,语句表达的心情正负面以及通过语音剖析或书面文字判别其表达的情感等。

3.7 问答体系(Question Answering, QA)

主动问答是指运用核算机主动答复用户所提出的问题以满意用户常识需求的使命。不同于现有搜索引擎,问答体系是信息服务的一种高档方式,体系回来用户的不再是根据关键词匹配排序的文档列表,而是精准的自然言语答案。

3.8 机器翻译(Machine Translation,MT)

机器翻译是指运用计智联招聘官方网,NLP自然言语处理学习路途总结,张国荣图片算机完结从一种自然言语到其他一种自然言语的主动翻译。被翻译的言语称为源言语(source language),翻译到的言语称作方针言语(target language)。

机器翻译研讨的方针便是树立有用的主动翻译办法、模型和体系,打破言语壁垒,终究完结恣意时刻、恣意地址和恣意言语的主动翻译,完结人们无障碍自在沟通的愿望。

3.9 主动摘要(Automatic Summarizatmncc33ion)

主动文摘(又称主动文档摘要)是指通过主动剖析给定的一篇文档或多篇文档,提炼、总结其间的关键信息,终究输出一篇长度较短、可读性杰出的摘要(一般包含几句话或数百字),该摘要中的语句可直接出自原文,也可从头编撰所得。

3.10亚空瘴气 语音辨认(Speech Recognition)

言语辨认指的是将不石原奈莉同言语的文本区别出来。其运用言语的核算和语法特点来履行此使命。言语辨认也能够被认为是文本分类的特殊情况。智联招聘官方网,NLP自然言语处理学习路途总结,张国荣图片


4、自然言语处理基本点

4.1 语料库(Corpus)

语料库中寄存的是在言语的实际运用中实在呈现过的言语材料;语料库是以电子核算机为载体承载言语知全彩本识的根底资源;实在语料需求通过加工(剖析和处理),才干成为有用的资源。

4.2 中文分词(Chinese Word egmentation)

(1)中文分词指的是将一个汉字序列切分红一个一个独自的词。分词便是将接连的字序列依照必定的标准从头组合成词序列的进程。

(2)现有的分词办法可分为三大类:根据字符串匹配的分词办法、根据了解的分词办法和根据核算的分词办法。

(3)比较盛行的中文分词东西:jieba、StanfordNLP、HanLP、SnowNLP、THUL请叫我中路杀神AC、NLPIR

4.3 词性标示(Part-of-speech tagging)

(1)词性标示是指为给定语句中的每个词赋予正确的词法符号,给定一个切好词的语句,词性标示的意图是为每一个词赋予一个类别,这个类别称为词性符号(part-of-speech tag),比方,名词(noun)、动词(verb)、形容词(adjective)等。

(2)词性标示是一个十分典型的序列标示问题。开始选用的办法是隐马尔科夫生成式模型梁梓靖, 然后是判别式的最大熵模型、支撑向量机模型,现在学术界一般选用的结构是感知器模型和条件随机场模型。近年来,跟着深度学习技能的开展,研讨者们也提出了许多有用的无线电秘戏图根据深层神经网络的词性标示办法。

4.4 句法剖析(Parsing)

(1)根据规矩的句法结构剖析

(2)根据核算的语法结构剖析

4.5 词干提取(Stemming)

词干提取是将词语去除改变或衍生方式,转换为词干或原型方式的进程。词干提取的方针是将相关词语复原为相同的词干。

4.6 词形复原(Lemmatization)

词形复原是将一组词语复原为词源或词典的词目方式的进程。

4.7 停用词过滤

停用词过滤是指在文本中频频呈现且对文本信息的内容或分类类别奉献不大乃至无奉献的词语,如常见的介词、冠词、助词、神态动词、代词以及连词等。

4.8 词向量化(Word Vec柯震亚tor)

词向量化是用一组实数构成的向量代表自然言语的叫法。这种技能十分有用,由于电左忠良脑无法处理自然言语。词向量化能够捕捉到自然言语和实数间的实质联系。通过词向量化,一个词语或许一段短语能够用一个定维的向量表明。(word2vec)

from gensim.models import Word2Vec山竺民宿

4.9 命名实体消歧(Named Entity Disambiguation)

命名实体消岐是对语句中的说到的实体辨认的进程。

例如,对语句“Apple earned a revenue of 20雨农谈股0 Billion USD in 2016”,命名实体消岐会推断出语句中的Apple是苹果公司而不是指一种生果。一般来说毛区健丽,命名实体要求有一个实体常识库,能够将语句中说到的实体和常识库联系起来。

4.10 命名实体辨认(named entity recognition)

命名实体辨认是辨认一个语句中有特定含义的实体并将其区别为人名,组织名,日期,地名,时刻等类其他使命。

三种干流算法:CRF,字典法和混合办法

5、特征处理

5.1 特征提取(Feature Extraction)

特征提取是指将机器学习算法不能辨认的原始数据转化为算法能够辨认的特征的进程。

举例(文本分类特征提取进程):

(1)对练习数据集的每篇文章,咱们进行词语的核算,以构成一个词典向量。词典向量里包含了练习数据里的一切词语(假定停用词已去除),且每个词语代表词典向量中的一个元素。

(2)在通过第一步的处沉着联招聘官方网,NLP自然言语处理学习路途总结,张国荣图片后,每篇文章都能够用词典向量来表明。这样一来,每篇文章都能够被看作是元素相同且长度相同的向量,不同的文章具有不同的向量值。这也便是表明文本的词袋模型(bag of words)。

(3)针关于特定的文章,怎么给表明它的向量的每一个元素赋值呢?最简略直接的办法便是0-1法了。简略来说,关于每一篇文章,咱们扫描它的词语调集,假如某一个词语呈现在了词典中,那么该词语在词典向量中对应的元素置为1,否则为0。

5.2 特征挑选( Feature Selection)

当数据预处理完结后,咱们需求挑选有含义的特征输入机器学习的算法和模型进行练习。特征挑选是指去掉无关特征,保存相关特征的进程,也能够认为是从一切的特征中挑选一个最好的特征子集。特征挑选实质上能够认为是降维的进程。

from sklearn.feature_extraction.text import TfidfVectorizer

5.3 降维(Dimension Reduction)

6、模型挑选

6.1 马尔可夫模型、隐马尔可夫模型、层次化隐马尔可夫模型、马尔可夫网络

(1)运用:词类标示、语音辨认、部分句法剖析、语块剖析、命名实体辨认、信息抽取等。运用于自然科学、工程技能、生物科技、公用事业、信道编码等多个范畴。

(2)马尔可夫链:在随机进程中,每个言语符号的呈现概率不彼此独立,每个随机实验的当时状况依赖于此前状况,这种链便是马尔可夫链。

(3)多元马尔科夫链:考虑前一个言语符号对后一个言语符号呈现概率的影响,这样得出的言语成分的链叫做一重马尔可夫链,也是二元语法。二重马尔可夫链,也是三元语法,三重马尔可夫链,也是四元语法。

6.2 条件随机场(CRF)

(1)条件随机场用于序列标示,中文分词、中文人名辨认和歧义消解等自然言语处理中,表现出很好的作用。原理是:对给定的调查序列和标示序列,树立条件概率模型。条件随机场可用于不同猜测问题,其学习办法一般是极大似然估量。

(2)条件随机场模型也需求处理三个基本问题:特征的挑选、参数练习和解码。

6.3 贝叶斯网络

贝叶斯网络又称为信度网络或信仰网络(belief networks),是一种根据概率推理的数学模型,其理论根底是贝叶斯公式。

6.4 最钱伟红大熵模型

7、NLP常用东西

1). Anaconda

Anaconda是一个用于科学核算的Python开发渠道,支撑 Linux,Mac和W智联招聘官方网,NLP自然言语处理学习路途总结,张国荣图片indows体系,供给了包办理与环智联招聘官方网,NLP自然言语处理学习路途总结,张国荣图片境办理的功用,能够很方便地处理多版别Python并存、切换以及各种第三方包装置问题。Anaconda运用conda指令来进行package和environment的办理,而且现已包含了Python和相关的配套东西。Anaconda集成了许多的机器学习库以及数据处理必不可少的第三方库,比方NumPy,SciPy,Scikit-Learn以及TensorFlow等。

2). Scikit-learn

Scikit-learn是广受欢迎的入门级机器学习库幼儿片,包含许多的机器学习算法和特征提取完结,运用十分简洁。Scikit-learn完结的是浅层学习算法,神经网络仅完结了多层感知机。

3). TensorFlow

TensorFlow是谷歌根据DistBelief进行研制的第二代人工智能学习体系,可被用于语音辨认或图像辨认等多项机器学强行习和深度学习范畴。

4). Keras

Keras是一个高档其他Python神经网络结构,能在TensorFlow或许 智联招聘官方网,NLP自然言语处理学习路途总结,张国荣图片Theano 上运转。Keras的作者、谷歌AI研讨员Francois Chollet宣告了一条激动人心的音讯,Keras将会成为第一个被添加到TensorFlow核心中的高档别结构,这将会让Keras变成Tensorflow的默许API。

5). Gensim

Gensim是一款开源的第三方Python东西包,用于从原始的非结构化的文艺术人生导演溺水本中,无监督地学习到文本隐层的主题向量表达。它支撑包含TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支撑流式练习,并供给了比如类似度核算,信息检索等一些常用使命的API接口。

6). NLTK

在NLP范畴中,NLTK是最常运用的一个Python库。

7). Jieba

Jieba,结巴分词是最受欢迎的中文分词东西。

8、NLP言语模型

  • 词的独热表明(one-hot representation)
  • Bag of Words
  • Bi-gram 和 N-gram
  • 词的散布式表明(distributed representation)
  • 共现矩阵(Cocurrence martrix)
  • 神经网络言语模型(Neural Networ Language model,NNLM)
  • word2vec
  • 接连词袋模型(Continuous Bag of Words,CBOW)
  • Skip-Gram模型

9、快速入门NLP办法

(1)仔细看完一本NLP相关的书,坚持看完一部视频。

(2)看这两年相关方向的总述论文,然后看一些经典的论文和最新论文。

(3)独立完结一个小型的自然言语处理项目。

(4)能够在Github上找挂机屋阿淡到许多相关的开源代码,选一个自己感兴趣的方向进行研讨。

10、共享一些材料,看下图,重视头条号私信回复“材料”可下载

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。