AI文本分析基础知识

8月 23

文本分析是指：

从文本中抽取特征词进行量化以表示文本信息。

文本一般指文字。

它是自然语言处理的一个小分支，自然语言处理还包括语音识别（常见的）等。

目的：

先决条件：将无结构化的原始文本转化为结构化的，计算机可以识别和处理的信息。

优势特点：从而可以利用机器学习，分类聚类等算法，对文本进行分析处理。

关键环节：对文本进行抽象，建立数学模型，用来描述和代替文本。

应用场景：处理后的文本就是高度抽象和特征化的，可以实现广告推荐，舆情监测等。

关键技术：

1、用向量空间模型描述文本。将非结构化文本转化为结构化。

为什么不用词频统计和分词算法，是因为这两种方法得到的特征向量维度非常大，后期矢量处理开销非常大，不利于后期分类、聚类。

主流方法是用特征词来表示文本，特征词必须满足：能识别文本内容、去区分其它文本、个数不能太多、容易实现。

特征词选取后，必须有相应的权值表示不同的影响，最好对其进行排序。

2、特征词选取的四种方式：

用映射或者转换的方法将原始特征变为较少特征。

在原始特征中挑选出具有代表性的特征。

根据专家挑选最优影响力的特征。

利用数学模型，找出最具分类型的特征。这种方式最客观，最精确。

文本分类的基本步骤：

1、获取训练文档集合。训练文档的好坏对分了结果至关重要。一般是公认的，经过人工分类的库。

2、建立文档表示模型。目前分类方法主要用词语（相对于字、短语）来表征文档。具体可能是关键词、主题词。

3、文档特征选择。在所有文档特征向量中，选取最优子集表示文档，减少特征向量计算量。

4、选择分类器。KNN，SVM是文本分类中常用的分类模型。当然，也可以选择bayes、回归模型等。

5、性能评估，参数调优。根据分类效果，调整参数，使分类效果更好。

博客水木