文本分类技术是在将诸如微博、邮件、新闻等半结构化的文本数据转化为数值或标签型的结构化数据之后,利用分类算法对未知的文本进行分类处理,当前常用的分类算法有贝叶斯(Bayes)算法、随机森林(RF)、支持向量机(SVM)算法、神经网络(NNs)等。文本分类与常规的数据分类的不同点主要在于文本结构化后的数据特征维度非常高,因此,在文本分类过程中需要选择重要特征维度进行特征降维。文档频率、互信息以及信息增益是应用较多几种的特征选择方法。在特征降维后,一般还会计算每个特征的权重,其计算的结果将对文本最终分类的评估效果产生较大的影响,本文将使用词频-逆文档频率(TF-IDF)计算特征权重。文本分类的主要过程包括:文本分词、文本表示、特征词选择和文本自动分类。其中,文本分词属于数据的预处理过程,文本表示是数据的转化过程,特征词选择属于特征工程,文本自动分类则是数据的训练和预测。
文本分词:利用分词算法把文本数据分割为孤立的字、词语或短语。但是,在当前常用的社交媒体如微博、博客、微信等软件的使用过程中,会出现一些之前没有的新词,如“内卷”、“躺平”等新词在一些社交软件和媒体新闻中出现后被大量的使用。这些新词的出现会降低将文本分割为词语的准确性,需要将新词加入初始的分词词典中,提升分词的准确性。当前最常用的分词方法是结巴分词技术,其提供了3种分词模式,如精确模式是将文本语句按最精确的方式分割,适用于文本分析;全模式会生成较多的无效词组;搜索引擎模式的分词较为复杂且速度较慢。因此目前最常用的是精确模式进行分词。
特征词选择:在进行文本分词时,会产生大量的词语,当文档数较多时,分词后的词语量将会成倍增加,若将每个分词的词语作为一个特征,则会产生上千甚至上万个特征,这使得计算量很大,进而可能导致计算资源不足问题。因此,需要对分词后的词语特征进行降维,一般特征降维有两个过程,首先是进行同义(近义)词合并,即通过构建同义(近义)词词库将意思相近的词进行合并,如枯树和败叶、雄伟和壮观,创造和发明,惦记和想念等;然后是对合并后的词语进行筛选,从词语特征中选取能够反映出文本绝大部分信息内容的部分词语特征,达到降维的目的。
文本表示:利用文本表示方法将文本从非结构化数据转化为结果化数据的过程,当前主流的文本表示算法包括:向量空间模型(VSM)、布尔模型和概率模型。文本分类结果很大程度上依赖于文本数据转换的过程,VSM模型实现较为简单且效率较高,因此,VSM模型一般是文本半结构化数据转化为数值型结构化数据的首选方法。VSM模型中有三个重要过程。首先,通过特征工程技术筛选出能够包含文本绝大部分信息内容的词语,该过程为提取特征项(Term);然后,使用特征权重计算方法计算每个特征的权值,该过程为获取特征项权重(Weight),最后,在得到特征项权值后,将特征项和特征权值以数值化的形式表示文本特征向量。