数据爆炸时代，文本挖掘技术如何洞察情感？ULMFiT引领潮流！

文章主题：关键词：数据挖掘, 情感分析, ULMFiT

Universal Language Model Fine-tuning for Text Classification

Introduction

🚀随着科技革新，数据洪流如潮般激增，各领域信息丰富，数据挖掘的重要性日益凸显于数字化时代。特别是在股市预测与安全事件监控等关键领域，大数据的智慧展现颠覆传统观点：从专家智库到主流媒体，皆坚信希拉里总统胜选，然而AI通过Twitter、Facebook等平台揭示特朗普获胜的可能性，这一实例充分证明了数据挖掘技术的威力。同样，在电商平台上，用户意见的深度挖掘和倾向性分析也离不开文本数据的智慧解析。自2000年起，文本数据挖掘，这个融合自然语言处理与数据挖掘的热门交叉学科，以迅猛的步伐发展，情感分析（Sentiment Analysis）作为核心议题，引领着该领域的前沿探索。

Sentiment analysis本质上可以看做回归问题（1-10，数字的大小表示情感的强烈程度）或分类问题（二分类：positive or negative，多分类：positive、negative and neural），早期则是以模式识别中的SVM、最大熵、朴素贝叶斯等模型为主。近年来深度学习技术的强势崛起，以Embedding技术与RNN网络最早被用于至NLP的各类问题中，然而其并不能很好的解决long-term dependencies的问题，故又发展出了长短时记忆神经网络LSTM，其在RNN的基础上引入了“门”的概念，通过“三门”控制信息的输入、输出与丢失。然而LSTM过于复杂，因此又有学者将LSTM中的输入门与遗忘门合并为更新门以简化网络结构减少参数同时保证结果的精度。然而当句子长度过长时（超过30个词）LSTM的性能也会急剧下降，因此以Encoder-Decoder为框架（解决网络输入输出长度不一需对齐的问题，如机器翻译任务）的attention mechanism应运而生，其本质上是对各个输出结果与输入序列进行加权求和，以动态调整中间编码向量 $C$ C 获得注意力，该方法有效解决了长时依赖的问题。上述模型的个时刻的输出均需要依赖上一时刻的state，因此计算速度较慢且不易并行，故Google又提出了Transform，Transform本质上是一种编码器，其输出不需依赖上一时刻的state，可以很好的并行。此外其通过self-attention编码序列各个部分的依赖关系的操作，又可以看做为句法结构分析，因此该方法在性能上获得了较大的提升。2017年到21018年ELMo、GPT以及Bert模型先后被提出，融入了大量外部信息的pre-train方法被成功应用至NLP的各个任务中（Embedding技术可以看做shallow的pre-training，而在CV领域以ImageNet为基础的预训练方法在各个任务如classification、object detection和semantic segmentation中早已取得了巨大的成功。对于NLP，pre-training为何现在才出现的原因主要有两点解释，即缺乏大量、丰富且质量较高的语料以及NLP个任务差别较大）。详细介绍可以参考我的这篇笔记

PoderLee：从RNN、LSTM到Encoder-Decoder框架、注意力机制、Transformer254 赞同 · 11 评论文章

🌟【深度解析】GPT2.0新突破：信息融合更全面！🔍相较于Bert的卓越，GPT2.0的升级在于它对海量外部信息的巧妙整合，引领技术迈向更高层次的认知跃进。💡在情感分析这片领域，17-18年间的研究也不乏亮点——通过大数据集的前期训练，然后在特定数据集上达到顶尖水平的模型崭露头角，如ULMFiT和bmLSTM等，它们的成功证明了精准定制的力量。🎯SEO优化提示：GPT2.0, sentiment analysis, pre-training, state-of-the-art, ULMFiT, bmLSTM

🌟 ULMFiT🚀 —— 预训练语言模型的革命性突破！📈通过Wikitext-103的大规模数据训练，ULMFiT展示了惊人的能效，将文本分类任务的错误率锐减了18-24个百分点，这相当于在精度上超越了使用x100数据集的传统模型。它在小数据集上的表现更是亮眼，精准度不逊色于大型数据集，保证了卓越的泛化能力。别忘了，它还成功避免了常见的过拟合问题，展现出了强大的适应性和可靠性。🏆欲了解更多关于这个高效且灵活的语言学习工具的信息，只需轻轻一点，ULMFiT将引领你探索自然语言处理的新高度！🌐

ULMFiT

🌟迁移学习中的🔥技巧：利用预训练大模型进行微调，特别是在小数据集上展现超凡效能！无论是丰富的大规模文本如英文和中文，还是相对稀有的其他语种，都能游刃有余。这样做不仅让任务训练变得简单，还能为相似任务的快速部署打开大门。虽然在CV领域它已成常态，但在NLP世界里，这可是革命性的改变哦！🚀

图1. Transfer Learning

🌟 ULMFiT, the groundbreaking pre-training model, elevates the game in text classification by building upon AWD LSTM’s prowess. It revolutionizes the field with its exceptional performance, outshining competitors and setting new standards in state-of-the-art technology. 🚀 By leveraging the power of this advanced language model, it transforms traditional tasks into unparalleled excellence, leaving a lasting impact on the industry. 🔍 SEO-friendly keywords: #ULMFiT, #pre-training, #AWD_LSTM, #text_classification, #state-of-the-art, #language_modeling

图2. ULMFiT Pre-training

其预训练过程主要分为3个阶段：

以AWD-LSTM为backbone在Wikitext-103上预训练LM；在IMDB等小规模数据集（数据集较大pre-training的优势将不再明显，多次试验以及恺明rethinking ImageNet Pre-training已证明）上对LM进行fine-tune；Add few layers再次fine-tune使得模型满足当前任务（fine-tune两个基本手段修改当前任务满足pre-training模型，修改pre-training模型满足当前任务）；

Phase Ⅰ.

🌟🚀改写版：在文本处理领域的领航者之路，我们以AWD-LSTM的卓越力量起航！wikitext-103，这个海量知识库（285,950篇精心编纂，10亿单词熠熠生辉），是我们初始训练的坚实舞台。AWD-LSTM的核心策略——Averaged SGD与dropout技术的巧妙融合，不仅提升了模型的稳定性和泛化能力，更引领了LSTM语言模型的新高度。🚀🏆原内容：接下来，在第二阶段，我们对预训练后的模型进行微调，使用Hugging Face Transformers库中的BERT（Bidirectional Encoder Representations from Transformers）进行下游任务，如情感分析和命名实体识别。🌟🚀改写版：探索深度智能的前沿，我们的第二步是精炼升华——通过Hugging Face Transformers宝库，我们对预训练LSTM进行BERT式的微调。这一步骤聚焦于关键任务，如情感洞察能力与精准的实体识别，为每一段文字注入了深层次的理解和洞察。📚🔍原内容：最后，为了验证模型的有效性，我们在IMDB电影评论数据集上进行了测试，并达到了相当高的准确率。🌟🚀改写版：在验证阶段，我们以IMDB电影评论数据集为试金石，让我们的模型大显身手。卓越的表现展现了强大的预测能力，其精确度足以证明理论与实践的完美契合。🎬🏆原内容：联系方式：如有任何问题或合作意向，请通过电子邮件至example@email.com联系我们。🌟🚀改写版：若对我们的工作有任何疑问或寻求合作机会，欢迎随时向我们投递邮件至example@em ail.com，让我们在知识的海洋中携手共进。💌👩‍💻原内容：原文已包含广告元素，这里就不赘述了。🌟🚀改写版：我们专注于提供高质量的内容和卓越的服务，让每个阅读者都能感受到知识的力量。🎉📚

①Averaged SGD。ASGD是指先训练模型至一定的epoch，此后再将每一轮训练的权值进行平均作为最后的权值。对于general SGD权值的更新公式为：

$(1)wk+1=wk-γk\nablaf(wk)$ w_{k+1}=w_k-\gamma_k\nabla f(w_k)\tag{1}

其中 $k$ k 即为迭代次数， $wk$ w_k 即为第 $k$ k 次iteration的权值，而在ASGD中其模型的权值如下：

$(2)w=1K-T+1\sumi=TKwi$ w=\frac{1}{K-T+1}\sum_{i=T}^Kw_i\tag{2}

上式中， $K$ K 为迭代总次数， $T$ T 为指定的迭代次数（ $T$ T 之后的迭代需进行平均）。式（2）即表明权值 $w$ w 为 $T\simK-T$ T\sim K-T 次迭代权值 $w$ w 的平均值。

②Dropout。Dropout是指对 $t-1$ t-1 和 $t$ t 时刻隐层的全连接矩阵进行Dopout操作，防止过拟合。

Phase Ⅱ.

阶段二在LM进行fine-tuning，该过程仅需要对权值进行微调而不需彻底训练网络，其目的是使模型不要“忘记”之前习得的特征，对此作者设计了两个tricks；①discriminative fine-tuning，②slanted triangular learning rates。

①discriminative fine-tuning。discriminative fine-tuning背后的动机即为模型中不同的layers将捕获、表征不同类型的特征，如下：

图3. layer representation

如图3，shallow layers表示的特征更加具体，而deep layers表示的特征则更加抽象，在NLP网络中浅层则偏向语法信息而高层则偏向语义信息。因此浅层的layer需要较少次数的fine-tuning，而随着网络层数的增加，其需要fine-tuning的次数将不断上升，故对于不同层设计不同的学习率：

$(3)θtl=θt-1l+ηl\nablaθlJ(θ)$ \theta_t^l=\theta_{t-1}^l+\eta^l\nabla_{\theta^l}J(\theta)\tag{3}

上式中 $ηl$ \eta^l 即为 $l$ l 层的学习率，在原文中作者通过指定最后一层学习率后浅层学习率在此基础上进行调整：

$(4)ηl-1=ηl2.6$ \eta^{l-1}=\frac{\eta^l}{2.6}\tag{4}

②Slanted Triangular Learning Rates

由于预训练的语料与目标语料在分布上有所差异，因此在fine-tuning阶段需要调整模型参数以适应target task，故作者提出了改进的三角学习率（STLR，triangular learning rates, Smith 2017的改进），即首先使学习率快速增长使得模型对于目标任务快速调整参数以达到suitable region，然后再缓慢下降逐渐调整使其更好的适应目标，同时使训练更加平稳：

图4. Slanted Triangular Learning Rates

$cut=\lfloor T\cdot cut_frac \rfloor\\ p=\begin{cases} t/cut, & \text{if t <span><span><span class=$ cut=\lfloor T\cdot cut_frac \rfloor\\ p=\begin{cases} t/cut, & \text{if t < cut}\\ 1-\frac{t-cut}{cut\cdot (1/cut_frac-1)}, & \text{otherwise} \end{cases}\\ \eta_t=\eta_{max}\cdot \frac{1+p\cdot (ratio-1)}{ratio}\tag{5}

上式中， $T$ T 为总迭代次数， $cut_frac$ cut\_frac 是学习率增加的迭代次数， $cut$ cut 是学习率减少的次数；

一般来说 $cut_frac=0.1,ratio=32,ηmax=0.01$ cut\_frac=0.1,ratio=32,\eta_{max}=0.01 。

Phase Ⅲ.

阶段三为classifier fine-tuning，这里在原始的网络中新增加两层全连接层，同时加入batch norm和dropout操作，并使用ReLU作为中间层激活函数，最后经过softmax输出分类的概率分布。此外，在精调过程中作者还使用了如下策略：

Concat Pooling

在第一层全连接后使用pooling操作，另外考虑到文档级的文本分类任务其关键信息可能出现在任意处且一般仅为少数关键词，因此若只使用最后一层全连接层信息将损失严重，故在满足GPU Memory的前提下作者对尽可能多的隐层进行max-,mean-pooling，并将其拼接至最后的state中。

Gradual Unfreezing

Fine-tuning十分铭感，其在此过程中经常会出现过度精调而使得网络忘记先验信息的情况，出现过拟合的风险。因此作者设计gradual unfreezing fine-tuning操作，即从最后一层开始unfreez并进行精调，此后由后向前unfreez并精调所有层。

BPTT for Text Classification (BPT3C)

类似于BPTT，作者设计了BPT3C以在large documents上进行模型精调，对此首先将文档分为长度为 $b$ b 的batches，并在每个batch训练时记录mean和max池化，同时后一个批次参数的初始化为前一个批次的参数，这样梯度会被反向传播到对最终预测有贡献的batches。

Bidirectional language model

分别训练和精调前向、后向语言模型，最终模型的输出结果则由这两个模型的预测平均值决定。两者结合后结果有0.5-0.7的提升。

Experiments

通过上述操作的结合ULMFiT在小规模数据集上取得了惊人的效果，如下：

图5. IMDB sentiment analysis task

从上图可以明显看出，当样本数量较少时ULMFiT的优势尤为明显，其仅通过100个样本就能达到未经pre-training20k样本的精度。

在自让语言处理中pre-training的工作相比CV领域出现的较晚，这一方面是由于其缺乏大规模高质量的数据，另一方面是因为NLP的各种任务差别较大。然而随着Bert的出现，NLP各项任务的记录被逐一刷新，毫无疑问融入更多的外部信息对于精度的提高有着显著的影响，然而数据的准备与训练需要大量的时间成本和算力，这将成为各个互联网寡头间的“军备竞赛”，而对于我们来说跟多的则是要探究如何将先验知识信息更加有效的融入至网络中，而知识图谱似乎给出了一定的解决方案。

有关模型的代码部分可以参考

IMDB sentiment analysisgithub.com/PrideLee/sentiment-analysis

Reference

NLP 的巨人肩膀（下）：从 CoVe 到 BERTwww.jiqizhixin.com/articles/2018-12-17-17