找文摘论文起因
经过仔细搜寻,现在根据个人的兴趣,找来了以下类别的关于自动 文摘 论文链接:(因为个人研究的是中文的生成式摘要方法。所以现在暂时列出以下内容)。
其实这篇文章已经出土了半年了,但是期间一直没有发上这个网站主要还是因为觉得不够完善。而且并没有在每篇文章上都附上相关的介绍。后来我把相关的文章内容全都看了一次以后,感觉就轻松多了
找论文结果
中文分词
基于词典的分词算法
基于词典的分词算法是应用最广泛、分词速度最快的。很长一段时间内研究者都在对基于字符串匹配方法进行优化,比如最大长度设定、字符串存储和查找方式以及对于词表的组织结构,比如采用TRIE索引树、哈希索引等。因此在此不再赘述。
基于统计的机器学习算法
这类目前常用的是算法是HMM、CRF、SVM、深度学习等算法。
2.Nianwen Xue在其论文《Combining Classifiers for Chinese Word Segmentation》中首次提出对每个字符进行标注,通过机器学习算法训练分类器进行分词,在论文《Chinese word segmentation as character tagging》中较为详细地阐述了基于字标注的分词法。
在搜寻的过程中,我也在考虑着基于深度学习的实现,然后,的确让我找到了这方面的内容,那就是:《Neural Architectures for Named Entity Recognition》。这个论文里面提到了基于神经网络的分词器,论文首先尝试了:双向LSTM+CRF实现分词器,其本质上是序列标注,所以有通用性,命名实体识别等都可以使用该模型。因此在我的毕设论文中应当也必将使用这个方法实现。实际上,有不少开源的代码,以上这篇LSTM的相关开源代码地址为:
分词器
中科院计算所NLPIR http://ictclas.nlpir.org/nlpir/
ansj分词器 https://github.com/NLPchina/ansj_seg
哈工大的LTP https://github.com/HIT-SCIR/ltp
清华大学THULAC https://github.com/thunlp/THULAC
斯坦福分词器 https://nlp.stanford.edu/software/segmenter.shtml
Hanlp分词器 https://github.com/hankcs/HanLP
结巴分词 https://github.com/yanyiwu/cppjieba
KCWS分词器(字嵌入+Bi-LSTM+CRF) https://github.com/koth/kcws
ZPar https://github.com/frcchang/zpar/releases
IKAnalyzer https://github.com/wks/ik-analyzer
数据集下载
- AI Challenger比赛数据,请联系我
自动文摘(Automatic Text Summarization)
此次论文的核心工作点。
抽取式生成
基于单一因素的摘要方法
- 只考虑句子位置。
- 2.Lead Baseline:抽取一篇文档中前几句话形成摘要,是单文档摘要的强基准方法。
- 3.Coverage Baseline:轮流从不同文档中抽取第一、第二、 …, 第K句话形成摘要。
基于启发式规则
基于经验性公式综合考虑少数几个因素 。
例如: centroid-based method (考虑了句子包含词语权重、句子位置、句子与首句相似度) 。
基于图排序方法
- LexRank
- TextRank
(只依赖于句子相似度,基于PageRank算法或相似算法)
步骤:
- 构建图G=(V,E),句子作为顶点,句子之间有关系则构建边
- 应用PageRank算法或相似算法获得每个顶点的权重
- 基于句子权重选择句子形成摘要
评价:当前抽取式摘要生成的最好的方法实现。
相关论文:
TextRank: Bringing Order into Text
Lexrank: Graph-based lexical centrality as salience in text summarization
基于整数线性规划(ILP)方法
a.将摘要看做一个带约束的优化问题。
评价:还没有研究过。
论文:
Multi-Document Abstractive Summarization Using ILP Based Multi-Sentence Compression
a.基于ILP进行求解,可采用现成的ILP求解工具。
b.同时进行句子抽取与冗余去除。
基于神经网络的方法
- 可利用神经网络模型学习词语、句子的向量表示(抽象特征)。
- 然后利用这些特征进行排序(多文档摘要)。
评价:比较流行。
论文:
Automatic Text Summarization with Neural Networks
基于次模函数的方法
- 将摘要看做一个预算约束下的次模函数最大化问题。
- 设计次模函数,然后利用贪心算法进行内容选取。
论文:
A Class of Submodular Functions for Document Summarization
摘要冗余去除
- 去除(多文档)摘要中的冗余信息
- 选择与摘要中已有句子冗余度小的句子
以上选取的论文都是经典的论文。因为抽取式生成的高峰期是零几年。
而下边选用的都是2014年后的工作。尤其是生成式论文,分别选取了AAAI,EMNLP,ACL等会议的论文。我认为这些论文更加具有前瞻性,而且有其特别的新潮性。生成式摘要应当以当前最先进的方法来研究。不然很大几率并不足够。
生成式摘要(目标)
基于形式化语义表示
论文:
Abstractive Document Summarization with a Graph-Based Attentional Neural Model
基于短语选择与拼凑
基本步骤:
- 短语重要性的计算
- 利用ILP方法进行短语选择与拼凑构建摘要语句
论文:
找不到极具代表性的。。。。。
基于深度学习之序列转换模型
编码器-解码器框架
任务:语句压缩,单文档摘要
主要做法:词序列=>词序列=>词序列
论文:
Get To The Point: Summarization with Pointer-Generator Networks
Deep Recurrent Generative Decoder for Abstractive Text Summarization
A Deep Reinforced Model for Abstractive Summarization
用 Intra Attention+Supervisd/Reinforcement 混合学习,在 CNN/Daily Mail 数据集的生成式文摘上取得了较已有最好成绩 5.7 个 ROUGE 分的提升。工作来自 Metamind Socher 团队。
参考文献
Recent automatic text summarization techniques: a survey
附录
更多的抽取式摘要论文以及生成式摘要论文请看:
https://github.com/mathsyouth/awesome-text-summarization
https://www.paperweekly.site/collections/347/papers
本文作者: Bon
本文地址: https://bonxg.com/p/12.html
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC-SA 3.0 CN 许可协议。转载请注明出处!