文摘自动生成

找文摘论文起因

经过仔细搜寻,现在根据个人的兴趣,找来了以下类别的关于自动 文摘 论文链接:(因为个人研究的是中文的生成式摘要方法。所以现在暂时列出以下内容)。

其实这篇文章已经出土了半年了,但是期间一直没有发上这个网站主要还是因为觉得不够完善。而且并没有在每篇文章上都附上相关的介绍。后来我把相关的文章内容全都看了一次以后,感觉就轻松多了

找论文结果

中文分词

基于词典的分词算法

基于词典的分词算法是应用最广泛、分词速度最快的。很长一段时间内研究者都在对基于字符串匹配方法进行优化,比如最大长度设定、字符串存储和查找方式以及对于词表的组织结构,比如采用TRIE索引树、哈希索引等。因此在此不再赘述。

基于统计的机器学习算法

这类目前常用的是算法是HMM、CRF、SVM、深度学习等算法。

2.Nianwen Xue在其论文《Combining Classifiers for Chinese Word Segmentation》中首次提出对每个字符进行标注,通过机器学习算法训练分类器进行分词,在论文《Chinese word segmentation as character tagging》中较为详细地阐述了基于字标注的分词法。

在搜寻的过程中,我也在考虑着基于深度学习的实现,然后,的确让我找到了这方面的内容,那就是:《Neural Architectures for Named Entity Recognition》。这个论文里面提到了基于神经网络的分词器,论文首先尝试了:双向LSTM+CRF实现分词器,其本质上是序列标注,所以有通用性,命名实体识别等都可以使用该模型。因此在我的毕设论文中应当也必将使用这个方法实现。实际上,有不少开源的代码,以上这篇LSTM的相关开源代码地址为:

分词器

中科院计算所NLPIR http://ictclas.nlpir.org/nlpir/

ansj分词器 https://github.com/NLPchina/ansj_seg

哈工大的LTP https://github.com/HIT-SCIR/ltp

清华大学THULAC https://github.com/thunlp/THULAC

斯坦福分词器 https://nlp.stanford.edu/software/segmenter.shtml

Hanlp分词器 https://github.com/hankcs/HanLP

结巴分词 https://github.com/yanyiwu/cppjieba

KCWS分词器(字嵌入+Bi-LSTM+CRF) https://github.com/koth/kcws

ZPar https://github.com/frcchang/zpar/releases

IKAnalyzer https://github.com/wks/ik-analyzer

数据集下载

  • AI Challenger比赛数据,请联系我

自动文摘(Automatic Text Summarization)

此次论文的核心工作点。

抽取式生成

基于单一因素的摘要方法
  1. 只考虑句子位置。
  2. 2.Lead Baseline:抽取一篇文档中前几句话形成摘要,是单文档摘要的强基准方法。
  3. 3.Coverage Baseline:轮流从不同文档中抽取第一、第二、 …, 第K句话形成摘要。
基于启发式规则

基于经验性公式综合考虑少数几个因素 。
例如: centroid-based method (考虑了句子包含词语权重、句子位置、句子与首句相似度) 。

论文:Centroid-based summarization of multiple documents: sentence extraction, utility-based evaluation, and user studies

基于图排序方法
  1. LexRank
  2. TextRank

(只依赖于句子相似度,基于PageRank算法或相似算法)

步骤:

  1. 构建图G=(V,E),句子作为顶点,句子之间有关系则构建边
  2. 应用PageRank算法或相似算法获得每个顶点的权重
  3. 基于句子权重选择句子形成摘要

评价:当前抽取式摘要生成的最好的方法实现。

相关论文:

TextRank: Bringing Order into Text

Lexrank: Graph-based lexical centrality as salience in text summarization

基于整数线性规划(ILP)方法

a.将摘要看做一个带约束的优化问题。

评价:还没有研究过。

论文:

Multi-Document Abstractive Summarization Using ILP Based Multi-Sentence Compression

a.基于ILP进行求解,可采用现成的ILP求解工具。

b.同时进行句子抽取与冗余去除。

基于神经网络的方法
  1. 可利用神经网络模型学习词语、句子的向量表示(抽象特征)。
  2. 然后利用这些特征进行排序(多文档摘要)。

评价:比较流行。

论文:

Automatic Text Summarization with Neural Networks

SummaRuNNer: A Recurrent Neural Network Based Sequence Model for Extractive Summarization of Documents

基于次模函数的方法
  1. 将摘要看做一个预算约束下的次模函数最大化问题。
  2. 设计次模函数,然后利用贪心算法进行内容选取。

论文:

A Class of Submodular Functions for Document Summarization

摘要冗余去除

  1. 去除(多文档)摘要中的冗余信息
  2. 选择与摘要中已有句子冗余度小的句子

以上选取的论文都是经典的论文。因为抽取式生成的高峰期是零几年。

而下边选用的都是2014年后的工作。尤其是生成式论文,分别选取了AAAI,EMNLP,ACL等会议的论文。我认为这些论文更加具有前瞻性,而且有其特别的新潮性。生成式摘要应当以当前最先进的方法来研究。不然很大几率并不足够。


生成式摘要(目标)

基于形式化语义表示

形式化语义表示

论文:

Abstractive Document Summarization with a Graph-Based Attentional Neural Model

基于短语选择与拼凑

短语拼凑

基本步骤:

  1. 短语重要性的计算
  2. 利用ILP方法进行短语选择与拼凑构建摘要语句

论文:

找不到极具代表性的。。。。。

基于深度学习之序列转换模型

摘要生成

编码器-解码器框架

任务:语句压缩,单文档摘要

主要做法:词序列=>词序列=>词序列

论文:

Get To The Point: Summarization with Pointer-Generator Networks

Deep Recurrent Generative Decoder for Abstractive Text Summarization

A Deep Reinforced Model for Abstractive Summarization

用 Intra Attention+Supervisd/Reinforcement 混合学习,在 CNN/Daily Mail 数据集的生成式文摘上取得了较已有最好成绩 5.7 个 ROUGE 分的提升。工作来自 Metamind Socher 团队。

参考文献

Recent automatic text summarization techniques: a survey

附录

更多的抽取式摘要论文以及生成式摘要论文请看:

https://github.com/mathsyouth/awesome-text-summarization

https://www.paperweekly.site/collections/347/papers

本文作者: Bon
本文地址https://bonxg.com/p/12.html
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC-SA 3.0 CN 许可协议。转载请注明出处!

# Bon
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×