预训练语言模型文本生成综述笔记

# Pretrained Language Models for Text Generation: A Survey

论文 pdf [下载](https://arxiv.org/pdf/2105.10311.pdf)

## 任务和典型应用

根据输入 $X$， 输出 $Y=(y_1, y_2, ..., y_n)$，$y_i$ 属于词表 $V$，各种类型输入的主要任务：

## 文本生成的标准结构

PTMs，Transformer

**Encoder - Decoder**: MASS, T5, BART

**Decoder - only**:

-   GPT, CTRL 等 单向自注意力
-   根据输入条件进行输出：不使用一个单独的编码器，拼接输入和输出，用 SEP 分隔；seq2seq masking可以关注所有的input和之前生成出来的token

## 对输入的不同类型的数据进行建模

**无结构的文本输入**

CNN，BERT，hierarchical BERT, DiscoBERT(BERT+GCN)，多语种 XLMs

**结构数据输入**

1.  图、表；天气预报生成  few-shot setting 下的 data-to-text 生成:

Few-shot NLG with pre-trained language model; Few-shot table-to-text generation with table structure reconstruction and content matching.

2.  以三元组的形式线性输入  图谱（knowledge graph）& 摘要表示图（abstract meaning representation）
3.  额外的图编码器来编码KG
4.  基于模板的表格序列化方法
5.  辅助重构任务：重构输入数据的结构化信息

pointer generator mechanism  指针生成机制从输入的知识数据中拷贝词，在外部知识上使用预训练模型

content matching loss

**多媒体输入**

image caption and speech recognition   VideoBERT, CBT， video caption task   BERT编码器，需要训练独立的video-to-text解码器

Unified VLP     XGPT

## 使输出的文本满足特殊属性

**相关性**  relevance

输入输出主题一致，例如对话系统；对话历史、回应的人格化   TransferTransfo, DialoGPT

BERT 又编码又解码  attention routing mechanism

**正确性**  faithfulness

文本摘要；

Leveraging pre-trained checkpoints for sequence generation task

**顺序保存**  Order-preservation

词、短语等语义单元顺序正确，输入输出都是连贯的。

机器翻译，CSP Code-Switching Pretraining  词对 对齐信息

多语言机器翻译  mRASP

## 文本生成的微调策略

**数据视角**

few-shot learning

-   e.g. XLM

-   KG-to-text   Few-shot knowledge graph-to-text generation with pretrained language models.

![image-20210701170753789](https://i.loli.net/2021/07/01/eKSHasZoTLJGwj1.png)

领域迁移   mask prediction

**任务视角**

增强连贯性，NSP可用于对话和摘要

DAE in TED

保真度 fidlity

table-to-text     Tablegpt: Few-shot table-to-text generation with table structure reconstruction and content matching

Few-shot NLG with pre-trained language model

**模型视角**

teacher-student

文章信息

标题：预训练语言模型文本生成综述笔记

作者：快刀切草莓君

分类：自然语言处理

发布时间：2021年7月8日

最近编辑：2021年7月8日

浏览量：1174

↑