从Transformer到BERT的可视化详解

发表于 2019-12-13 更新于 2022-08-07 本文字数： 429 阅读时长 ≈ 2 分钟

Jay Alammar的博客，他制作了非常直观易懂的可视化图片，对Transformer、ELMo及BERT这些近年来自然语言处理领域的语言模型和编码器研究进展进行了详细的解释。

从Transformer到BERT的可视化详解

1 Transformer

Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.

Transformer的论文本身对self-attention, Scale-Dot Product(SDP) Attenton, Multi-Head SDP这些都做了准确具体的定义，但还是没有完整地、连贯地进行形式化表述，所以论文本身看着难以对模型的每一处细节进行准确把握。

这篇博客对Transformer中的各种机制进行了非常细致入微的可视化解释和推演：

The Illustrated Transformer

2 BERT

Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 2019: 4171-4186.

BERT可以说是近年来NLP领域影响力最大的研究之一，成功地将CV领域成熟的pretraining + fine-tuning的paradigm用到了NLP中。

这篇博客对BERT的原理进行了详细的可视化解释，而且还把ELMo也做了可视化，和BERT做了非常清晰的对比：

The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning)

对与如何具体地使用预训练的BERT模型，作者最新的一篇文章也进行了详尽的可视化解读：

A Visual Guide to Using BERT for the First Time

3 其它

作者还对GPT-2、word2vec等模型，甚至对一些基础的包，如：NumPy都做了非常优质的可视化解读。