logo头像

猪老大要进步!

Transformer学习

本文于 572 天之前发表,文中内容可能已经过时。

公众号上看到有一些Transformer的跨界应用,感觉可以继续跨界,所以趁着周末学习一下Transformer网络。

Transformer

初始论文:Attention Is All You Need

Self-Attention

举个例子:输入为x1, x2,通过Transformer输出为z1, z2
$$
q_i=x_iW^Q\\
k_i=x_iW^K\\
v_i=x_iW^V
$$

x1和x2通过共享的系数阵$W^Q,W^K,W^V$得到了相应的$q,k,v$值,然后计算z1, z2
$$
z_1=softmax(q_1k_1^T/\sqrt(d_k),q_1k_2^T/\sqrt(d_k))(v_1,v_2)^T\\
z_2=softmax(q_2k_1^T/\sqrt(d_k),q_2k_2^T/\sqrt(d_k))(v_1,v_2)^T
$$

此处的$d_k$指的是向量q,k的维度,q为query(查询),k为key(键),v为value(值),上面softmax做的工作实际上是用q去查询k,得到q1(q2)与k1、k2的相关性,再点积v1、v2得到结果值z1(z2)。

Vision Transformer

综述论文:A Survey on Vision Transformer (Submitted on 23 Dec 2020)

参考资料

  1. https://luweikxy.gitbook.io/machine-learning-notes/self-attention-and-transformer
  2. https://www.tensorflow.org/tutorials/text/transformer
  3. https://zhuanlan.zhihu.com/p/343248914
  4. 测试视频:http://ultravideo.fi/#testsequences
支付宝打赏 微信打赏

赞赏是不耍流氓的鼓励