Transformer学习
本文于 572 天之前发表,文中内容可能已经过时。
公众号上看到有一些Transformer的跨界应用,感觉可以继续跨界,所以趁着周末学习一下Transformer网络。
Transformer
初始论文:Attention Is All You Need
Self-Attention
举个例子:输入为x1, x2,通过Transformer输出为z1, z2
$$
q_i=x_iW^Q\\
k_i=x_iW^K\\
v_i=x_iW^V
$$
x1和x2通过共享的系数阵$W^Q,W^K,W^V$得到了相应的$q,k,v$值,然后计算z1, z2
$$
z_1=softmax(q_1k_1^T/\sqrt(d_k),q_1k_2^T/\sqrt(d_k))(v_1,v_2)^T\\
z_2=softmax(q_2k_1^T/\sqrt(d_k),q_2k_2^T/\sqrt(d_k))(v_1,v_2)^T
$$
此处的$d_k$指的是向量q,k的维度,q为query(查询),k为key(键),v为value(值),上面softmax做的工作实际上是用q去查询k,得到q1(q2)与k1、k2的相关性,再点积v1、v2得到结果值z1(z2)。
Vision Transformer
综述论文:A Survey on Vision Transformer (Submitted on 23 Dec 2020)
参考资料
赏
支付宝打赏
微信打赏
赞赏是不耍流氓的鼓励