字節三面：attention中的Q,K,V怎麼來的？

12月18日 10:54 新浪網 tech-auto-hilite

作者：TRiddle@知乎僅用作學術分享

鏈接：https://www.zhihu.com/question/325839123/answer/3309301644

本質上就是查詢+聚合。而且非常符合直覺，不需要任何公式就能說明這點。我們可以試著「重新發明」一下注意力機制。

現在想像一下，假如你想做一道名菜——佛跳牆，你會怎麼做？你會先去菜市場里找到鮑魚、海參、花膠、瑤柱，然後帶回家將它們煮在一起對吧。

而一個用於文本分類的 BERT 做的事也一樣，也是找到一些東西然後將它們煮在一起。

比方說如果想要識別一篇文章中是否在講佛跳牆，要做的就是查找文章中是否存在相鄰的「佛、跳、牆」（當然，「佛、跳、牆」的上下文也很重要，請允許我做些簡化），然後將這三個存在性信息聚合在一起，最後從 [cls] token 的位置輸出出去。

或者說，用 [cls] 來查詢和聚合「佛、跳、牆」。

1.如何查詢

首先面臨的問題就是 [cls] 怎麼查詢「佛、跳、牆」。

其實有一種辦法很簡單，就是給文章中所有 token 都分別分配一個向量，讓它們滿足 [cls] 的向量同「佛、跳、牆」的三個向量的距離都很小，同除了它們三個之外的其它 token 的向量的距離都很大。

大家通常會用兩個向量的點積來衡量它們之間的距離。具體就是點積大的距離小，點積小的距離大。

正因為距離是可衡量的，我們只需要計算 [cls] 的向量和句子中所有 token 的向量之間的點積，就能知道哪些 token 是「佛、跳、牆」，哪些 token 不是。

具體就是點積大的那些是，點積小的那些不是。這些點積再通過 softmax 歸一化一下，就是我們常說的注意力分數。

我們可以說，注意力分數表示的是查詢的相關性。或者說，表示的是「你有多大概率是我要查的東西」。

怎麼給所有 token 分配向量呢？

先規定一下向量的名字，因為 [cls] 是查詢的主體，所以我們給它分配的向量叫做 Q（query 的縮寫）。

因為「佛、跳、牆」是被查詢的客體，所以我們給它分配的向量叫做 A（answer 的縮寫。等等，為什麼不是 K 和 V？這裏先按下不表）。

向量的數值怎麼分配呢？

我們弄兩個可學習的矩陣 WQ 和 WA，想辦法讓一個 token embedding（加上 position embedding）乘上 WQ 得到 Q ，乘上 WA 得到 A。WQ 和 WA 的參數讓它們自己通過梯度下降學習就行了。

WQ 和 WA 實際上是模型學會的分配 Q 和 A 的邏輯。在我們的例子中的分配邏輯就是，[cls] 的 Q 向量要同「佛、跳、牆」的 A 向量離得近一些，要同其他 token 的 A 向量離得遠一些。

2.如何聚合

接下來需要解決的問題是怎麼將「佛、跳、牆」的存在性信息聚合在一起。一種方法是，直接將「佛、跳、牆」的A向量加起來就行了。

按照前面提到的方法，首先我們計算 [cls] 的 Q 向量和所有 token 的 A 向量之間的距離，然後篩選出距離小的那些，最後把它們的 A 向量加起來。

不過，篩選這個操作太麻煩了。我們明明可以以注意力分數為權重，直接計算序列中所有 token 的 A 向量的加權和。

實際上這和先篩選再加起來是一樣的。由於除「佛跳牆」外其他 token 的注意力分數都很小，這麼做相當於只將「佛、跳、牆」的 A 向量加起來了。

也就是說，以注意力分數為權重對文章中的所有 token 的 A 向量求加權和，就相當於把需要查詢出來的重要 token 給聚合在一起了。

可是，A 向量很忙的啊。既要對查詢的結果負責，又要對聚合的結果負責，我們能不能將它們一分為二呢？

當然可以了，我們用 K 向量（key 的縮寫）和 V 向量（value 的縮寫）替代 A 向量。

前者參與查詢階段的注意力分數計算，後者攜帶著聚合階段需要被加在一起的存在性信息。當然，WA 矩陣也要相應地替換成 WK 矩陣和 WV 矩陣。

讓我們重新表述一下：以 Q 和 K 算出的注意力分數為權重對文章中的所有 token 的 V 向量求加權和，就相當於把需要查詢的重要 token 的給聚合在一起了。

為了更形象地展示這個過程，我畫了一張圖：

以上就是自注意力機制中 Q、K、V 的角色。我們用文本分類場景下的 BERT 舉了個例子。

其它任務或者其它模型的注意力機制也非常好理解，因為本質上都是查詢+聚合。

另外，你可能會關注下面這些問題：

（1）我關注到的 attention 中的 Q、K、V 是矩陣，這裏的怎麼是向量呢？

事實上文章中每個 token 都有自己的 Q、K、V 向量，因為每個 token 都有自己需要查詢的東西，也可能被查詢。把它們的 Q、K、V 向量連接起來就是 Q、K、V 矩陣了。

（2）按照上面說的，注意力機制是不是不能保證「佛、跳、牆」是連續出現的？

其實是能的，只要讓「佛」先查詢「跳、牆」，再讓 [cls] 查詢「佛、跳、牆」就行了。

因為 Q 向量和 K 向量都是攜帶位置信息的，所以查詢的時候是能感知到相對位置的。

所以在「佛」做查詢的時候，就有機會只給它周圍的「跳、牆」一個較高的注意力分數。

而做兩次注意力機制也很容易，只要放在兩個不同的 attention 層中就行了（不然 transformer 為什麼那麼多層）。

（3）一個 token 能不能有多個 Q 向量？

當然能。舉個例子，「佛」可能不一定只用來查詢「跳、牆」，還可能用來查詢「祖」或者「經」等 token。

的確，一個 token 可能是需要多個 Q 的，還可能需要多個 K 和 V，這就是 transformer 中為什麼有 multi-head attention 這種東西。

（4）Q 和 K 用同一個向量行不行？

我的答案是——不行。假如 Q 和 K 用同一個向量，就會出現一些奇怪的相似性傳導問題。

例如，「佛」和「跳、牆」的距離很近，「佛」和「祖」的距離也很近，那豈不是說「跳、牆」和「祖」的距離也很近了？或者從圖的角度來解釋就是：同質圖和異質圖建模的是不同的東西。

鏈接：https://www.zhihu.com/question/325839123/answer/3309301644