Meta对于Transformer架构入手了：新留意力机制更懂推理

发布时间：2024-11-19 19:22:00 作者：玩站小弟

作者展现，这种全新留意力机制Sytem 2 Attention）概况你也需要呢。大型语言模子LLM）很强已经是一个不争的事实，但它们无意依然简略犯一些重大的过错，展现出较弱的推理能耐。举个例子，LLM 。

作者展现，对于懂推这种全新留意力机制（Sytem 2 Attention）概况你也需要呢。构入

大型语言模子（LLM）很强已经是手新一个不争的事实，但它们无意依然简略犯一些重大的留意力机理过错，展现出较弱的制更推理能耐。

举个例子，对于懂推LLM 可能会因不相关的构入高下文概况输入揭示中固有的偏好或者意见做侵蚀误的分说。后一种情景展现出的手新下场被叫做「讨好讨好」，即模子与输入坚持不同。留意力机理

有无措施来缓解这种下场呢？有些学者试图经由削减更多把守磨炼数据或者经由强化学习策略来处置，制更但这些无奈从根基上处置下场。对于懂推

克日 Meta 钻研者在论文《System 2 Attention (is 构入something you might need too)》中以为，根基下场在于 Transformer 自己固有的手新构建方式，特意是留意力机理其留意力机制。也便是制更说，软留意力既倾向于将多少率调配给大部份高下文（搜罗不相关的部份），也倾向于偏激关注一再的 token 。

因此，钻研者提出了一种残缺差距的留意力机制措施，即经由将 LLM 用作一个做作语言推理器来实施留意力。详细来说，他们运用 LLM 凭证指令的能耐，揭示它们天心理应留意的高下文，从而使它们只搜罗不会扭曲自己推理的相关质料。钻研者将这一历程称为 System 2 Attention（S2A），他们将底层 transformer 及其留意力机制视为相似于人类 System 1 推理的自动操作。

当人们需要特意关注一项使命而且 System 1 可能侵蚀时，System 2 就会调配难题的脑力行动，并接管人类的使命。因此，这一子零星与钻研者提出的 S2A 具备相似目的，后者愿望经由格外的推理引擎使命来减轻上述 transformer 软留意力的失败。

论文地址：https://arxiv.org/pdf/2311.11829.pdf

钻研者详细形貌了 S2A 机制的种别、提出该机制的念头以及多少个详细实现。在试验阶段，他们证实与基于尺度留意力的 LLM 比照，S2A 可能发生更讲事实、更少顽强己见或者讨好讨好的 LLM。

特意是在下场中搜罗干扰性意见的更正后 TriviQA 数据集上，与 LLaMA-2-70B-chat 比照，S2A 将事实性从 62.8% 后退到 80.3%；在搜罗干扰性输着迷色的长格式参数天生使命重，S2A 的主不雅性后退了 57.4%，而且根基上不受插入意见的影响。此外对于 GSM-IC 中带有与主题不相关语句的数学运用题，S2A 将精确率从 51.7% 后退到了 61.3%。

这项钻研患上到了 Yann LeCun 的推选。

System 2 Attention

下图 1 揭示了一个伪相关示例。当高下文搜罗不相关的句子时，纵然是最强盛的 LLM 也会修正对于重大事实下场的谜底，从而由于高下文中泛起的 token 分心间削减了过错谜底的 token 多少率。

因此咱们需要探究一种依赖更深入清晰的更深图远虑的留意力机制。为了与更底层的留意力机制分说开来，钻研者将提出的零星称为 S2A 。他们探究了运用 LLM 自己来构建这样一种留意力机制的措施，特意是运用指令调解 LLM 经由移除了不相关的文原本重写高下文。

经由这种方式，LLM 可能在输入照应以前对于要关注的输入部份做出深图远虑的推理抉择。运用指令调解的 LLM 尚有另一个短处，即可能操作留意力焦点，这有点相似于人类操作自己留意力的方式。

S2A 搜罗两个历程：

给定高下文 x ，S2A 首先重更天生高下文 x ' ，从而删除了会对于输入发生倒霉影响的高下文的不相关部份。本文将其展现为 x ′ ∼ S2A (x)。
给定 x ′ ，而后运用重更天生的高下文而不是原始高下文天生 LLM 的最终照应：y ∼ LLM (x ′ )。

替换实现以及变体

本文思考了 S2A 措施的多少种变体。

无高下文以及下场分说。在图 2 的实现中，本文抉择重更天生份解为两部份（高下文以及下场）的高下文。图 12 给出了该揭示变体。

保存原始高下文在 S2A 中，在重更天生高下文之后，理当搜罗所有理当留意的需要元素，而后模子仅在重更天生的高下文上妨碍照应，原始高下文被扔掉。图 14 给出了该揭示变体。

指令式揭示。图 2 中给出的 S2A 揭示鼓舞从高下文中删除了顽强己见的文本，并运用步骤 2（图 13）中的剖析要求照应不顽强己见。

夸张相关性与不相关性。以上 S2A 的实现都夸张重更天生高下文之后退主不雅性并削减讨好讨好。可是，本文以为尚有其余需要夸张的点，好比，人们可能夸张相关性与不相关性。图 15 中的揭示变体给出了这种措施的一个实例：

试验

本文在三种配置下妨碍了试验：事实问答、长论点天生以及对于数学运用题的处置。此外，本文还运用 LLaMA-2-70B-chat 作为根基模子，在两种配置下妨碍评估：

基线：数据会集提供的输入揭示被奉送到模子，并以零样本方式回覆。模子天生可能会受到输入中提供的虚伪相关性的影响。
Oracle Prompt：不附加意见或者不相关句子的揭示被输入到模子中，并以零样本的方式回覆。

图 5 (左) 揭示了在事实问答上的评估服从。System 2 Attention 比原本的输入揭示有了很大的改善，精确率抵达 80.3%—— 挨近 Oracle Prompt 功能。

图 6（左）展现了长论点天生的总体服从，基线、Oracle Prompt 以及 System 2 Attention 都被评估为可能提供相似的高品质评估。图 6（右）为细分成果：

图 7 展现了差距措施在 GSM-IC 使命上的服从。与 Shi 等人的钻研服从不同，本文发现基线精确率远低于 oracle。当不相关的句子与下场属于统一主题时，这种影响致使更大，如图 7（右）所示。

清晰更多内容，请参考原论文。

Tag：

黄蜂蜡作用及食用方法
原标题：黄蜂蜡作用及食用方法这是(V:senlinlaye)整理的信息，希望能帮助到大家黄蜂蜡，又称为蜜蜡、蜜胶，是由黄蜂通过咀嚼花蜜、蜂蜡和花粉等物质制作而成的一种天然产物。它的形状
2024-11-19
【NBA】湖人快船同遭耻辱失利，詹姆斯再遇“里程悲”
原标题：【NBA】湖人快船同遭耻辱失利，詹姆斯再遇“里程悲” 北京时间11月28日，NBA常规赛继续上演。湖人与快船这两支同城球队再次扮演“难兄难弟”，前者作客费城，以44分的巨大分差惨败76人
2024-11-19
原创足球前瞻：谢菲尔德星期三VS莱切斯特城，马洛卡VS加的斯，亚冠
原标题：足球前瞻：谢菲尔德星期三VS莱切斯特城，马洛卡VS加的斯，亚冠谢菲尔德星期三VS莱切斯特城谢菲尔德星期三上轮联赛客场输给了伯明翰，联赛再遭3连败窘境，球队本赛季表现糟糕，赛季至
2024-11-19
孙铭徽37分助广厦赢患上“浙江德比”
　　新华网杭州11月14日电记者夏亮）凭仗孙铭徽24投13中、拿到全场最高37分的卓越展现，浙江广厦在14日晚妨碍的2023-2024赛季中国女子篮球职业联赛CBA）第十轮角逐中，以96:90逆转战败
2024-11-19
三连胜！卡子哥爆砍41+5+5，祖巴茨18+12，快船客场击败爵士啦个球2023-12-09 13:58江苏啦个球2023-12-09 13:58江苏
爵士今日坐镇主场迎战快船。首节之争快船反客为主迅速占据场面主动，他们凭借一波7-0的攻势一度拿到两位数的领先。进入第二节，快船仍然掌控比赛，他们开局就打出7-2的攻势，随后节中在哈登的带领下再送8-2
2024-11-19
姑娘补气血喝甚么茶好？姑娘补气血养生茶配方推选
气血两虚会气虚乏力、气血两虚发燥，而且导致免疫力着落。颇为是女性，大少数有气血两虚的情景。假如不留意补气补血，那麼对于人体是沒有利益的。生涯起居中，除了开其余补气补血的方式，女性还可能饮茶补气补血。那
2024-11-19