网友提问 :3、RockAI(岩芯数智)为什么要从零开始设计非 Attention 机制的 YAN架构,而不是使用 ChatGPT、LLaMA、PaLM 等 Transformer 架构的大模型进行设计或调整?
2024-03-15 00:00:00
岩山科技 (002195): 回答:Attention机制是一种能让模型对关键信息重点关注并充分学习吸收的技术,也就是把注意力集中放在重要的点上,而忽略其他不重要的因素。ChatGPT 等都利用了 Transformer 架构,其核心技术之一就是 Attention 机制。标准的Attention 机制的计算复杂度为 O(n^2*d)(其中 n 表示序列长度、d 表示特征维度,^2 指平方)。标准 Attention 机制的复杂度随序列长度呈 2 次方增长。通常来说 Transformer 架构具有训练周期较长、应用成本过高、高机器幻觉表达等缺陷,在实际应用中需要的高算力和高成本让不少中小型企业望而却步。针对 Transformer 架构的上述缺陷、以及不同行业对于高效能、低能耗 AI大模型需求的不断增长,公司旗下岩芯数智研发团队意识到从零开始设计新架构的必要性,并于 2024 年 1 月推出了国内首个非 Attention 机制大模型—Yan1.0 模型。
2024-03-15 00:00:00