3、RockAI（岩芯数智）为什么要从零开始设计非 Attention ...-岩山科技互动平台-特特股

网友提问：3、RockAI（岩芯数智）为什么要从零开始设计非 Attention 机制的 YAN架构，而不是使用 ChatGPT、LLaMA、PaLM 等 Transformer 架构的大模型进行设计或调整？

2024-03-15 00:00:00

岩山科技 (002195): 回答：Attention机制是一种能让模型对关键信息重点关注并充分学习吸收的技术，也就是把注意力集中放在重要的点上，而忽略其他不重要的因素。ChatGPT 等都利用了 Transformer 架构，其核心技术之一就是 Attention 机制。标准的Attention 机制的计算复杂度为 O(n^2*d)（其中 n 表示序列长度、d 表示特征维度，^2 指平方）。标准 Attention 机制的复杂度随序列长度呈 2 次方增长。通常来说 Transformer 架构具有训练周期较长、应用成本过高、高机器幻觉表达等缺陷，在实际应用中需要的高算力和高成本让不少中小型企业望而却步。针对 Transformer 架构的上述缺陷、以及不同行业对于高效能、低能耗 AI大模型需求的不断增长，公司旗下岩芯数智研发团队意识到从零开始设计新架构的必要性，并于 2024 年 1 月推出了国内首个非 Attention 机制大模型—Yan1.0 模型。

2024-03-15 00:00:00

热门互动

岩山科技最新互动问答

热门互动

岩山科技股票