网友提问 :3、RockAI(岩芯数智)为什么要从零开始设计非 Attention 机制的 YAN架构,而不是使用 ChatGPT、LLaMA、PaLM 等 Transformer 架构的大模型进行设计或调整?

2024-03-15 00:00:00

岩山科技 (002195): 回答:Attention机制是一种能让模型对关键信息重点关注并充分学习吸收的技术,也就是把注意力集中放在重要的点上,而忽略其他不重要的因素。ChatGPT 等都利用了 Transformer 架构,其核心技术之一就是 Attention 机制。标准的Attention 机制的计算复杂度为 O(n^2*d)(其中 n 表示序列长度、d 表示特征维度,^2 指平方)。标准 Attention 机制的复杂度随序列长度呈 2 次方增长。通常来说 Transformer 架构具有训练周期较长、应用成本过高、高机器幻觉表达等缺陷,在实际应用中需要的高算力和高成本让不少中小型企业望而却步。针对 Transformer 架构的上述缺陷、以及不同行业对于高效能、低能耗 AI大模型需求的不断增长,公司旗下岩芯数智研发团队意识到从零开始设计新架构的必要性,并于 2024 年 1 月推出了国内首个非 Attention 机制大模型—Yan1.0 模型。

2024-03-15 00:00:00

热门互动

岩山科技股票

岩山科技
法定名称:
上海岩山科技股份有限公司
公司简介:
公司是经上海市人民政府出具沪府体改审(2001)012号批准,由原上海欧姆龙计算机有限公司整体变更设立的股份有限公司。公司于2001年7月24日取得变更后的,注册号为3100001006617。2004年8月,经交大欧姆龙2004年度第一次临时股东大会审议,交大欧姆龙变更名称为“上海交大海隆软件股份有限公司”。
经营范围:
互联网信息服务;互联网金融服务。
注册地址
中国(上海)自由贸易试验区张江路665号3层
办公地址
上海市浦东新区博霞路11号3楼

热搜牛散

热门股票

Copyright © 2016 特特股 tetegu.Com All Rights Reserved