网友提问 :5、对相同参数量级的 Yan 模型和 Transformer 架构的大模型进行对照实验后,实验结果如何,是否能验证 Yan 架构的优势?

2024-03-15 00:00:00

岩山科技 (002195): 回答:RockAI对相同参数量级的 Yan 1.0 模型和 Transformer(对照实验中采用的 Transformer 是基于 HuggingFace LLaMA 2 的标准结构,同时开启了 flashattn 的支持)架构模型分别用 1,000 万条中英平行语料,基于同样软硬件环境的 NVIDIA A800 服务器训练以及同样的迭代次数下进行了对照试验:(1)训练效率方面,在上述对照实验环境下 Yan 1.0 模型的损失值要低于Transformer 架构的 LLaMA 2 模型。在训练集上,训练数据收敛到相同的 loss(loss=3.0)时,Yan 1.0 模型仅需要 1.5 小时,而 LLaMA 2 模型却花费 10.5小时,因此 Yan 1.0 模型的训练效率更高。(2)推理准确率方面,在上述对照实验环境下 Yan 1.0 模型比 LLaMA 2模型在训练集上的预测准确率高出 17%、在验证集上的预测准确率高出 13%。(3)显存占用方面,基于同样的参数量级在单张 NVIDIA RTX 4090 24G显卡上,当输出 token 的长度超出 2,600 时,LLaMA 2 模型会出现显存不足,进而无法完成推理;Yan 1.0 模型的显存使用始终稳定在 14G 左右,可以进行正常推理。Yan 1.0 模型的显存占用及成本比 LLaMA 2 模型更低。(4)记忆能力方面,古诗是通过简短的字和词语表达丰富语境的一种体裁,token 之间的困惑度也高于现代文,这恰好可用于评测模型的记忆能力。在对照实验中分别用数十万条古诗数据进行续写训练,与 LLaMA 2 模型相比,Yan 1.0 能够更快的达到更好的收敛,以及更高的准确率。

2024-03-15 00:00:00

热门互动

岩山科技股票

岩山科技
法定名称:
上海岩山科技股份有限公司
公司简介:
公司是经上海市人民政府出具沪府体改审(2001)012号批准,由原上海欧姆龙计算机有限公司整体变更设立的股份有限公司。公司于2001年7月24日取得变更后的,注册号为3100001006617。2004年8月,经交大欧姆龙2004年度第一次临时股东大会审议,交大欧姆龙变更名称为“上海交大海隆软件股份有限公司”。
经营范围:
互联网信息服务;互联网金融服务。
注册地址
中国(上海)自由贸易试验区张江路665号3层
办公地址
上海市浦东新区博霞路11号3楼

热搜牛散

热门股票

Copyright © 2016 特特股 tetegu.Com All Rights Reserved