网友提问 :5、对相同参数量级的 Yan 模型和 Transformer 架构的大模型进行对照实验后,实验结果如何,是否能验证 Yan 架构的优势?
2024-03-15 00:00:00
岩山科技 (002195): 回答:RockAI对相同参数量级的 Yan 1.0 模型和 Transformer(对照实验中采用的 Transformer 是基于 HuggingFace LLaMA 2 的标准结构,同时开启了 flashattn 的支持)架构模型分别用 1,000 万条中英平行语料,基于同样软硬件环境的 NVIDIA A800 服务器训练以及同样的迭代次数下进行了对照试验:(1)训练效率方面,在上述对照实验环境下 Yan 1.0 模型的损失值要低于Transformer 架构的 LLaMA 2 模型。在训练集上,训练数据收敛到相同的 loss(loss=3.0)时,Yan 1.0 模型仅需要 1.5 小时,而 LLaMA 2 模型却花费 10.5小时,因此 Yan 1.0 模型的训练效率更高。(2)推理准确率方面,在上述对照实验环境下 Yan 1.0 模型比 LLaMA 2模型在训练集上的预测准确率高出 17%、在验证集上的预测准确率高出 13%。(3)显存占用方面,基于同样的参数量级在单张 NVIDIA RTX 4090 24G显卡上,当输出 token 的长度超出 2,600 时,LLaMA 2 模型会出现显存不足,进而无法完成推理;Yan 1.0 模型的显存使用始终稳定在 14G 左右,可以进行正常推理。Yan 1.0 模型的显存占用及成本比 LLaMA 2 模型更低。(4)记忆能力方面,古诗是通过简短的字和词语表达丰富语境的一种体裁,token 之间的困惑度也高于现代文,这恰好可用于评测模型的记忆能力。在对照实验中分别用数十万条古诗数据进行续写训练,与 LLaMA 2 模型相比,Yan 1.0 能够更快的达到更好的收敛,以及更高的准确率。
2024-03-15 00:00:00