5、对相同参数量级的 Yan 模型和 Transformer 架构的...-岩山科技互动平台-特特股

网友提问：5、对相同参数量级的 Yan 模型和 Transformer 架构的大模型进行对照实验后，实验结果如何，是否能验证 Yan 架构的优势？

2024-03-15 00:00:00

岩山科技 (002195): 回答：RockAI对相同参数量级的 Yan 1.0 模型和 Transformer（对照实验中采用的 Transformer 是基于 HuggingFace LLaMA 2 的标准结构，同时开启了 flashattn 的支持）架构模型分别用 1,000 万条中英平行语料，基于同样软硬件环境的 NVIDIA A800 服务器训练以及同样的迭代次数下进行了对照试验：（1）训练效率方面，在上述对照实验环境下 Yan 1.0 模型的损失值要低于Transformer 架构的 LLaMA 2 模型。在训练集上，训练数据收敛到相同的 loss（loss=3.0）时，Yan 1.0 模型仅需要 1.5 小时，而 LLaMA 2 模型却花费 10.5小时，因此 Yan 1.0 模型的训练效率更高。（2）推理准确率方面，在上述对照实验环境下 Yan 1.0 模型比 LLaMA 2模型在训练集上的预测准确率高出 17%、在验证集上的预测准确率高出 13%。（3）显存占用方面，基于同样的参数量级在单张 NVIDIA RTX 4090 24G显卡上，当输出 token 的长度超出 2,600 时，LLaMA 2 模型会出现显存不足，进而无法完成推理；Yan 1.0 模型的显存使用始终稳定在 14G 左右，可以进行正常推理。Yan 1.0 模型的显存占用及成本比 LLaMA 2 模型更低。（4）记忆能力方面，古诗是通过简短的字和词语表达丰富语境的一种体裁，token 之间的困惑度也高于现代文，这恰好可用于评测模型的记忆能力。在对照实验中分别用数十万条古诗数据进行续写训练，与 LLaMA 2 模型相比，Yan 1.0 能够更快的达到更好的收敛，以及更高的准确率。

2024-03-15 00:00:00

热门互动

岩山科技最新互动问答

热门互动

岩山科技股票