分享
0718 - LLaMA2讨论 - Memo
输入“/”快速插入
0718 - LLaMA2讨论 - Memo
飞书用户4199
飞书用户2220
2023年7月19日创建
9759
👉
鸣谢符尧老师组织的快闪技术讨论会!!!
由于时间&人力所限,以下Memo主要记录会议中的重点讨论内容,欢迎各位大佬多多评论交流 🦙
#
Pre-Train
1.
Infra
LLaMA-2 训练用了两种方式 - IB
(InfiniBand)
和 RoCE
(RDMA over converged Ethernet)
a.
LLaMA的报告显示,RoCE相比IB在效果不劣的情况下,更加经济实惠
b.
国内方面大部分转到RoCE, 因为IB一方面成本很高,另一方面被禁的风险很高
i.
少数购买NVDIA企业方案的还在用IB
2.
Data Mixture
a.
缺少中文语料,所以国内应用直接套LLaMA2不太可能实现理想的效果
b.
缺乏Code数据
i.
Meta出LLaMA-2是在2月立项,当时并不知道Code数据那么重要;
到5~6月有报道/文章提到code数据比例问题时已经为时已晚
•
Open LLaMA代码生成缺陷:曾经尝试在Red Pajama上加数据,但是因为其Tokenizaor不支持代码的编码(比如大小括号),所以依旧处理不好代码生成
ii.
代码场景进一步延伸,由于Intergration存在问题,所以部分企业相较于自己Host Language Model,还是更倾向于直接上Copilot
•
另外在Copilot上,目前尝试把底层模型换成Claude,体验“效果拔群”
3.
Scaling Law
a.
LLaMA1 用了1.4 T Token;LLaMA 2 用了2T Token,Scaling Law变化原因:
i.
LLaMA Data Mixture 相比 Chinchilla Data Mixture的增长速度更快
ii.
Chinchilla Optimal 只是 Computational Optimal, 是训练资源受限的产物,现在大模型一般都训练超过了Chinchilla Optimal
# Alignment
1.
现实:
SFT海外保守,国内狂奔
a.
SFT的训练很重要,这一点已经在LLaMA Eval中得到验证
i.
Vicuna-33B没有进行Human Preference,但其表现却与SFT+RLHF的LLaMA-34B相差无几
ii.
Vicuna并非SFT数据构造方面SOTA,近期论文已经在此方面做了更多的改进
b.
但SFT训练的瓶颈在于,高质量的Response难以生成;而preference的数据标注相对容易,因此实际应用中更多的注意力被放在了preference modeling上
i.
SFT阶段,依靠模型能力,并以人工挑选或改写模型生成的最佳答案的方式,似乎更经济实惠
ii.
但美国大厂对使用模型生成数据进行训练的态度是谨慎的
•
OpenAI有使用条款限制
•
谷歌禁止员工使用GPT生成数据
iii.
国内制约少,大家在利用模型构造数据上比较野蛮发展(几十万成本 + 几个月 = 数百万数据),但这也存在两类问题
•
生成答案质量的上限受模型能力制约
•
潜在的license issue / 潜在埋雷
2.
方法:
RLHF <> SFT 对比 及 搭配
一个形象的比喻:SFT是跟着教科书学习,RLHF是自己做实验一步步改进