Docs

0718 - LLaMA2讨论 - Memo

输入“/”快速插入

0718 - LLaMA2讨论 - Memo

飞书用户4199

飞书用户2220

2023年7月19日创建

9759

👉

鸣谢符尧老师组织的快闪技术讨论会！！！

由于时间&人力所限，以下Memo主要记录会议中的重点讨论内容，欢迎各位大佬多多评论交流 🦙​

# Pre-Train

1.
Infra​
LLaMA-2 训练用了两种方式 - IB (InfiniBand) 和 RoCE (RDMA over converged Ethernet)​
a.
LLaMA的报告显示，RoCE相比IB在效果不劣的情况下，更加经济实惠​
b.
国内方面大部分转到RoCE, 因为IB一方面成本很高，另一方面被禁的风险很高​
i.
少数购买NVDIA企业方案的还在用IB​

2.
Data Mixture​
a.
缺少中文语料，所以国内应用直接套LLaMA2不太可能实现理想的效果​
b.
缺乏Code数据​
i.
Meta出LLaMA-2是在2月立项，当时并不知道Code数据那么重要；到5~6月有报道/文章提到code数据比例问题时已经为时已晚​
•
Open LLaMA代码生成缺陷：曾经尝试在Red Pajama上加数据，但是因为其Tokenizaor不支持代码的编码（比如大小括号），所以依旧处理不好代码生成​
ii.
代码场景进一步延伸，由于Intergration存在问题，所以部分企业相较于自己Host Language Model，还是更倾向于直接上Copilot​
•
另外在Copilot上，目前尝试把底层模型换成Claude，体验“效果拔群”​

3.
Scaling Law​
a.
LLaMA1 用了1.4 T Token；LLaMA 2 用了2T Token，Scaling Law变化原因：​
i.
LLaMA Data Mixture 相比 Chinchilla Data Mixture的增长速度更快​
ii.
Chinchilla Optimal 只是 Computational Optimal, 是训练资源受限的产物，现在大模型一般都训练超过了Chinchilla Optimal​

# Alignment

1.
现实：SFT海外保守，国内狂奔​
a.
SFT的训练很重要，这一点已经在LLaMA Eval中得到验证​
i.
Vicuna-33B没有进行Human Preference，但其表现却与SFT+RLHF的LLaMA-34B相差无几​
ii.
Vicuna并非SFT数据构造方面SOTA，近期论文已经在此方面做了更多的改进​
b.
但SFT训练的瓶颈在于，高质量的Response难以生成；而preference的数据标注相对容易，因此实际应用中更多的注意力被放在了preference modeling上​
i.
SFT阶段，依靠模型能力，并以人工挑选或改写模型生成的最佳答案的方式，似乎更经济实惠​
ii.
但美国大厂对使用模型生成数据进行训练的态度是谨慎的​
•
OpenAI有使用条款限制​
•
谷歌禁止员工使用GPT生成数据​
iii.
国内制约少，大家在利用模型构造数据上比较野蛮发展（几十万成本 + 几个月 = 数百万数据），但这也存在两类问题​
•
生成答案质量的上限受模型能力制约​
•
潜在的license issue / 潜在埋雷​
​

2.
方法：RLHF <> SFT 对比 及 搭配​
一个形象的比喻：SFT是跟着教科书学习，RLHF是自己做实验一步步改进​