什么是模型微调:SFT、DPO 和 RLHF 一次搞明白
一个生活中的类比假设你要培训一个新来的客服人员。 第一种方式:你给他一大堆标准话术——客户问什么、应该答什么,让他照着学。这叫监督学习。 第二种方式:他学完基本话术后开始实际接客。你听他的对话录音,好的回答你点赞,不好的你标个差评,让他慢慢...
共 2 篇相关文章
一个生活中的类比假设你要培训一个新来的客服人员。 第一种方式:你给他一大堆标准话术——客户问什么、应该答什么,让他照着学。这叫监督学习。 第二种方式:他学完基本话术后开始实际接客。你听他的对话录音,好的回答你点赞,不好的你标个差评,让他慢慢...
一个简单的问题你有没有想过:为什么同样是大语言模型,GPT-3 用起来就像跟一个自说自话的人聊天,而 ChatGPT 用起来就像跟一个靠谱的助手对话? 技术上它们的底子差不多——都是 Transformer 架构、都是海量数据训练出来的。但...