CHATGPT有个阶段需要通过人工标注训练数据(给很多回答结果排名顺序)
做人工标识的是在非洲2刀一小时的工人,他们训练的结果你能100%相信吗
蔺晨 发表于 2023-08-22 16:42
human feedback 的过程有自身的 QA process,虽然是计件工作,但是随机乱标识是不行的。比如同样的题目会给不同人标识;同时也随机采样答案和真题答案比较,经常出错的那工作就不保了
CHATGPT有个阶段需要通过人工标注训练数据(给很多回答结果排名顺序)
做人工标识的是在非洲2刀一小时的工人,他们训练的结果你能100%相信吗
蔺晨 发表于 2023-08-22 16:42
human feedback 的过程有自身的 QA process,虽然是计件工作,但是随机乱标识是不行的。比如同样的题目会给不同人标识;同时也随机采样答案和真题答案比较,经常出错的那工作就不保了
趁这个机会问一下楼上两位,IBM watson assistant 都是 "question answering" robot
为什么没有CHATGPT这么火
蔺晨 发表于 2023-08-22 17:35
最早的 IBM watson 是基于 statistical learning,GPT这一类是基于 tranformer 的 deep neural net learning
到了gpt 3.5,gpt 4 人们发现大数据量+RLHF,回答质量一下好了很多,就火起来了
你需要登录后才可以编辑
登录 | 注册