作为 RLHF 方面的专家,Lambert 认为,当前最顶尖的模型训练,已经高度依赖强化学习(RL)。而 RL 和蒸馏在本质上是两种不同的事情:
Continue reading...
,更多细节参见同城约会
Карина Черных (Редактор отдела «Ценности»)
具体来看,Perplexity Computer 可以指定 Anthropic 的 Claude Opus 4.6 担任核心推理引擎,同时调用 Gemini 进行深度检索、Nano Banana 生成图像、Veo 3.1 制作视频以及 Grok 处理轻量化高频任务。