包括强化学习 RLHF GRPO 大模型算法:强化学习 SFT与CoT蒸馏等 训练算法 DPO 等 微调与对齐本书系统地讲解了大模型技术
商品详情
  • 相关推荐