Math Mark Down Example

陈丹琦团队反直觉发现：打破正向反馈迷信，「以罚代奖」才是推理 ...

只要模型做对了就给糖吃？这可能是我们对 RLVR 最大的误解。在 DeepSeek-R1 确立了 GRPO 这一训练范式后，学术界和工业界在提升大模型推理能力时，普遍遵循正向反馈优先的原则，即通过强化正确的 Ground Truth 路径来引导模型。然而，普林斯顿大学陈丹琦团队与 ...

GitHub

2024-9-9-cuda.markdown

CUDA是NVIDIA最早推出的通用数学运算库。除了基本的数学运算之外，还提供了一些工具包： cuBLAS：线性计算库。除了基本版的API之外，它还包括以下扩展： cuBLASXt适合处理非常大的矩阵和多GPU操作 cuBLASLt提供了一定程度的灵活性，适合中等大小的矩阵 cuBLASDx则 ...

GitHub

wp-2020-11-07-伊豆的小卡车.markdown

去别的国家旅游，除了美景和美食，我总忘不了观察他们的日常事物。街道的构造，人行道的地砖，地铁的扶手，酒店浴室的 ...

搜狐

超越DPO！大模型精细化对齐之Step-DPO

近期，GSM8K、MATH 被各种 7B 小模型刷的飞起，其中，step-level-dpo 成为刷分利器。这里，instance-level-dpo 指 preference-dataset使用完整的chosen-tracjectory 和 rejected-tracjectory。而 step-level-dpo 则使用 step-chosen、step-rejected ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果