Tensorrt LLM - 搜索 News

贾扬清点赞：3K star量的SGLang上新，加速Llama 405B推理秒杀vLLM、TensorRT-LLM

用来运行 Llama 3 405B 优势明显。最近，Meta 开源了最新的 405B 模型（Llama 3.1 405B），把开源模型的性能拉到了新高度。由于模型参数量很大，很多开发者都关心一个问题：怎么提高模型的推理速度？时隔才两天，LMSYS Org 团队就出手了，推出了全新的 SGLang Runtime v0.2。

腾讯网

阿里安全使用 NVIDIA NeMo 框架和 TensorRT-LLM 的大模型工程化落地实践

随着 ChatGPT 的一夜爆火，大模型如今越来越广泛的应用到各种业务领域中，阿里安全的业务领域对大模型技术的应用也已经 2 年有余。本文对阿里安全在大模型工程领域积累的实践经验做出总结和分享。在大模型实际应用实践的过程中，阿里安全采用 NVIDIA NeMo ...

腾讯网

掀桌子了！满血版3万Tokens每秒，英伟达捅破DeepSeek推理性能天花板 ...

30000个tokens每秒，太炸裂了！刚刚，英伟达在2025GTC大会上宣布了创世界纪录的满血 DeepSeek-R1 推理性能。 DGX系统搭载八颗NVIDIA Blackwell GPU，在DeepSeek-R1模型（6710亿参数）推理任务中创下了世界纪录↓ 单用户推理速度超过每秒250个token，峰值吞吐量超过每秒30000个token ...

来自MSN

CES 2026 | NVIDIA TensorRT Edge-LLM 加速汽车与机器人领域的 LLM 和 VLM 推理

大语言模型（LLM）与多模态推理系统正迅速突破数据中心的局限。越来越多的汽车与机器人领域的开发者希望将对话式 AI 智能体、多模态感知系统和高级规划功能直接部署在端侧，因为在这些场景中，低延迟、高可靠性以及离线运行能力至关重要。本文介绍了 ...

快科技

NVIDIA RTX显卡AI推理提速5倍！RTX PC轻松在本地搞定大模型

快科技11月16日消息，正在举行的微软Iginte全球技术大会上，微软发布一系列AI相关的全新优化模型、开发工具资源，帮助开发者更深入地释放硬件性能，拓展AI场景。尤是对于当下在AI领域占据绝对主导地位的NVIDIA来说，微软这次送上了一份大礼包，无论是面向 ...

新浪网

英伟达下场，首次优化DeepSeek-R1！B200性能狂飙25倍，碾压H100

当FP4的魔法与Blackwell的强大算力相遇，会碰撞出怎样的火花？答案是：推理性能暴涨25倍，成本狂降20倍！随着DeepSeek-R1本地化部署的爆火，英伟达也亲自下场，开源了首个基于Blackwell架构的优化方案——DeepSeek-R1-FP4。在新模型的加持下，B200实现了高达21,088 token ...

快科技

支持所有RTX显卡！NVIDIA TensorRT带来性能翻倍提升

快科技5月20日消息，NVIDIA宣布，TensorRT AI推理加速框架现已登陆GeForce RTX显卡，性能比DirectML直接翻倍。 TensorRT是NVIDIA推出的一种推理优化器，能够显著提升AI模型的运行效率，此次，NVIDIA将TensorRT引入RTX平台，使得所有RTX显卡的用户都能享受到更快的AI性能。

来自MSN

英伟达宣布创造满血 DeepSeek 推理世界纪录

IT之家 3 月 19 日消息，英伟达在今日举行的 NVIDIA GTC 2025 上宣布其 NVIDIA Blackwell DGX 系统创下 DeepSeek-R1 大模型推理性能的世界纪录。据介绍，在搭载了八块 Blackwell GPU 的单个 DGX 系统上运行 6710 亿参数的满血 DeepSeek-R1 模型可实现每用户每秒超 250 token 的响应速度 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果