九游会·(j9)官方网站

新闻你的位置:九游会·(j9)官方网站 > 新闻 > 九游会欧洲杯和每token本钱裁汰20倍的惊东说念主恶果-九游会·(j9)官方网站
九游会欧洲杯和每token本钱裁汰20倍的惊东说念主恶果-九游会·(j9)官方网站

2025-03-08 07:56    点击次数:111

  

九游会欧洲杯和每token本钱裁汰20倍的惊东说念主恶果-九游会·(j9)官方网站

新智元报说念

剪辑:好困 犀牛

【新智元导读】最近,开源了首个在Blackwell架构上优化的DeepSeek-R1,扫尾了推理速率耕种25倍,和每token本钱裁汰20倍的惊东说念主恶果。同期,DeepSeek继续开源多个英伟达GPU优假名堂,共同探索模子性能极限。

当FP4的魔法与Blackwell的巨大算力再见,会碰撞出怎样的火花?

谜底是:推感性能暴涨25倍,本钱狂降20倍!

跟着DeepSeek-R1土产货化部署的爆火,英伟达也亲身下场,开源了首个基于Blackwell架构的优化决议——DeepSeek-R1-FP4。

在新模子的加握下,B200扫尾了高达21,088 token每秒的的推理隐约量,比拟于H100的844 token每秒,耕种了25倍。

与此同期,每token的本钱也扫尾了20倍的裁汰。

通过在Blackwell架构上应用TensorRT DeepSeek优化,英伟达让具有FP4坐褥级精度的模子,在MMLU通用智能基准测试中达到了FP8模子性能的99.8%。

DeepSeek-R1初次基于Blackwell GPU优化

当今,英伟达基于FP4优化的DeepSeek-R1查验点现已在Hugging Face上开源。

模子地址:https://huggingface.co/nvidia/DeepSeek-R1-FP4

后老到量化

模子将Transformer模块内的线性算子的权重和激活量化到了FP4,适用于TensorRT-LLM推理。

这种优化将每个参数从8位减少到4位,从而让磁盘空间和GPU显存的需求减少了约1.6倍。

使用TensorRT-LLM部署

要使用TensorRT-LLM LLM API部署量化后的FP4权重文献,并为给定的辅导生成文本反应,请参照以下示例代码:

硬件条目:需要复旧TensorRT-LLM的英伟达GPU(如B200),况且需要8个GPU来扫尾tensor_parallel_size=8的张量并行。

性能优化:代码诓骗FP4量化、TensorRT引擎和并行打算,旨在扫尾高效、低本钱的推理,适合坐褥环境或高隐约量应用。

from tensorrt_llm import SamplingParams\nfrom tensorrt_llm._torch import LLM\n\ndef main():\n\nprompts = [\n\"Hello, my name is\",\n\"The president of the United States is\",\n\"The capital of France is\",\n\"The future of AI is\",\n]\nsampling_params = SamplingParams(max_tokens=32)\n\nllm = LLM(model=\"nvidia/DeepSeek-R1-FP4\", tensor_parallel_size=8, enable_attention_dp=True)\n\noutputs = llm.generate(prompts, sampling_params)\n\n# Print the outputs.\nfor output in outputs:\nprompt = output.prompt\ngenerated_text = output.outputs[0].text\nprint(f\"Prompt: {prompt!r}, Generated text: {generated_text!r}\")\n\n\n# The entry point of the program need to be protected for spawning processes.\nif __name__ == '__main__':\nmain()

关于这次优化的恶果,网友暗示咋舌。

「FP4魔法让AI往时依然横蛮!」网友Isha驳倒说念。

网友algorusty则宣称,有了这次的优化后,好意思国供应商大致以每百万token 0.25好意思元的价钱提供R1。

「还会成心润。」

网友Phil则将这次的优化与DeepSeek本周的开源5连发计划了起来。

「这展示了硬件和开源模子计划的可能性。」他暗示。

DeepSeek全面开源

如今DeepSeek握续5天的「开源周」还是进行到了第3天。

周一,他们开源了FlashMLA。这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核,至极针对变长序列进行了优化,当今已精良投产使用。

周二开源了DeepEP,这是一个专为搀和群众系统(MoE)和群众并行(EP)遐想的通讯库。

周三开源的是DeepGEMM。这是一个复旧茁壮和MoE模子的FP8 GEMM(通用矩阵乘法)打算库,可为V3/R1的老到和推理提供巨大复旧。

总的来说,不论是英伟达开源的DeepSeek-R1-FP4,照旧DeepSeek开源的三个仓库,王人是通过对英伟达GPU和集群的优化,来股东AI模子的高效打算和部署。

参考贵寓:

https://x.com/NVIDIAAIDev/status/1894172956726890623