51B AI 模型:创新神经架构搜索等技术让单 H100 GPU 运行 4 倍以上负载

文章正文
发布时间:2024-10-02 06:14

英伟达 9 月 23 日发布博文,宣布推出 Llama-3.1-Nemotron-51B AI 模型,源自 Meta 公司的 Llama-3.1-70B,不过创新使用神经架构搜索(NAS)方法,建立了一个高度准确和高效的模型。

Llama-3.1-Nemotron-51B 简介

Llama-3.1-Nemotron-51B AI 模型将于 Meta 公司 2024 年 7 月发布的 Llama-3.1-70B 模型,共有 510 亿参数。

该 AI 模型主要采用了神经架构搜索(NAS)技术微调,平衡性能和效率,在高工作负荷下,只需要一片 H100 GPU 即可运行,大大降低了内存消耗、计算复杂性以及与运行此类大型模型相关的成本。

英伟达认为这种方式在保持了出色的精度前提下,显著降低了内存占用、内存带宽和 FLOPs,并证明可以在创建另一个更小、更快的变体来加以推广。

Llama-3.1-Nemotron-51B 性能

相比较 Meta 的 Llama-3.1-70B 模型,Llama-3.1-Nemotron-51B 在保持了几乎相同的精度情况下,推理速度提高了 2.2 倍。


  准确率   能效  

  MT Bench   MMLU   Text generation (128/1024)   Summarization/ RAG (2048/128)  
Llama-3.1- Nemotron-51B- Instruct   8.99   80.2%   6472   653  
Llama 3.1-70B- Instruct   8.93   81.66%   2975   339  
Llama 3.1-70B- Instruct (single GPU)       1274   301  
Llama 3-70B   8.94   80.17%   2975   339  
效率和性能方面的突破

开发 LLM 过程中面临的主要挑战之一是如何平衡精度与计算效率。许多大规模模型都能提供最先进的结果,但却需要耗费大量的硬件和能源资源,这限制了它们的适用性。

英伟达的新模型在这两个相互竞争的因素之间取得了微妙的平衡。

Llama-3.1-Nemotron-51B 实现了令人印象深刻的精度与效率权衡,减少了内存带宽,降低了每秒浮点运算次数 (FLOP),并减少了总体内存占用,同时不影响模型执行推理、总结和语言生成等复杂任务的能力。

改进工作量管理,提高成本效益

Llama-3.1-Nemotron-51B 的一个突出特点是能够在单个 GPU 上管理更大的工作负载。该型号允许开发人员在更具成本效益的环境中部署高性能 LLMs,在一个 H100 设备上运行以前需要多个 GPU 才能完成的任务。

Llama-3.1-Nemotron-51B 模型还减少了内存占用,在推理过程中可以在单个 GPU 上运行 4 倍以上的工作负载,从而带来了一系列新的机遇。

架构优化:成功的关键

Llama-3.1-Nemotron-51B 的成功主要归功于一种新颖的结构优化方法。传统上,LLMs 是使用相同的块构建的,这些块在整个模型中重复出现。

这虽然简化了构建过程,但也带来了效率低下的问题,特别是在内存和计算成本方面。

英伟达通过采用 NAS 技术来优化推理模型,从而解决了这些问题。该团队采用了分块蒸馏过程,即训练更小、更高效的学生模型(student model),以模仿更大的教师模型(teacher model)的功能。

通过完善这些学生模型并评估其性能,英伟达开发出了 Llama-3.1 版本,在大幅降低资源需求的同时,还能提供类似的准确度。

Puzzle 算法和知识蒸馏

Llama-3.1-Nemotron-51B 有别于其他模型的另一个关键组件,就是 Puzzle 算法。

该算法对模型中的每个潜在区块进行评分,并确定哪些配置能在速度和精度之间取得最佳平衡。

跑分   Llama-3.1 70B-instruct   Llama-3.1-Nemotron-51B- Instruct   准确率  
winogrande   85.08%   84.53%   99.35%  
arc_challenge   70.39%   69.20%   98.30%  
MMLU   81.66%   80.20%   98.21%  
hellaswag   86.44%   85.58%   99.01%  
gsm8k   92.04%   91.43%   99.34%  
truthfulqa   59.86%   58.63%   97.94%  
xlsum_english   33.86%   31.61%   93.36%  
MMLU Chat   81.76%   80.58%   98.55%  
gsm8k Chat   81.58%   81.88%   100.37%  
Instruct HumanEval (n=20)   75.85%   73.84%   97.35%  
MT Bench   8.93   8.99   100.67%  

通过使用知识蒸馏技术,Nvidia 缩小了参考模型(Llama-3.1-70B)与 Nemotron-51B 之间的精度差距,同时显著降低了训练成本。

场景   Input/Output Sequence Length   Llama-3.1- Nemotron- Instruct   Llama-3.1-70B-Instruct   Ratio   Llama (TP1)  
Chatbot   128/128   5478 (TP1)   2645 (TP1)   2.07   2645  
Text generation   128/1024   6472 (TP1)   2975 (TP4)   2.17   1274  
Long text generation   128/2048   4910 (TP2)   2786 (TP4)   1.76   646  
System 2 reasoning   128/4096   3855 (TP2)   1828 (TP4)   2.11   313  
Summarization/ RAG   2048/128   653 (TP1)   339 (TP4)   1.92   300  
Stress test 1   2048/2048   2622 (TP2)   1336 (TP4)   1.96   319  

IT之家附上参考地址

Advancing the Accuracy-Efficiency Frontier with Llama-3.1-Nemotron-51B

Nvidia AI Releases Llama-3.1-Nemotron-51B: A New LLM that Enables Running 4x Larger Workloads on a Single GPU During Inference

本文转载自IT之家,转载目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请联系IT之家通知我方删除,我方将在收到通知后第一时间删除内容!本文只提供参考并不构成任何投资及应用建议。本站拥有对此声明的最终解释权。

首页
评论
分享
Top