全发国际

620 点全场景落地 丨 半导体大厂熙泰科技的云桌面安全与提效实战分享
预约直播
AI时期, ,,,,医疗网络怎么建 丨 全发国际医疗极简以太彩光双超融合网络解决规划颁布
预约直播
全发国际(中国)有限公司官网
产品
< 返回主菜单
产品中心
产品
解决规划
< 返回主菜单
解决规划中心
行业
合作同伴
返回主菜单
选择区域/说话
全发国际(中国)有限公司官网

您订阅的产品有更新, ,,,,请实时查阅

查看详情
全发国际(中国)有限公司官网 全发国际(中国)有限公司官网

技术盛宴 | 浅谈LLM推理机能的影响因子——HBD Size

作为GenAl时期的全栈服务专家, ,,,,全发国际网络致力于为企业提供覆盖laaS到PaaS的全栈产品及解决规划。。 。。 。 。

  • 全发国际(中国)有限公司官网

    颁布功夫:2024-05-31

  • 全发国际(中国)有限公司官网

    点击量:

  • 全发国际(中国)有限公司官网

    点赞:

分享至

全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网

我想评论

随着LLM(大说话模型)技术的飞速发展, ,,,,市面上出现越来越多的AGI利用, ,,,,对话式机械人作为最普遍的利用已经深刻普罗公共的工作和进建中。。 。。 。 。最显著的扭转就是从搜索引擎查问问题, ,,,,转变为打开多款对话式机械人的APP进行查问, ,,,,而后再综合多个解答进行自己的判断。。 。。 。 。

那么, ,,,,“对话式机械人”这类利用是若何凭据用户的输入, ,,,,来进行有逻辑的高质量内容输出的呢?????其性质是:先通过大量的“训练”工作使其具备可能理解用户说话、逻辑和思想的能力, ,,,,再通过用户给出的输入进行“推理”运算, ,,,,进而输出对应的内容与用户进行高质量互动。。 。。 。 。 

一、训练与推理的关系

LLM(大型说话模型)的训练和推理是模型性命周期中的两个关键阶段, ,,,,我们能够类比成理论进建和利用实际的结合。。 。。 。 。

1.训练阶段(进建阶段):

该阶段是模型构建的基础, ,,,,决定了模型的质量和利用成效。。 。。 。 。

1)在训练阶段, ,,,,LLM通过大量的文本数据进建说话的模式、语法、语义和高低文信息。。 。。 。 。

2)使用深度进建技术, ,,,,如神经网络, ,,,,模型在训练过程中不休优化其参数, ,,,,以提高对文本数据的建模能力。。 。。 。 。

2.推理阶段(利用阶段):

该阶段不涉及参数更新, ,,,,将训练学到的知识利用到现实问题上。。 。。 。 。

1)推理阶段是支使用训练好的模型对新的输入数据进行处置, ,,,,以天生输出或做出决策的过程。。 。。 。 。

2)在推理过程中, ,,,,模型会接管新的文本输入, ,,,,预测或天生文本, ,,,,执行翻译, ,,,,或者实现其他特定的NLP工作。。 。。 。 。

3.差距性:

1)指标:训练和推理都旨在实现模型的最佳机能, ,,,,但训练侧沉于进建, ,,,,推理侧沉于利用。。 。。 。 。

2)可用性:训练阶段的成效会直接影响推理阶段了局的可用性。。 。。 。 。

3)资源亏损:训练通常必要大量的推算资源和数据, ,,,,而推理则更注沉实时性、成本和可扩大性。。 。。 。 。

4)持续进建:推理阶段的反馈能够用于改进模型, ,,,,通过持续进建或增量进建的方式, ,,,,使模型适应新的数据和场景。。 。。 。 。
 

二、推理的过程

主流 LLM 根基都是 Decoder Only 的 Transformer 模型, ,,,,推理过程能够分为两个阶段:

 

Transformer 模型结构图 

Transformer 模型结构图

 

1.“预填充(Prefill)”阶段:

Prefill阶段是模型凭据用户输入的Tokens通过一次前向传布来天生第一个输出 Token。。 。。 。 。在前向传布过程中, ,,,,输入的Tokens之间以并行方式执走运算, ,,,,所以具备比力高的执行效能。。 。。 。 。

2.“解码(Decoding)”阶段:

在Prefill阶段天生第一个 Token(A)之后起头进入Decoding阶段。。 。。 。 。在Decoding阶段中, ,,,,解码器会以自回归的方式逐个天生输出序列的词元。。 。。 。 。在每一步, ,,,,它基于已天生的词元和之前的状态来预测下一个词元, ,,,,直到天生一个特殊的 Stop Token(或者满足用户设置的某个限度前提, ,,,,好比超过肯定的长度) 天生过程就会终场。。 。。 。 。Decoding阶段必要执行屡次前向传布, ,,,,并且只能以串行的方式执行, ,,,,因而效能相对比力低。。 。。 。 。

两个阶段对算力芯片的要求也分歧, ,,,,Prefill阶段为推算密集型, ,,,,适合选用高算力 GPU;;;;;;;;Decoding阶段为访存密集型, ,,,,相应的能够使用算力不是出格强而访存带宽比力大的 GPU。。 。。 。 。

 

三、推理的评估指标

针对 LLM 推理服务通常有两种挪用模式, ,,,,如下表所述:

 

针对 LLM 推理服务通常有两种挪用模式

 

类似ChatGPT 一样的 Streaming 方式, ,,,,目前利用比力宽泛, ,,,,重要由于能够给用户带来更好的交互履历, ,,,,不必要长功夫期待即可获得系统反馈, ,,,,因而本文以Streaming模式下的评估指标来进行分析。。 。。 。 。

1.首个词元天生功夫(Time To First Token, ,,,,简称TTFT):

在用户输入查问的内容后, ,,,,模型天生第一个输出token所必要的功夫。。 。。 。 。

2.单个输出词元的天生功夫(Time Per Output Token, ,,,,简称TPOT):

推理系统凭据用户要求天生后续词元所必要的均匀功夫。。 。。 。 。在人机实时交互的过程中, ,,,,让用户得到急剧的响应至关沉要, ,,,,延时较高会让客户陷入较长的期待功夫, ,,,,大大影响交互履历, ,,,,但只有天生速度大于人类的阅读速度就能获得很好的用户履历。。 。。 。 。

3.Decoding吞吐:

通常用来衡量推理服务器在decoding阶段的输出效能, ,,,,即decoding阶段的所有Token数量除以该阶段所必要的耗时。。 。。 。 。

4.单卡吞吐:

通常用来衡量推理服务器实现本次推理工作的输出效能, ,,,,即在Prefill阶段以及decoding阶段总共天生的Token数量除以整个推理工作所必要的耗时。。 。。 。 。

 

四、推理机能的影响成分

影响LLM推理机能的因子有很多, ,,,,本文沉点分析分歧HBD Size域在分歧集群规模以及分歧推算精度下对推理机能的影响。。 。。 。 。

1.推算精度:

指浮点数(Floating Point Numbers)的分歧精度, ,,,,好比FP16、FP8、FP4。。 。。 。 。

2.事俘规模:

实现本次推理工作所必要的GPU卡数量。。 。。 。 。

3.HBD (High Bandwidth Domain)Size:

一个推理事俘内, ,,,,通过独立的高速通路形玉成联接的GPU卡的数量。。 。。 。 。(跨服务器通过互换柜互联也算统一个HBD)

我们基于理论建模的和仿真算法, ,,,,通过节造变量的对譬喻式, ,,,,在保障单一因子变动的前提下去分析推算精度、集群规模以及HBD Size对推理机能的影响。。 。。 。 。

测试模型选取B200算力卡进行仿照仿真, ,,,,基于QWen 110B的基础上扩大16个MoE专家, ,,,,Batch Size为16, ,,,,Token输入序列为32K, ,,,,同时如果HBD内通过1.8TB/s的双向带宽互联。。 。。 。 。

 

HBD (High Bandwidth Domain)Size 

如上图数据所示, ,,,,发现以下景象:

64张B200的GPU卡规模下, ,,,,组成该推理事俘时。。 。。 。 。在上述模型推理中, ,,,,HBD Size从8提升至64, ,,,,TTFT最大降落46%, ,,,,单卡吞吐最大提升41%。。 。。 。 。

因而能够得出结论:HBD Size对推理机能有正面作用, ,,,,即高速互联的GPU卡数量越多, ,,,,推理机能越强。。 。。 。 。

 

HBD (High Bandwidth Domain)Size

 

如上图数据所示, ,,,,发现以下景象:

128张B200卡的GPU规模组成推理事俘时, ,,,,在上述模型推理中, ,,,,HBD Size从8提升至128, ,,,,TTFT最大降落57%, ,,,,单卡吞吐最大提升59%;;;;;;;;同样证明HBD Size的提升对推理机能有正面作用。。 。。 。 。

对比上述两份数据, ,,,,发现以下景象:

从64卡扩大到128卡规模时, ,,,,TTFT指标从降落46%变动为降落57%, ,,,,收益更显著;;;;;;;;再如单卡吞吐从提升41%变动为提升59%, ,,,,收益更显著。。 。。 。 。

因而能够得出结论:当选取更大规模GPU卡时, ,,,,HBD Size扩增机遇能收益提升趋于显著。。 。。 。 。

 

HBD (High Bandwidth Domain)Size

 

从上述表格数据中, ,,,,我们发现以下景象:

同为128卡规模下, ,,,,FP16精度下随着HBD Size提升, ,,,,Prefill与Decoding阶段的通讯功夫占比逐步降落, ,,,,这种景象在FP8和FP4精度下也同样存在。。 。。 。 。

当选取更低推算精度时, ,,,,FP16精度下从8卡提升到128卡, ,,,,单卡吞吐提升倍率为1.36;;;;;;;;而在FP4精度下从8卡提升到128卡, ,,,,单卡的吞吐提升倍率为1.63。。 。。 。 。

因而能够得出结论:在更低的推算精度下, ,,,,HBD Size扩增机遇能收益提升趋于显著。。 。。 。 。

五、结论

1、在一样集群规模和同样的推算精度下, ,,,,随着HBD Size的提升, ,,,,推理机能也随之提升。。 。。 。 。具体阐发为TTFT降低, ,,,,Decoding吞吐及单卡吞吐提升。。 。。 。 。

2、在一样推算精度下, ,,,,集群规模越大, ,,,,HBD Size的提升收益愈发显著。。 。。 。 。具体阐发为TTFT降低幅度更大, ,,,,Decoding吞吐及单卡吞吐提升幅度更大。。 。。 。 。

3、在一样集群规模下, ,,,,推算精度越低, ,,,,HBD Size的提升收益愈发显著。。 。。 。 。具体阐发为Prefill与Decoding阶段的通讯功夫占比逐步降落幅度越慢, ,,,,单卡吞吐提升倍率幅度越大。。 。。 。 。

全发国际网络, ,,,,作为GenAI时期的全栈服务专家, ,,,,致力于为企业提供覆盖IaaS到PaaS的全栈产品及解决规划。。 。。 。 。全发国际产品覆盖高机能网络与GPU算力优化调度, ,,,,旨在通过创新技术解决规划, ,,,,援手客户实现出产效能的飞跃与运营成本的优化。。 。。 。 。我们坚信, ,,,,通过全发国际致力, ,,,,可能为客户打造一个越发智能、高效和靠得住的将来。。 。。 。 。让我们携手, ,,,,共同索求GenAI时期的每一个机缘。。 。。 。 。

有关标签:

全发国际(中国)有限公司官网 全发国际(中国)有限公司官网

点赞

更多技术博文

任何必要, ,,,,请联系全发国际

全发国际(中国)有限公司官网

返回顶部

收起
全发国际(中国)有限公司官网 文档AI副手
全发国际(中国)有限公司官网 文档评价
该资料是否解决了您的问题?????
您对当前页面的中意度若何?????
不咋滴
极度好
您中意的原因是(多。。 。。 。 。?????
您对文档是否还有其它的问题或建议?????
为尽快解决问题, ,,,,请您留下联系方式以便回复
邮箱
手机号
感激您的反。。 。。 。 。
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
全发国际(中国)有限公司官网
请选择服务项目
关关征询页
售前征询 售前征询
售前征询
售后服务 售后服务
售后服务
定见反馈 定见反馈
定见反馈
更多联系方式
【网站地图】【sitemap】