全发国际

全发国际(中国)有限公司官网

中文

全发国际(中国)有限公司官网

全发国际(中国)有限公司官网

登录

全发国际(中国)有限公司官网

产品

< 返回主菜单

产品

解决规划

< 返回主菜单

解决规划中心

行业

服务支持

合作同伴

关于全发国际

投资者关系

返回主菜单

选择区域/说话

全发国际(中国)有限公司官网

您订阅的产品有更新，，，，，请实时查阅

查看详情

首页
技术博文
全场景
技术盛宴 | 浅谈LLM推理机能的影响因子——HBD Size

全发国际(中国)有限公司官网

全发国际(中国)有限公司官网

技术盛宴 | 浅谈LLM推理机能的影响因子——HBD Size

作为GenAl时期的全栈服务专家，，，，，全发国际网络致力于为企业提供覆盖laaS到PaaS的全栈产品及解决规划。。。。。。

#全场景

颁布功夫：2024-05-31
点击量：
点赞：

分享至

全发国际(中国)有限公司官网

全发国际(中国)有限公司官网

全发国际(中国)有限公司官网

我想评论

随着LLM（大说话模型）技术的飞速发展，，，，，市面上出现越来越多的AGI利用，，，，，对话式机械人作为最普遍的利用已经深刻普罗公共的工作和进建中。。。。。。最显著的扭转就是从搜索引擎查问问题，，，，，转变为打开多款对话式机械人的APP进行查问，，，，，而后再综合多个解答进行自己的判断。。。。。。

那么，，，，，“对话式机械人”这类利用是若何凭据用户的输入，，，，，来进行有逻辑的高质量内容输出的呢？？？？？其性质是：先通过大量的“训练”工作使其具备可能理解用户说话、逻辑和思想的能力，，，，，再通过用户给出的输入进行“推理”运算，，，，，进而输出对应的内容与用户进行高质量互动。。。。。。

一、训练与推理的关系

LLM（大型说话模型）的训练和推理是模型性命周期中的两个关键阶段，，，，，我们能够类比成理论进建和利用实际的结合。。。。。。

1.训练阶段（进建阶段）：

该阶段是模型构建的基础，，，，，决定了模型的质量和利用成效。。。。。。

1）在训练阶段，，，，，LLM通过大量的文本数据进建说话的模式、语法、语义和高低文信息。。。。。。

2）使用深度进建技术，，，，，如神经网络，，，，，模型在训练过程中不休优化其参数，，，，，以提高对文本数据的建模能力。。。。。。

2.推理阶段（利用阶段）：

该阶段不涉及参数更新，，，，，将训练学到的知识利用到现实问题上。。。。。。

1）推理阶段是支使用训练好的模型对新的输入数据进行处置，，，，，以天生输出或做出决策的过程。。。。。。

2）在推理过程中，，，，，模型会接管新的文本输入，，，，，预测或天生文本，，，，，执行翻译，，，，，或者实现其他特定的NLP工作。。。。。。

3.差距性：

1）指标：训练和推理都旨在实现模型的最佳机能，，，，，但训练侧沉于进建，，，，，推理侧沉于利用。。。。。。

2）可用性：训练阶段的成效会直接影响推理阶段了局的可用性。。。。。。

3）资源亏损：训练通常必要大量的推算资源和数据，，，，，而推理则更注沉实时性、成本和可扩大性。。。。。。

4）持续进建：推理阶段的反馈能够用于改进模型，，，，，通过持续进建或增量进建的方式，，，，，使模型适应新的数据和场景。。。。。。

二、推理的过程

主流 LLM 根基都是 Decoder Only 的 Transformer 模型，，，，，推理过程能够分为两个阶段：

Transformer 模型结构图

Transformer 模型结构图

1.“预填充（Prefill）”阶段：

Prefill阶段是模型凭据用户输入的Tokens通过一次前向传布来天生第一个输出 Token。。。。。。在前向传布过程中，，，，，输入的Tokens之间以并行方式执走运算，，，，，所以具备比力高的执行效能。。。。。。

2.“解码（Decoding）”阶段：

在Prefill阶段天生第一个 Token（A）之后起头进入Decoding阶段。。。。。。在Decoding阶段中，，，，，解码器会以自回归的方式逐个天生输出序列的词元。。。。。。在每一步，，，，，它基于已天生的词元和之前的状态来预测下一个词元，，，，，直到天生一个特殊的 Stop Token（或者满足用户设置的某个限度前提，，，，，好比超过肯定的长度）天生过程就会终场。。。。。。Decoding阶段必要执行屡次前向传布，，，，，并且只能以串行的方式执行，，，，，因而效能相对比力低。。。。。。

两个阶段对算力芯片的要求也分歧，，，，，Prefill阶段为推算密集型，，，，，适合选用高算力 GPU；；；；；；；；Decoding阶段为访存密集型，，，，，相应的能够使用算力不是出格强而访存带宽比力大的 GPU。。。。。。

三、推理的评估指标

针对 LLM 推理服务通常有两种挪用模式，，，，，如下表所述：

针对 LLM 推理服务通常有两种挪用模式

类似ChatGPT 一样的 Streaming 方式，，，，，目前利用比力宽泛，，，，，重要由于能够给用户带来更好的交互履历，，，，，不必要长功夫期待即可获得系统反馈，，，，，因而本文以Streaming模式下的评估指标来进行分析。。。。。。

1.首个词元天生功夫（Time To First Token，，，，，简称TTFT）：

在用户输入查问的内容后，，，，，模型天生第一个输出token所必要的功夫。。。。。。

2.单个输出词元的天生功夫（Time Per Output Token，，，，，简称TPOT）：

推理系统凭据用户要求天生后续词元所必要的均匀功夫。。。。。。在人机实时交互的过程中，，，，，让用户得到急剧的响应至关沉要，，，，，延时较高会让客户陷入较长的期待功夫，，，，，大大影响交互履历，，，，，但只有天生速度大于人类的阅读速度就能获得很好的用户履历。。。。。。

3.Decoding吞吐：

通常用来衡量推理服务器在decoding阶段的输出效能，，，，，即decoding阶段的所有Token数量除以该阶段所必要的耗时。。。。。。

4.单卡吞吐：

通常用来衡量推理服务器实现本次推理工作的输出效能，，，，，即在Prefill阶段以及decoding阶段总共天生的Token数量除以整个推理工作所必要的耗时。。。。。。

四、推理机能的影响成分

影响LLM推理机能的因子有很多，，，，，本文沉点分析分歧HBD Size域在分歧集群规模以及分歧推算精度下对推理机能的影响。。。。。。

1.推算精度：

指浮点数（Floating Point Numbers）的分歧精度，，，，，好比FP16、FP8、FP4。。。。。。

2.事俘规模：

实现本次推理工作所必要的GPU卡数量。。。。。。

3.HBD （High Bandwidth Domain）Size：

一个推理事俘内，，，，，通过独立的高速通路形玉成联接的GPU卡的数量。。。。。。（跨服务器通过互换柜互联也算统一个HBD）

我们基于理论建模的和仿真算法，，，，，通过节造变量的对譬喻式，，，，，在保障单一因子变动的前提下去分析推算精度、集群规模以及HBD Size对推理机能的影响。。。。。。

测试模型选取B200算力卡进行仿照仿真，，，，，基于QWen 110B的基础上扩大16个MoE专家，，，，，Batch Size为16，，，，，Token输入序列为32K，，，，，同时如果HBD内通过1.8TB/s的双向带宽互联。。。。。。

HBD （High Bandwidth Domain）Size

如上图数据所示，，，，，发现以下景象：

64张B200的GPU卡规模下，，，，，组成该推理事俘时。。。。。。在上述模型推理中，，，，，HBD Size从8提升至64，，，，，TTFT最大降落46%，，，，，单卡吞吐最大提升41%。。。。。。

因而能够得出结论：HBD Size对推理机能有正面作用，，，，，即高速互联的GPU卡数量越多，，，，，推理机能越强。。。。。。

HBD （High Bandwidth Domain）Size

如上图数据所示，，，，，发现以下景象：

128张B200卡的GPU规模组成推理事俘时，，，，，在上述模型推理中，，，，，HBD Size从8提升至128，，，，，TTFT最大降落57%，，，，，单卡吞吐最大提升59%；；；；；；；；同样证明HBD Size的提升对推理机能有正面作用。。。。。。

对比上述两份数据，，，，，发现以下景象：

从64卡扩大到128卡规模时，，，，，TTFT指标从降落46%变动为降落57%，，，，，收益更显著；；；；；；；；再如单卡吞吐从提升41%变动为提升59%，，，，，收益更显著。。。。。。

因而能够得出结论：当选取更大规模GPU卡时，，，，，HBD Size扩增机遇能收益提升趋于显著。。。。。。

HBD （High Bandwidth Domain）Size

从上述表格数据中，，，，，我们发现以下景象：

同为128卡规模下，，，，，FP16精度下随着HBD Size提升，，，，，Prefill与Decoding阶段的通讯功夫占比逐步降落，，，，，这种景象在FP8和FP4精度下也同样存在。。。。。。

当选取更低推算精度时，，，，，FP16精度下从8卡提升到128卡，，，，，单卡吞吐提升倍率为1.36；；；；；；；；而在FP4精度下从8卡提升到128卡，，，，，单卡的吞吐提升倍率为1.63。。。。。。

因而能够得出结论：在更低的推算精度下，，，，，HBD Size扩增机遇能收益提升趋于显著。。。。。。

五、结论

1、在一样集群规模和同样的推算精度下，，，，，随着HBD Size的提升，，，，，推理机能也随之提升。。。。。。具体阐发为TTFT降低，，，，，Decoding吞吐及单卡吞吐提升。。。。。。

2、在一样推算精度下，，，，，集群规模越大，，，，，HBD Size的提升收益愈发显著。。。。。。具体阐发为TTFT降低幅度更大，，，，，Decoding吞吐及单卡吞吐提升幅度更大。。。。。。

3、在一样集群规模下，，，，，推算精度越低，，，，，HBD Size的提升收益愈发显著。。。。。。具体阐发为Prefill与Decoding阶段的通讯功夫占比逐步降落幅度越慢，，，，，单卡吞吐提升倍率幅度越大。。。。。。

全发国际网络，，，，，作为GenAI时期的全栈服务专家，，，，，致力于为企业提供覆盖IaaS到PaaS的全栈产品及解决规划。。。。。。全发国际产品覆盖高机能网络与GPU算力优化调度，，，，，旨在通过创新技术解决规划，，，，，援手客户实现出产效能的飞跃与运营成本的优化。。。。。。我们坚信，，，，，通过全发国际致力，，，，，可能为客户打造一个越发智能、高效和靠得住的将来。。。。。。让我们携手，，，，，共同索求GenAI时期的每一个机缘。。。。。。

有关标签：

#全场景

全发国际(中国)有限公司官网

全发国际(中国)有限公司官网

点赞

<< 智能接入网关是什么意思?它有什么用?

什么是本地网关？？？？？ >>

客户评论

暂无评论

我要评论

您的姓名

您的手机号*

您的邮箱

公司名称

您的评论*

我已仔细阅读并赞成隐衷申明

验证码*

提交评论

更多技术博文

任何必要，，，，，请联系全发国际

与售前照拂交谈

填写项目需要表单

售前征询
售后服务
定见反馈

全发国际(中国)有限公司官网

返回顶部

收起

文档AI副手

文档评价

该资料是否解决了您的问题？？？？？

您对当前页面的中意度若何？？？？？

不咋滴

极度好

您中意的原因是（多。。。。。。？？？？？

您对文档是否还有其它的问题或建议？？？？？

为尽快解决问题，，，，，请您留下联系方式以便回复

邮箱

手机号

感激您的反。。。。。。

全发国际(中国)有限公司官网

全发国际(中国)有限公司官网

全发国际(中国)有限公司官网

请选择服务项目

售前征询

售后服务

定见反馈

更多联系方式

【网站地图】【sitemap】