CT-LLM-Inference介紹
更新時間 2024-11-25 09:42:28
最近更新時間: 2024-11-25 09:42:28
分享文章
這里介紹天翼云自研的CT-LLM-Inference超長序列生成軟件包的相關信息。
這里介紹天翼云基于開源推理平臺vllm拓展的基于上下文并行進行超長序列生成軟件包CT-LLM-Inference的相關信息,超長序列指的是理論上無限長的序列,實際上的生成長度只限于所有可用的計算單元(GPU)內存大小。
功能簡介
大語言模型主要是多層,多頭結構,各個分層和頭可獨立運行、參數獨立存儲,主流大語言模型推理框架(如vllm)的并行方式就依靠上述存儲方式采用張量并行、流水線并行,其中張量并行是將模型不同分層的權重存儲在不同的計算單元(GPU/NPU)上達成并行,流水線并行則是將模型多頭表示的各個頭的權重存儲在不同的計算單元(GPU/NPU)上達成并行。這些主流方案存在理論上的并行上限,例如流水線并行的計算單元數量不能超過模型層數,張量并行的計算單元數量不能超過模型的注意力頭數。
大語言模型的推理運行方式是通過不斷地將當前token向量與文本上文tokens向量之間計算注意力加權過的新向量并進行存儲,這樣當所需推理的文本長度特別長時,計算單元(GPU/NPU)的存儲空間會很快耗盡。
與主流基于模型參數分布式存儲的思路不同:
- 本方案是在多個計算單元上分別存儲整個模型的參數,而對不斷累積的推理出的上下文向量信息進行分布式存儲,即第一個計算單元存儲滿了之后,存入第二個,再裝滿后,裝入第三個,以此類推。
- 本方案的并行上限理論上并不受模型結構限制,只要有足夠的計算單元補充,無限長的文本上下文信息都可以進行并行存儲。此功能可被應用于處理超長文本推理;提升分層少、頭數少的模型的并行能力;利用多個小內存的計算單元進行超長文本推理。