平臺在線推理模塊提供預置服務和我的服務兩類,預置服務是平臺已部署好的服務,無等待時間,可直接調用;我的服務支持用戶所部署的模型。
預置服務
操作步驟
登錄模型推理服務。
在左側導航欄選擇“在線推理”,選擇“預置服務”。
在預置服務列表可查看目前平臺預置的所有服務,預置服務支持免費試用和付費使用。
計費說明
在調用模型推理服務的過程中,輸入內容首先會被分詞(tokenize),轉換為模型可識別的Token。在調用MaaS預置服務時,將根據實際使用的Tokens數量進行計費。平臺提供免費試用額度和tokens按量、tokens量包、TPM包三種商用服務。
免費試用
每個模型被賦予不等的免費額度和免費試用期限,具體免費額度可在頁面中查看,免費期限從第一次使用該模型開始計算。免費額度用完或到期后,可以付費開通服務。
共享機制:主/子賬號共用免費額度及有效期周期額度
不可分配:不支持主賬號向子賬號分配額度
有效期觸發:主賬號任一賬號首次使用模型服務即啟動2周有效期倒計時
tokens按量付費使用
部分模型支持開通付費token服務。暫不支持開通付費token的模型可轉為部署為“我的服務”。
獨立開通:各賬號可單獨開通付費服務,操作互不影響。
狀態獨立:各賬號頁面顯示自身付費狀態,不關聯其他賬號。
閑時推理:部分模型推出優惠時段價格,在優惠時段內的請求按優惠價格計費。
統一扣費:所有子賬號消費均從主賬號余額扣除。
計費策略:支持tokens按量付費使用的模型、支持閑時推理模型及對應價格參見按需計費模式-Tokens。
舉例:子賬號A已開通付費,成功后即可付費使用Tokens;子賬號B未開通,則子賬號B不可付費使用tokens。
開通token量包/TPM包
購買限制:只允許主賬號開通tokens量包和TPM包,主賬號及所有子賬號共用資源。
購買記錄:主賬號可在訂單管理處查詢訂單,主子賬號皆可在模型服務詳情頁查看用量。
用量統計:各賬號獨立統計調用監控,主賬號通過監控詳情頁篩選可見子賬號用量。
統一扣費:所有子賬號消費均從主賬號余額扣除。
計費策略:支持開通token量包/TPM包的模型及對應價格參見包周期計費模式-Tokens量包、包周期計費模式-TPM包。
舉例:主賬號A已開通Tokens包和TPM包,子賬號B、C、D可共享使用及查看資源包詳情。
我的服務
登錄模型推理服務。
在左側導航欄選擇“在線推理”,選擇“我的服務”。
點擊“部署我的模型”可部署預置模型服務。
新建我的服務
參數類型 | 參數名稱 | 說明 |
|---|---|---|
模型服務信息 | 服務名稱 | 必填,填寫服務的名稱 |
服務地址 | 服務接口地址 | |
模型信息 | 選擇模型 | 必填,選擇待發布的模型 |
訓練框架 | 必選,根據所選模型顯示支持的框架。目前支持PyTorch和MindSpore | |
資源配置 | 資源規格 | 必填,選擇資源的規格。具體資源規格參見規格詳情。 說明:為保證模型性能,資源規格列表已自動過濾不可用規格。 |
實例數量 | 必填,部署該服務的實例數量,默認為1。 | |
單實例部署機器數 | 一個實例需要部署的機器數量。參數量級較大的模型需要進行分布式推理部署。 |
管理我的服務
在列表可查看模型是否部署成功,在操作列可進行模型查看、更新、停止、重啟、修改、上下線、刪除等操作。停止服務后計費也會停止,再次啟動服務即可開通計費。
操作列點擊【查看】可進入該服務的詳情頁,查看部署的模型列表、服務監控、配置歷史、運行記錄、事件日志、服務日志。
狀態為運行中的模型服務可正常調用。需要使用location+modelId+appKey請求調用。具體調用方式如下:
點擊【查看】進入該服務的詳情頁,可查看該服務的API文檔,通過詳情頁中的“modelId”和“接口地址”條目獲取modelId和location。
創建或編輯服務組,選擇對應服務并提交,通過服務組卡片上的“App Key”條目獲取AppKey。
根據平臺規范構造請求,調用對應服務,目前支持部署Chat類型的模型,請求樣例如下:
curl --location '{$location}' \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer {$appKey}' \
--data '{
"model": "{$modelId}",
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "xxx"
}
]
}
]
}'