模型評估旨在對平臺精調生成的大模型輸出效果進行評估,當前支持對“模型精調”運行完成的模型進行評估。
前置條件
新建評估任務
您可通過以下方式使用:
入口1:進入“模型廣場” ,在支持評估的模型卡片上點擊【評估】按鈕,進入到創建評估頁面;
入口2:進入“模型工具”>“模型評估”菜單,進入評估任務列表,點擊【新建評估任務】,進入創建頁面;
入口3:進入“智算資產”>“我的模型”菜單,在我的模型菜單頁面中,找到支持評估的模型,點擊【評估】按鈕,進入到創建評估頁面。
進入創建評估任務頁面后,填寫相關配置:
類型
字段
說明
基本信息
任務名稱
評估任務名稱,僅支持英文、漢字、數字、-、_,且只能以中英文、數字開頭,不超過60個字符,不可重名
模型類型
選擇評估的模型類型,目前支持大語言模型
描述
該任務的描述,300個字符以內
評估配置
待評估模型
選擇待評估的模型,支持從模型廣場精調后的帶有評估標簽的模型,目前支持Qwen2-7B-Instruct、Qwen2-72B-Instruct、Qwen1.5-32B-Chat。
評估數據集
選擇用于評估的數據集,目前僅支持標注模板為指令微調且發布成功的標注數據集
評估標準
指對模型評估的效果指標,支持準確率、ROUGE-1、ROUGE-2、ROUGE-L、BLEU-4,指標的具體含義可見頁面解釋
停用詞表
評估時自動忽略的停用詞,為避免特殊字符及單詞對模型效果評估的影響,可按照示例設置停用詞表,評估時將自動過濾
資源部署信息
集群
選擇適合的集群
隊列
選擇可用資源配額
資源規格
選擇資源規格類型,不同的算力規格對應不同的價格
實例數量
相應資源規格的數量
點擊開始評估,創建評估任務。
查看評估任務
查看詳情:點擊評估任務名稱,在評估詳情頁,可以查看評估任務的詳細內容,包括任務詳情、事件、日志。
操作:評估任務卡片上,支持以下操作:
查看報告:任務運行完成后,可查看相應的評估報告,支持查看整體指標和錯題分析;
重啟:重啟任務;
停止:停止評估任務;
復制:復制此評估任務配置,可以進行少量修改快速啟動;
刪除:刪除此評估任務。