創意信息技術股份有限公司花福軍獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉創意信息技術股份有限公司申請的專利一種大語言模型高并發量推理方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120181245B 。
龍圖騰網通過國家知識產權局官網在2025-09-09發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510660889.4,技術領域涉及:G06N5/04;該發明授權一種大語言模型高并發量推理方法及系統是由花福軍;王波;羅欽;徐孟宇;竇瑞琳設計研發完成,并于2025-05-22向國家知識產權局提交的專利申請。
本一種大語言模型高并發量推理方法及系統在說明書摘要公布了:本發明涉及人工智能技術領域,公開了一種大語言模型高并發量推理方法及系統,利用執行器計算顯存塊大小分配顯存空間;利用調度器轉換請求序列放入調度器的等待隊列;調度器為每個請求序列分配相應的顯存塊直至每個請求序列都能夠進行下一次推理;調度器按照優先級順序計算等待隊列中請求序列的顯存需求,將等待隊列中的請求序列轉移到運行隊列中;根據請求序列的預填充類型數量和解碼類型數量,分配用于執行預填充推理或用于執行解碼推理的顯存塊數量;由此,本發明采用連續批處理、動態分配空間機制和任務調度框架,充分利用連續批處理的并行推理能力,提升了大模型推理的并發量和吞吐量,解決傳統連續批處理需要預分配空間的局限性。
本發明授權一種大語言模型高并發量推理方法及系統在權利要求書中公布了:1.一種大語言模型高并發量推理方法,其特征在于,包括以下步驟: S1:系統初始化,執行器通過模擬峰值數據計算顯存塊大小,根據計算結果分配顯存空間,同步顯存資源信息到調度器; S2:調度器接收推理http請求,經預處理將推理http請求轉換為請求序列,將轉換獲得的請求序列放入調度器的等待隊列; S3:當等待隊列與運行隊列不全為空時,調度器檢查當前運行隊列顯存使用情況,判斷每個請求序列能否進行下一次推理,若否,為每個請求序列分配相應的顯存塊,直至每個請求序列都能夠進行下一次推理; S4:調度器檢查當前運行隊列顯存使用情況,按照優先級順序計算等待隊列中請求序列的顯存需求,根據顯存需求計算結果將等待隊列中的請求序列轉移到運行隊列中;具體包括: 按照優先級順序計算等待隊列中請求序列的顯存需求;其中,所述優先級順序被配置為每個請求序列對應http請求的到達時間順序; 若顯存足夠,則將等待隊列中的請求放入運行隊列,直到顯存不足或達到最大批次字符長度、最大批次數量的閾值條件; S5:將步驟S4中從等待隊列轉移到運行隊列中的請求序列定義為預填充類型,將步驟S3中運行隊列中的請求序列定義為解碼類型,根據請求序列的預填充類型數量和解碼類型數量,分配用于執行預填充推理或用于執行解碼推理的顯存塊數量; S6:調用執行器,基于分配到的顯存塊數量執行預填充推理或解碼推理; S7:調度器獲取執行器返回結果,更新請求序列的狀態和信息,并對預填充類型的請求序列進行類型變更; S8:遍歷運行隊列中所有請求序列,判斷每個請求序列是否符合結束條件,若是,將該請求序列移出運行隊列,釋放顯存,響應http請求。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人創意信息技術股份有限公司,其通訊地址為:610000 四川省成都市青羊區紅星路一段86號1棟222號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。