紅有軟件股份有限公司何芳獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉紅有軟件股份有限公司申請的專利大模型推理效能動態優化與硬件感知壓縮方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120494006B 。
龍圖騰網通過國家知識產權局官網在2025-09-12發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510983404.5,技術領域涉及:G06N3/0495;該發明授權大模型推理效能動態優化與硬件感知壓縮方法是由何芳;隨倩軼;張偉;王照亭;楊帆;吳金鳳;王迎雪;吳琨設計研發完成,并于2025-07-17向國家知識產權局提交的專利申請。
本大模型推理效能動態優化與硬件感知壓縮方法在說明書摘要公布了:本發明的大模型推理效能動態優化與硬件感知壓縮方法包括五個步驟:S1:生成表征計算復雜度的輸入復雜度信號;S2:同步監控運行平臺的硬件資源指標,生成反映實時負載的硬件狀態信號;S3:將輸入復雜度信號與硬件狀態信號輸入動態策略選擇器,通過預訓練的決策模型生成壓縮控制信號;S4:根據壓縮控制信號,對當前推理任務的大模型權重和激活值執行動態重配置操作;S5:使用重配置后的大模型執行推理計算,并在計算過程中將硬件資源指標實時反饋至S2,形成閉環優化鏈路。本發明的大模型推理效能動態優化與硬件感知壓縮方法可以解決靜態壓縮方法在動態輸入和異構硬件環境下導致的資源利用率低下、延遲波動及能效失衡的問題。
本發明授權大模型推理效能動態優化與硬件感知壓縮方法在權利要求書中公布了:1.大模型推理效能動態優化與硬件感知壓縮方法,其特征在于,包括: S1:實時提取輸入數據的特征向量,生成表征計算復雜度的輸入復雜度信號,所述S1中提取輸入數據的特征向量具體包括,通過輕量級卷積網絡實時分析輸入文本的序列長度與注意力分布離散度,生成包含層次化語義密度信息的特征向量,其中所述輸入復雜度信號通過門控循環單元融合序列長度特征與注意力熵值特征形成,該信號動態反映不同輸入樣本在模型各計算層引發的理論計算量差異; S2:同步監控運行平臺的硬件資源指標,生成反映實時負載的硬件狀態信號,所述硬件資源指標包括內存占用率、計算單元利用率及功耗數據; S3:將所述輸入復雜度信號與所述硬件狀態信號輸入動態策略選擇器,通過預訓練的決策模型生成壓縮控制信號,該信號包含量化位寬、稀疏化比例及算子調度策略的組合指令; S4:根據所述壓縮控制信號,對當前推理任務的大模型權重和激活值執行動態重配置操作,包括基于量化位寬指令切換浮點或定點計算模式、基于稀疏化比例指令激活對應層的結構化掩碼以及基于算子調度指令適配硬件加速內核,所述S4中基于量化位寬指令切換計算模式時,根據控制信號指定的位寬參數動態加載預編譯的整數計算內核或混合精度計算內核,并在計算圖中插入實時校準節點補償量化誤差,其中定點計算模式采用對稱量化策略將浮點權重映射至帶縮放因子的整數表示;所述結構化掩碼的激活過程包括,依據稀疏化比例指令生成符合硬件加速單元要求的塊稀疏模式,在權重矩陣中動態屏蔽指定比例的低權重值區域,同時向計算引擎提交稀疏矩陣壓縮格式標識符以觸發專用計算流水線;所述算子調度指令適配硬件加速內核的具體實現為,根據控制信號選擇計算圖分割策略與內存分配方案,針對圖形處理器啟用異步流水線并行機制,針對神經網絡處理器啟動數據流分片計算模式,并為中央處理器綁定大頁內存預取策略; S5:使用重配置后的大模型執行推理計算,并在計算過程中將硬件資源指標實時反饋至S2,形成閉環優化鏈路。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人紅有軟件股份有限公司,其通訊地址為:834099 新疆維吾爾自治區克拉瑪依市克拉瑪依區吉云路197-2號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。