齊魯工業大學(山東省科學院);山東省計算中心(國家超級計算濟南中心)張虎獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉齊魯工業大學(山東省科學院);山東省計算中心(國家超級計算濟南中心)申請的專利利用深度強化學習和注意力機制的任務卸載方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120029694B 。
龍圖騰網通過國家知識產權局官網在2025-09-02發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510511736.3,技術領域涉及:G06F9/445;該發明授權利用深度強化學習和注意力機制的任務卸載方法及系統是由張虎;劉慧豐;郭瑩;王英龍;趙大偉;王繼彬;邵明浩設計研發完成,并于2025-04-23向國家知識產權局提交的專利申請。
本利用深度強化學習和注意力機制的任務卸載方法及系統在說明書摘要公布了:本發明涉及利用深度強化學習和注意力機制的任務卸載方法及系統,屬于任務卸載技術領域。包括:數據獲取和預處理;數據包括邊緣服務器信息、用戶信息及任務信息;將預處理后的數據輸入至訓練好的任務卸載模型,基于DPAQN算法實現任務卸載。本發明DPAQN算法在優化任務卸載的綜合性能方面具有明顯優勢,平均優于現有算法約20.71%到30.39%。
本發明授權利用深度強化學習和注意力機制的任務卸載方法及系統在權利要求書中公布了:1.利用深度強化學習和注意力機制的任務卸載方法,其特征在于,包括: 數據獲取和預處理;數據包括邊緣服務器信息、用戶信息及任務信息; 將預處理后的數據輸入至訓練好的任務卸載模型,基于DPAQN算法實現任務卸載; 基于DPAQN算法實現任務卸載,包括: 首先,初始化邊緣計算環境和DQN參數以及狀態s; 使用當前狀態s作為輸入,動作網絡評估所有可能的動作的預測Q值,即Q’act;并選擇具有最高Q值的動作a執行; 執行動作a與環境交互,觀察獎勵r,得到下一步的狀態s’和迭代結束標志done; 然后,將當前狀態s、動作a、獎勵r和下一步的狀態s’和迭代結束標志done存儲在經驗回放緩沖區中,用于后續學習;從經驗回放中隨機采樣一小批數據用于訓練; 以下一步的狀態s’作為目標網絡Q’的輸入,計算未來Q′max; 結合獎勵r和迭代結束標志done計算Qtar,如下所示; Qtar=r+1-done*γ*Q′max; 其中,Qtar是目標網絡的參數,done的值為0或1; 動作網絡接收小批量采樣中的狀態s和動作a,動作網絡的Q值結合小批量采樣中的動作a得到Qact;然后使用MeanSquaredError損失函數計算Qact和Qtar的損失Loss,如下所示; m表示小批量采樣中的樣本數量; 根據所得Loss通過反向傳播更新動作網絡的參數,并將動作網絡Q的參數每隔C步復制到目標網絡Q’中; 判斷是否達到終止條件,如果達到終止條件,流程結束;如果沒有,返回初始狀態后的步驟繼續執行; 動作網絡包括若干個神經網絡層,具體包括:輸入層、第一隱藏層、第二個隱藏層、漸近矩形窗口注意力機制、輸出層; 動作網絡的輸入層接收特征向量,經過第一隱藏層的線性變換和relu激活函數處理后,輸出傳遞至第二個隱藏層;在第二個隱藏層之后,引入漸近矩形窗口注意力機制,漸近矩形窗口注意力機制將第二個隱藏層的輸出分割成多個窗口,并對每個窗口內的特征進行加權求和;具體是指: 1首先,每個矩形窗口內的特征即經過第一隱藏層的線性變換和relu激活函數處理后的特征,通過線性變換生成特征表示;然后,利用tanh激活函數進行非線性處理;接著,通過計算特征表示與可學習向量之間的點積相似度,并經過Softmax函數歸一化,得到每個窗口內的注意力權重;最后,所有窗口的加權特征被拼接起來,形成漸近矩形窗口注意力機制的輸出; 2漸近矩形窗口注意力機制的輸出再次通過第一隱藏層、第二個隱藏層和漸近矩形窗口注意力機制,進一步提取和抽象特征; 通過最后一個線性變換加relu激活函數輸出每個動作的預測Q值,預測Q值表示在當前狀態下采取每個可能動作的預期回報。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人齊魯工業大學(山東省科學院);山東省計算中心(國家超級計算濟南中心),其通訊地址為:250353 山東省濟南市長清區大學路3501號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。