重慶郵電大學雷建軍獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉重慶郵電大學申請的專利一種基于深度強化學習的物聯網智能擁塞控制方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN116471629B 。
龍圖騰網通過國家知識產權局官網在2025-08-29發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202310501916.4,技術領域涉及:H04L47/26;該發明授權一種基于深度強化學習的物聯網智能擁塞控制方法是由雷建軍;周盈;劉捷;譚德望設計研發完成,并于2023-05-06向國家知識產權局提交的專利申請。
本一種基于深度強化學習的物聯網智能擁塞控制方法在說明書摘要公布了:本發明屬于計算機技術領域,具體涉及一種基于深度強化學習的物聯網智能擁塞控制方法,構建物聯網系統;終端節點向簇頭節點發送數據包;簇頭節點根據終端節點發送的數據包設置緩沖隊列,并獲取當前簇頭節點狀態信息;根據當前簇頭節點狀態信息確定簇頭節點的擁塞狀態,并將擁塞狀態發送給中繼節點;中繼節點根據擁塞狀態獲取物聯網中各個節點的狀態信息,并將狀態信息發送給sink節點;sink節點采用DQN算法對物聯網的狀態信息進行優化,得到擁塞控制策略,并對簇頭節點中的隊列任務進行分配,完成擁塞控制;本發明引入了反饋恢復機制,充分考慮了由于信道質量帶來的反饋丟失和延遲問題,節約了帶寬資源且降低數據包遞送延遲。
本發明授權一種基于深度強化學習的物聯網智能擁塞控制方法在權利要求書中公布了:1.一種基于深度強化學習的物聯網智能擁塞控制方法,其特征在于,包括:構建物聯網系統,該系統包括終端節點、簇頭節點、中繼節點以及sink節點;終端節點向簇頭節點發送數據包;簇頭節點根據終端節點發送的數據包設置緩沖隊列,并獲取當前簇頭節點狀態信息;當前簇頭節點狀態信息包括:緩沖隊列的占用情況、信道負載和數據包服務時間;其中緩沖隊列的占用情況用于確定節點的擁塞情況,信道負載用于確定當前節點的信道競爭大小,數據包服務時間用于確定數據包到達介質訪問控制層的時刻與其向上遞送數據時刻的差值;根據當前簇頭節點狀態信息確定簇頭節點的擁塞狀態,并將擁塞狀態發送給中繼節點;中繼節點根據擁塞狀態獲取物聯網中各個節點的狀態信息,并將狀態信息發送給sink節點;sink節點采用改進的DQN算法對物聯網的狀態信息進行優化,得到擁塞控制策略,根據擁塞控制策略對簇頭節點中的隊列任務進行分配,完成擁塞控制; 將擁塞狀態發送給中繼節點包括:采用非時隙CSMACA算法將擁塞狀態傳輸給中繼節點,具體過程包括: S1:初始化簇頭節點MAC層數據包的參數,該參數包括后退次數NB、退避指數BE、幀重傳次數FR以及競爭窗口CW; S2:簇頭節點感知中繼節點的信道空閑狀態,若中繼節點的處于空閑狀態,則簇頭節點進行信道接入,否則節點在[0,2BE-1]隨機選擇一個退避數進行退避; S3:當節點退避結束后,執行空閑信道檢測,若當前信道空閑,則將退避后的節點接入信息,否則NB值增加1,BE值增加1; S4:確定當前退避次數與最大CSMA退避值的大小,當NB的值超過MAC層所設定的最大CSMA退避值時,該節點本輪信道接入失敗,否則返回步驟S2; 采用改進的DQN算法對物聯網的狀態信息進行優化的過程包括: 步驟1:網絡初始化,該初始化包括一個容量為N的經驗重放池Φ,評估網絡權重參數θ,目標網絡權重參數θ;最大訓練輪數M,當前訓練輪數Ne,每輪訓練過程的總時間T; 步驟2:智能體與網絡環境進行交互,確定當前訓練輪數是否達到最大訓練輪數,若達到最大訓練輪數,則輸出優化后的物聯網狀態信息;否則執行步驟3; 步驟3:對網絡環境進行重置,即初始化參數默認設置成原始值,訓練時間步長t初始為0; 步驟4:智能體獲取當前網絡的訓練時間t,當tT,則訓練結束,跳至步驟12,否則執行步驟5; 步驟5:采用深度Q網絡學習最優的選擇策略,根據最優選擇策略選取最優的動作;具體包括:智能體獲取環境信息,并將獲取的環境信息輸入到策略網絡中,得到當前時刻的動作;根據當前時刻的動作采用獎勵函數計算智能體當前動作的獎勵;將當前網絡的狀態、任務動作、即時獎勵以及下一時刻網絡狀態作為四元組存放到優先經驗重放數組中;采用優選經驗重放數組中的數據對策略網絡和價值網絡進行訓練,更新Q函數;計算模型的損失函數,采用累計折扣獎勵對損失函數進行優化,當累計折扣獎勵最大時,損失函數收斂,完成模型訓練,輸出最優選擇策略; 計折扣獎勵的公式為: 其中,т表示智能體,γi-t表示折扣率,rt表示t時刻下智能體得到的獎勵,st表示t時刻下智能體的狀態,πst表示智能體在st下的策略函數; 對Q函數進行更新的公式為: 其中,st+1表示t+1時刻下智能體的狀態,at+1表示t+1時刻下智能體的動作,Qst,at表示t時刻下智能體的動作價值函數,α表示學習率,rtst,at表示智能體在st,at下獲得的獎勵,γ表示折扣率,a表示動作集合,Qt表示t時刻下智能體的動作價值函數; 模型的損失函數的表達式為: 其中,表示期望,rt表示t時刻下智能體得到的獎勵,γ表示智能體得到的回報折扣率,Q表示動作價值函數,θ表示目標網絡的權重參數,θ′表示評估網絡的權重參數; 步驟6:采用信道競爭訪問算法確定節點是否達到最大重傳次數,若達到重傳次數,則該節點成功接入信道,并則執行步驟7,否則返回步驟4; 步驟7:確定成功接入信道的節點是否接收到ACK信息,若接收到信息,則執行步驟9,否則執行步驟8; 步驟8:對成功接入信道的節點執行ACK反饋恢復機制,并重新對該節點發送ACK信息,若接收到信息,則執行步驟9,否則本輪數據傳輸失敗,并返回步驟6; 步驟9:將完全經驗存儲在完全經驗池中,并隨機抽樣小批次的經驗,通過梯度下降尋找損失函數最小值,根據損失函數最小值對評估網絡參數θ進行更新; 步驟10:判斷當前網絡是否達到目標網絡更新參數周期,若達到目標網絡更新參數周期,則執行步驟11,否則返回步驟4; 步驟11:更新目標網絡參數,θ′=θ,跳轉步驟4; 步驟12:訓練輪數Ne加1,并返回步驟2。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人重慶郵電大學,其通訊地址為:400065 重慶市南岸區南山街道崇文路2號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。