南京大學傅玉祥獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉南京大學申請的專利基于強化學習的片上網絡自主最優映射探索系統及方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115470889B 。
龍圖騰網通過國家知識產權局官網在2025-08-29發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202211054665.1,技術領域涉及:G06N3/063;該發明授權基于強化學習的片上網絡自主最優映射探索系統及方法是由傅玉祥;薛泳琪;李麗;紀津倫;李心怡;黎思越;周世澤;程童;李偉;何書專設計研發完成,并于2022-08-31向國家知識產權局提交的專利申請。
本基于強化學習的片上網絡自主最優映射探索系統及方法在說明書摘要公布了:本發明公開了一種基于強化學習的片上網絡自主最優映射探索系統及方法。本發明采用強化學習算法,結合軟約束和硬約束,將硬件映射配置問題轉化為序列決策問題,得到片上網絡加速器的自主最優映射探索系統。對比傳統的XY方向映射、基于神經網絡感知算法映射與基于遺傳算法的映射,本發明通過強化學習算法對策略網絡與價值網絡進行訓練,提供的最優硬件映射在通信延遲指標與平均通信吞吐率指標上有不同程度的優化。
本發明授權基于強化學習的片上網絡自主最優映射探索系統及方法在權利要求書中公布了:1.一種基于強化學習的片上網絡自主最優映射探索方法,其特征在于,包括以下步驟: 步驟1、將片上網絡所需計算的神經網絡卷積層轉化成為類人工神經網絡層,并將神經元進行分組得到神經元組;分好組后的神經元組序列號與對應片上網絡處理單元序號組成的數組即為簡化后的硬件映射表達; 步驟2、對基于強化學習的片上網絡自主最優映射探索系統進行動作空間、狀態值、獎勵值、環境、強化學習算法、價值網絡與策略網絡的設置與配置; 步驟3、將硬件映射配置問題轉化為序列決策問題,自動化進行硬件映射的生成,映射生成時遵循軟約束與硬約束; 步驟4、根據強化學習算法策略網絡的概率生成映射策略后,將映射文件、神經網絡模型文件、神經網絡權重與偏置文件、神經網絡輸入數據文件、片上網絡硬件資源參數輸入片上網絡仿真器; 步驟5、片上網絡仿真器作為環境返回智能體所需要的狀態值與獎勵值,智能體根據返回值計算損失值,更新策略與價值網絡參數并優化序列決策過程; 步驟6、重復步驟3~步驟5,策略網絡最終學習到如何預測映射配置動作以最大程度優化獎勵值,當獎勵值收斂時,最優獎勵值對應的序列動作為理想的最優硬件映射; 在硬約束條件下,若智能體無法提供有效地硬件映射動作序列,片上網絡自主最優映射探索系統會干預動作概率,在每一步抽取動作之前,向策略網絡添加掩碼,并將之前步驟中選擇過的動作的概率設置為零,同時,其他未選擇動作按比例增加概率值;故在硬約束模式下,回合中的所有步都是不重復的,智能體從環境中獲得最后一步的獎勵值,其他步的獎勵值均為零; 硬約束條件下,若第n步抽取的計算單元序號為PEm,則第n+1步時智能體為策略網絡概率pn+1添加掩膜后變為p′ n+1,并根據調整后的概率抽取第n+1步動作an+1的公式如下: p′ n+1PEm=0,若an=PEm, an+1=samplePE0,…,PEM,AP′n+1=Mask_APn+1; 其中,TP是除了上一步抽取的計算單元節點外,其他所有計算單元節點被抽取概率的總和;Mask_APn+1為添加掩膜后策略網絡抽取第n+1步動作的概率;sample函數限制智能體根據AP′n+1的概率對第n+1步的動作進行抽?。?步驟1中的神經網絡卷積層的展開方式如下: 其中,K為卷積神經網絡的卷積核的個數,Y′和X′為輸出神經元的行數和列數,Oi,j,k為輸出神經元;按照三層循環的順序排列輸出神經元陣列,NN代表需要在加速器上進行計算的神經網絡,n0到nX′Y′K-1代表將卷積神經網絡轉化為一維的類人工神經網絡后的每個神經元。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人南京大學,其通訊地址為:210046 江蘇省南京市棲霞區仙林大道163號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。