清華大學深圳國際研究生院袁春獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉清華大學深圳國際研究生院申請的專利一種面向游戲研發階段的強化學習關卡測試方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN118170666B 。
龍圖騰網通過國家知識產權局官網在2025-09-23發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202410357809.3,技術領域涉及:G06F11/3668;該發明授權一種面向游戲研發階段的強化學習關卡測試方法是由袁春;王陽設計研發完成,并于2024-03-27向國家知識產權局提交的專利申請。
本一種面向游戲研發階段的強化學習關卡測試方法在說明書摘要公布了:一種面向游戲研發階段的強化學習關卡測試方法,其特征在于,包括:在游戲關卡測試過程中進行多樣性驅動的強化學習,多樣性驅動的強化學習算法設置有針對于交互環境的任務目標獎勵rex和對當前策略的多樣性評估產生的多樣性獎勵rin,其中,當當前策略的多樣性大于等于閾值δin且任務目標獎勵rex小于閾值δex時,使學習目標側重于獲取更多的任務目標獎勵rex;而當當前策略的多樣性小于閾值δin時,使學習目標側重于獲取更多的多樣性獎勵rin,以促使智能體選擇之前沒有采取的策略。本發明提高了訓練目標的針對性,提高了使用強化學習算法進行游戲測試時對游戲環境探索的覆蓋率以及產生的數據的有效性,更好地滿足了工業化游戲研發管線中的測試需求。
本發明授權一種面向游戲研發階段的強化學習關卡測試方法在權利要求書中公布了:1.一種面向游戲研發階段的強化學習關卡測試方法,其特征在于,包括:在游戲關卡測試過程中進行多樣性驅動的強化學習,多樣性驅動的強化學習算法設置有針對于交互環境的任務目標獎勵和對當前策略的多樣性評估產生的多樣性獎勵,其中,當當前策略的多樣性大于等于閾值且任務目標獎勵小于閾值時,使學習目標側重于獲取更多的任務目標獎勵;而當當前策略的多樣性小于閾值時,使學習目標側重于獲取更多的多樣性獎勵,以促使智能體選擇之前沒有采取的策略; 當當前策略的多樣性大于等于閾值且任務目標獎勵大于等于閾值時,總體獎勵由任務目標獎勵和多樣性獎勵共同決定,且二者對總體獎勵的貢獻的權重通過超參數來調整; 還包括:形成一個用于集中管理獎勵模塊的統一掛載點,并形成被統一管理的可在任意物件上掛載的稀疏獎勵腳本,以便在關卡設計師設計關卡流程時,在關卡交互物上掛載稀疏獎勵腳本,配置對應的任務目標獎勵;在訓練時,所述統一的掛載點提供對掛載的所有獎勵腳本的統一管理,從而簡化閾值和的估計與獎勵函數的設計。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人清華大學深圳國際研究生院,其通訊地址為:518000 廣東省深圳市南山區西麗街道深圳大學城清華校區A棟二樓;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。