京東城市(北京)數字科技有限公司朱翔宇獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉京東城市(北京)數字科技有限公司申請的專利用于訓練模型的方法和裝置獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN113743613B 。
龍圖騰網通過國家知識產權局官網在2025-09-12發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202010475863.X,技術領域涉及:G06N20/00;該發明授權用于訓練模型的方法和裝置是由朱翔宇;詹仙園;霍雨森;張玥;殷宏磊;鄭宇設計研發完成,并于2020-05-29向國家知識產權局提交的專利申請。
本用于訓練模型的方法和裝置在說明書摘要公布了:本公開的實施例公開了用于訓練模型的方法和裝置。該方法的一具體實施方式包括:獲取樣本狀態轉移軌跡數據集合;執行如下訓練步驟:從樣本狀態轉移軌跡數據中選擇目標狀態值,利用目標狀態值,執行以下處理步驟:將目標狀態值輸入初始動作選擇模型,獲得目標動作值;將目標狀態值和目標動作值輸入環境模型,獲得仿真后續狀態值和仿真獎勵值;將仿真后續狀態值作為目標狀態值,重復執行處理步驟,直至滿足預設處理條件,獲得仿真狀態轉移軌跡數據;將樣本單步狀態轉移數據和仿真單步狀態轉移數據組成訓練樣本集合;利用訓練樣本集合對初始動作選擇模型進行訓練,獲得訓練后動作選擇模型。該實施方式可以訓練獲得泛化能力更強的動作選擇模型。
本發明授權用于訓練模型的方法和裝置在權利要求書中公布了:1.一種用于訓練模型的方法,包括: 獲取預置的樣本狀態轉移軌跡數據集合,其中,樣本狀態轉移軌跡數據包括至少一個樣本單步狀態轉移數據,樣本單步狀態轉移數據包括樣本狀態值、樣本動作值、后續樣本狀態值以及樣本獎勵值;其中,樣本狀態值用于表征樣本環境狀態;樣本動作值用于表征在樣本環境狀態下樣本智能設備執行的樣本動作,后續樣本狀態值用于表征樣本智能設備執行樣本動作后樣本環境狀態轉換成的后續樣本環境狀態,樣本獎勵值用于表征樣本智能體在樣本環境狀態下執行樣本動作獲得的樣本獎勵,樣本獎勵基于環境狀態轉移的優劣程度確定; 獲取初始動作選擇模型和環境模型;其中,環境模型用于表征狀態值、動作值和后續狀態值、獎勵值的對應關系; 基于初始動作選擇模型和環境模型,執行如下訓練步驟: 從所述樣本狀態轉移軌跡數據集合包括的樣本狀態轉移軌跡數據中選擇樣本狀態值作為目標狀態值,以及利用目標狀態值,執行以下處理步驟:將目標狀態值輸入初始動作選擇模型,獲得動作值作為目標動作值;將目標狀態值和所獲得的目標動作值輸入所述環境模型,獲得仿真后續狀態值和仿真獎勵值; 將所獲得的仿真后續狀態值作為目標狀態值,重復執行所述處理步驟,直至滿足預設處理條件,獲得仿真狀態轉移軌跡數據; 將樣本狀態轉移軌跡數據中的樣本單步狀態轉移數據和仿真狀態轉移軌跡數據中的仿真單步狀態轉移數據組成訓練樣本集合,其中,樣本狀態轉移軌跡數據的軌跡起點與仿真狀態轉移軌跡數據的軌跡起點相同、和或樣本狀態轉移軌跡數據的軌跡長度與仿真狀態轉移軌跡數據的軌跡長度相同; 利用所組成的訓練樣本集合對初始動作選擇模型進行訓練,獲得訓練后用于控制智能設備的動作選擇模型;其中,動作選擇模型用于表征動作值與環境狀態的狀態值的對應關系,動作值用于指示為智能設備選擇的動作,環境狀態包括環境圖像和環境溫度中的至少一種,所述智能設備包括智能冰箱、智能手機和智能汽車中的至少一種。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人京東城市(北京)數字科技有限公司,其通訊地址為:100086 北京市海淀區知春路76號(寫字樓)1號樓9層1-7-5號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。