世優(北京)科技股份有限公司鄧先才獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉世優(北京)科技股份有限公司申請的專利行為決策模型的訓練方法及數字人的自適應交互方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120354176B 。
龍圖騰網通過國家知識產權局官網在2025-09-16發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510833804.8,技術領域涉及:G06F18/24;該發明授權行為決策模型的訓練方法及數字人的自適應交互方法是由鄧先才;李睿設計研發完成,并于2025-06-20向國家知識產權局提交的專利申請。
本行為決策模型的訓練方法及數字人的自適應交互方法在說明書摘要公布了:本發明公開了一種行為決策模型的訓練方法及數字人的自適應交互方法。其中,該訓練方法包括:獲取樣本訓練集;使用樣本訓練集對待訓練的行為決策模型進行迭代訓練,直到待訓練的行為決策模型的目標函數損失值小于預設的損失閾值;其中,目標函數損失值是通過以下得到的:基于待訓練的行為決策模型對正樣本輸出的第一預測行為分布與對負樣本輸出的第二預測行為分布之間的相對熵,生成對比損失;基于第一預測行為分布與第一目標行為分布之間的均方誤差、以及第二預測行為分布與第二目標行為分布之間的均方誤差,生成分布對齊損失;基于對比損失和分布對齊損失,生成目標函數損失值。本發明解決了MR場景數字人的行為決策存在不足的技術問題。
本發明授權行為決策模型的訓練方法及數字人的自適應交互方法在權利要求書中公布了:1.一種行為決策模型的訓練方法,其特征在于,包括: 獲取樣本訓練集,其中,所述樣本訓練集包括正樣本和負樣本,所述樣本訓練集中的每個樣本由多模態數據組成,所述多模態數據包括視覺圖像序列、語音語調、骨骼動作數據以及環境狀態參數; 使用所述樣本訓練集對待訓練的行為決策模型進行迭代訓練,直到待訓練的所述行為決策模型的目標函數損失值小于預設的損失閾值,以得到訓練好的所述行為決策模型; 其中,所述目標函數損失值是通過以下得到的: 基于待訓練的所述行為決策模型對所述正樣本輸出的第一預測行為分布與對所述負樣本輸出的第二預測行為分布之間的相對熵,生成對比損失; 基于所述第一預測行為分布與第一目標行為分布之間的均方誤差、以及所述第二預測行為分布與第二目標行為分布之間的均方誤差,生成分布對齊損失,其中,所述第一目標行為分布是基于與各訓練輪次對應的第一置信度權重與第一預測行為分布的分布熵對所述各訓練輪次的第一預測行為分布進行加權聚合得到的目標行為分布,所述第二目標行為分布是基于與所述各訓練輪次對應的第二置信度權重與第二預測行為分布的分布熵對所述各訓練輪次的第二預測行為分布進行加權聚合得到的目標行為分布; 基于所述對比損失和所述分布對齊損失,生成所述目標函數損失值; 其中,基于所述第一預測行為分布與第一目標行為分布之間的均方誤差、以及所述第二預測行為分布與第二目標行為分布之間的均方誤差,生成分布對齊損失,包括:對所述第一預測行為分布與所述第一目標行為分布之間的均方誤差、以及所述第二預測行為分布與所述第二目標行為分布之間的均方誤差進行區間離散化處理,將所述第一預測行為分布與所述第一目標行為分布之間的均方誤差、以及所述第二預測行為分布與所述第二目標行為分布之間的均方誤差劃分為多個不同數值區間,并計算所述不同數值區間的加權殘差;基于所述不同數值區間的加權殘差,計算所述第一預測行為分布和所述第二預測行為分布之間的非線性響應誤差變化,并將所述非線性響應誤差變化作為所述分布對齊損失。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人世優(北京)科技股份有限公司,其通訊地址為:100015 北京市朝陽區酒仙橋北路7號60幢一層021;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。