成都大學高朝邦獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉成都大學申請的專利一種中小學教育輔導大模型的構建方法、系統、設備及介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120372300B 。
龍圖騰網通過國家知識產權局官網在2025-09-12發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510872963.9,技術領域涉及:G06Q50/20;該發明授權一種中小學教育輔導大模型的構建方法、系統、設備及介質是由高朝邦;何昊;梁華;吉祥設計研發完成,并于2025-06-27向國家知識產權局提交的專利申請。
本一種中小學教育輔導大模型的構建方法、系統、設備及介質在說明書摘要公布了:本發明涉及人工智能技術領域,具體地說,涉及一種中小學教育輔導大模型的構建方法、系統、設備及介質;該方法首先將Qwen2.5?3B?Instruct作為基礎模型,并根據獲取的教學數據集構建訓練數據集;然后根據訓練數據集,構建獎勵函數得到獎勵值,并調用強化學習方法調整模型參數,得到強化后的基礎模型;最后根據構建的教師風格數據集、設置的個性化提示詞,以監督指令微調的方式微調強化后的基礎模型,得到中小學教育輔導大模型,通過雙階段微調,提升了模型的推理能力,在保持較低計算資源需求的同時,提高老人模型面對復雜問題的處理能力并賦予其明確的教師風格。
本發明授權一種中小學教育輔導大模型的構建方法、系統、設備及介質在權利要求書中公布了:1.一種中小學教育輔導大模型的構建方法,其特征在于,具體包括以下步驟: 步驟S1:將Qwen2.5-3B-Instruct作為基礎模型,并根據獲取教學數據集構建訓練數據集; 步驟S2:根據訓練數據集,構建獎勵函數得到獎勵值,并調用強化學習方法調整模型參數,得到強化后的基礎模型; 步驟S3:根據構建的教師風格數據集、設置的個性化提示詞,以監督指令微調的方式微調強化后的基礎模型,得到中小學教育輔導大模型; 所述步驟S2具體包括以下步驟: 步驟S21:根據基礎模型生成的答案、標準答案、相似度函數、設置的獎勵參數,構建獎勵函數,計算獎勵值; 步驟S22:根據設定的正則系數、設定的裁剪閾值、模型參數,計算概率分布; 步驟S23:根據獎勵值、概率分布,計算KL散度; 步驟S24:根據KL散度上限值和下限值調整正則系數,得到強化后的基礎模型; 所述步驟S22具體包括以下步驟: 步驟S221:根據從訓練數據集獲取的題目、模型采樣答案、大模型策略,計算策略比率; 步驟S222:根據獎勵值、當前緩沖區所有題目的平均獎勵,計算優勢估計; 步驟S223:根據設定的正則系數、設定的裁剪閾值、優勢估計、策略比率,計算基礎模型以模型參數θ生成答案的概率,得到概率分布; 所述步驟S3具體包括以下步驟: 步驟S31:根據獲取的典型試題和對應的教師風格講解的問答對數據集,構建教師風格增強數據集; 步驟S32:將教師風格增強數據集轉換為Alpaca指令形式的數據對,并調用Role-Play構建個性化提示詞; 步驟S33:以監督指令微調的方式微調強化后的基礎模型,得到中小學教育輔導大模型; 所述步驟S33具體包括以下步驟: 步驟S331:在基礎模型的若干線性變換矩陣中插入LoRA適配器; 步驟S332:保持原線性變換矩陣凍結,訓練新增的LoRA適配器矩陣; 步驟S333:根據Alpaca指令形式的數據對,調用Adam優化器將LoRA適配器矩陣進行梯度更新,得到監督式指令微調后的基礎模型,即中小學教育輔導大模型。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人成都大學,其通訊地址為:610000 四川省成都市龍泉驛區外東十陵鎮成洛大道2025號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。