樂山師范學院許玲蛟獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉樂山師范學院申請的專利一種基于多階段處理的文旅測評數據生成方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119990315B 。
龍圖騰網通過國家知識產權局官網在2025-09-02發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510066643.4,技術領域涉及:G06N5/04;該發明授權一種基于多階段處理的文旅測評數據生成方法是由許玲蛟;金澎;陳興元;彭乙翠;張一帆;陸云飛設計研發完成,并于2025-01-16向國家知識產權局提交的專利申請。
本一種基于多階段處理的文旅測評數據生成方法在說明書摘要公布了:本發明提供一種基于多階段處理的文旅測評數據生成方法,屬于數據處理技術領域,通過引入數據收集、關鍵提問點抽取、測評數據生成的協同工作,確保生成的數據具有較高的質量、多樣性和針對性。關鍵提問點抽取通過精準提取游客關注的關鍵信息,從多個維度生成針對性問題,提供了一個數據生成的清晰框架;測評數據生成則基于大規模的文旅相關文本數據,通過深度學習與遷移學習技術優化數據生成過程,確保輸出數據更貼近游客實際需求。同時,通過引入迭代式優化和人機交互機制,使得系統能夠動態適應不斷變化的市場需求和用戶反饋,確保數據生成質量和多樣性得到有效平衡,從而為文旅行業提供更加精確和高效的測評數據支持。
本發明授權一種基于多階段處理的文旅測評數據生成方法在權利要求書中公布了:1.一種基于多階段處理的文旅測評數據生成方法,其特征在于,包括數據收集、關鍵提問點抽取、測評數據生成; 關鍵提問點抽取通過提取游客關注的關鍵信息,從多個維度生成針對性問題,提供一個數據生成的清晰框架; 測評數據生成則基于大規模的文旅相關文本數據,通過深度學習與遷移學習技術優化數據生成過程,確保輸出數據更貼近游客實際需求; 同時,通過引入迭代式優化和人機交互機制,動態適應不斷變化的市場需求和用戶反饋,確保數據生成質量和多樣性得到有效平衡; 具體包括以下步驟: S1、數據收集;首先從多個來源收集文旅相關的數據,包括官方旅游文檔、游客評價、旅游博客、在線旅游問答平臺、社交媒體數據,構成原始數據; S2、關鍵提問點抽??;從海量的文旅信息中精準提煉出與文旅緊密相關的關鍵提問點;通過運用自然語言處理技術,深入挖掘游客在文旅過程中可能關心的各個方面,這些關鍵提問點將作為后續數據生成的重要指引,確保生成的數據具有高度的針對性和實用性,能夠切實反映游客的真實需求和關注點; S3、測評數據生成;其底層架構基于現有的大語言模型,通過多頭自注意力機制,并行處理輸入關鍵信息的不同表示子空間,從而實現對語義的全面捕捉與深度理解;在訓練階段,采用大規模的文旅相關文本數據,涵蓋游記、攻略、官方介紹、游客評價多源異構文本,利用海量數據訓練模型以學習豐富的語言模式和文旅領域知識;基于大語言模型的預訓練權重,通過遷移學習技術在文旅特定數據集上進行微調,使得模型能夠更好地適應本地域的語言習慣和文旅場景特點; S1具體包括以下子步驟: S1.1、數據清洗與預處理:采用高效的數據清洗技術,確保數據的高質量和一致性; S1.2、維度劃分與分類:確保每個維度的數據能夠準確反映其特征,將清洗后的數據按照文旅產業的六大核心維度:“吃E1”、“住E2”、“行E3”、“游E4”、“購E5”、“娛E6”,表示為: 其中,每個維度,為該維度下的所有文旅信息集;每個維度表示為一個包含多項數據的集合 S2具體包括以下子步驟: S2.1、抽取Prompt設計:設計一個專門針對不同維度的Prompt模板P1,并在P1中給出oneshot示例,清洗和規范化后的數據內嵌到這個Prompt中,形成一個完整的、符合模型輸入要求的模型輸入序列P′1;關鍵提問點抽取語言模型表示為: Gk:Ψ×Φ→Ψ‘ 是數據空間,Φ是生成模型的參數空間; S2.2、關鍵提問點抽?。簩⒏骶S度的輸入文本序列輸送至Gk中,經過模型對語義、詞匯關聯及上下文邏輯的深度解析與推理,最終獲得不同維度的關鍵提問點: 當前模型的參數θ∈Φ,i是維度,k是不同維度關鍵信息的數量,θ為關鍵提問點抽取的參數; 最后經過人工篩選后;抽取的不同維度的關鍵提問點信息; S3具體包括以下子步驟: S3.1、測評數據生成Prompt構建;對于給定生成問題的上下文C,測評數據生成的Prompt模板為P2,對于其中λ為關鍵提問點個數,Ei為維度,每一個提問點將其與給定上下文C按照特定的拼接規則進行組合,P'2得到Prompt:將作為驅動模型生成測評數據的輸入信息; S3.2、設計生成測評數據的模板,其結構為Q,A,T,L1,L2,L3;其中Q基于提示詞P'2生成的與文旅相關的問題;A同樣基于提示詞生成的Q的對應的答案;T表示問題類型,由于文旅數據的特殊性,依據預先設定的規則通過類型判斷函數fTQ將問題分為事實型F與規劃型P,即T=fTQ,T∈{F,P};問題正確度L1是模型自我判定生成的問題是否為基于上下文的正確問題的指標,若模型判斷生成的問題是否為基于上下文的正確問題;答案匹配度L2用于判斷答案是否與問題精確匹配;生成可靠度L3由大模型判斷問題和答案能否從上 下文中直接提??; S3.3、是數據空間,Φ是生成模型的參數空間,當前模型的參數θ∈Φ,t表示時間步,i表示當前時間步下的第i次迭代,Gd數據生成語言模型,則初始生成數據表示為: Gd:χ×Φ→Xi 其中為t時間步第i次迭代生成的測評數據,Li∈{0,1};指標與測評數據是語言模型同時生成; S3.4、對生成數據的評測指標L1,L2,L3進行逐輪迭代計算與調整;迭代過程依賴于語言模型的生成能力,生成的多樣性確保模型能夠通過多次嘗試逐步生成符合評測標準的數據;收斂性假設是:在有限次生成內,語言模型能夠生成數據使得L1=1,L2=1,L3=1,則認為生成的數據Xt達到預期質量標準,迭代流程停止,并輸出最終生成的數據集X*: X*=Xt,其中L1=L2=L3=1 若在某一輪t中存在任何一個指標Li=0,i∈{1,2,3},則表明生成數據未達到質量要求,此時需要根據測評結果迭代式生成數據,即進行i+1次迭代: S3.5、人工評測:測評數據生成結束后,從語言層面對生成數據的準確性進行驗證,針對生成的每條數據: X=Q,A,T,Li Li∈{L1,L2,L3} Ri∈{R1,R2,R3} 其驗證過程包括兩個階段:模型自動判定L和人工復核R;計算兩個指標的在所有生成的數據中的相等的概率,從語言的角度分析模型生成的數據是否達到人類語言結構完整性和語義性,從而全面驗證測評系統的可靠性和可信度,一致性指標表示為: 判定結果Li與Ri表示當前生成的最終測評數據的第i項質量指標;人工復核需要對模型自動判定的指標Li進行人工評測;在自動判定結果的基礎上,加入人工復核結果Ri對生成的問題與答案進行驗證Ri∈{0,1};其中R1=1表示為人工驗證問題合格,R2=1表示為人工驗證答案合格,R3=1表示為答案能從上下文中提取;通過計算L與R的一致性指標,即兩個指標的在所有生成的數據中的相等的概率大于90%則認為生成數據是可靠的。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人樂山師范學院,其通訊地址為:614000 四川省樂山市濱河路778號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。