[發明專利]一種文景轉換中實現場景真實性增強的方法有效
| 申請號: | 201810011163.8 | 申請日: | 2018-01-05 |
| 公開(公告)號: | CN108108482B | 公開(公告)日: | 2022-02-11 |
| 發明(設計)人: | 楊富平;劉凱 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/242;G06F40/295 |
| 代理公司: | 重慶市恒信知識產權代理有限公司 50102 | 代理人: | 劉小紅 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 轉換 實現 場景 真實性 增強 方法 | ||
1.一種文景轉換中實現場景真實性增強的方法,其特征在于,包括以下步驟:
1)、從互聯網獲取描述某一場景的多篇中文文檔,組建場景語料庫;
2)、對描述某一場景的中文文檔集進行不去重的分詞處理;然后對分詞處理后的中文文檔進行去停留詞處理;
3)、利用步驟2)中文文檔集去停留詞處理后的分詞結果,對分詞結果中的實體名詞利用詞頻統計的方法,得到實體名詞的統計指標;
4)、利用步驟3)的實體名詞的統計指標,構建文檔集對應場景類別的特征詞列表;
5)、利用步驟4)的場景類別特征詞列表,分析并抽取最優場景類別特征詞,建立場景實體詞典;
所述步驟3)對分詞結果中的實體名詞利用詞頻統計的方法,得到實體名詞的統計指標,具體包括:
傳統的文本特征提取方法TFIDF模型主要考慮特征項的頻率信息TF以及反文檔頻率信息IDF,特征項頻率TF是指特征項在文檔中出現的次數,對于場景概念模型而言,獲取某一類別C的n篇文檔,構成文檔集A,實體名詞w在類別C的文檔集中出現的次數是獲取場景概念詞典的重要參考之一;
對于每一個文檔集A,利用去停留詞處理后的中文文檔的結果,統計n篇文檔中出現的實體名詞出現頻率大小;
定義詞wi在A中詞頻數fi為
count(wi,A)/size(A),0<fi<1
count(wi,A)定義為詞wi在A的文檔集中出現的次數,size(Ak)定義為A中所有實體名詞出現的總數;
再采用反文檔頻率IDF進行計算,反文檔頻率IDF是特征項在文檔集分布情況的量化,IDF的計算方法為:文檔集A中總文檔數量設為N,定義包含詞w的文檔數為n,則場景模型中的反文檔頻率定義為:
2.根據權利要求1所述的一種文景轉換中實現場景真實性增強的方法,其特征在于,所述步驟1)的場景語料庫由同一場景類別的文檔組建,場景語料庫為具有明顯場景特征的文檔集。
3.根據權利要求1-2之一所述的一種文景轉換中實現場景真實性增強的方法,其特征在于,所述步驟1)場景實體模型為使用實體名詞所組成的詞向量對場景類別進行實體概念表示,wt表示實體名詞,每個場景類別對應一組相關的詞向量,定義下標t為概念詞典的閾值,亦為詞向量的模,通過獲取同一類別的大量文檔,統計文檔中出現次數較多且與類別C相關聯的實體名詞組成詞向量定義m為實體名詞的數量,以確定場景類別C的場景實體詞典
4.根據權利要求1所述的一種文景轉換中實現場景真實性增強的方法,其特征在于,所述步驟2)對場景語料庫中的中文文檔進行不去重的分詞處理;然后對分詞處理后的中文文檔進行去停留詞處理,具體包括:
對于獲取的多篇文檔,首先對文檔進行去噪處理,去除文檔中包括廣告詞與英文鏈接在內的詞語,利用ROST中文分詞工具進行分詞處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810011163.8/1.html,轉載請聲明來源鉆瓜專利網。





