[發明專利]一種基于隱喻主題挖掘的景區評價知識庫構建方法有效
| 申請號: | 201911302244.4 | 申請日: | 2019-12-17 |
| 公開(公告)號: | CN111078894B | 公開(公告)日: | 2023-09-12 |
| 發明(設計)人: | 解吉波;楊騰飛;林振宇;李國慶 | 申請(專利權)人: | 中國科學院遙感與數字地球研究所 |
| 主分類號: | G06N5/025 | 分類號: | G06N5/025;G06N5/02;G06F16/36;G06F16/35;G06F16/31;G06F40/242;G06Q30/0282;G06Q50/14 |
| 代理公司: | 北京盛詢知識產權代理有限公司 11901 | 代理人: | 張海青 |
| 地址: | 100094*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 隱喻 主題 挖掘 景區 評價 知識庫 構建 方法 | ||
1.一種基于隱喻主題挖掘的景區評價知識庫構建方法,其特征在于,包括如下步驟:
S1、采用景區隱性主題挖掘算法(Scenic?hidden?topic?mining?algorithm,SHTMA)構建景區隱性多主題知識庫:根據顯性主題詞從景區評論語料中挖掘隱性主題詞,構建景區隱性多主題知識庫;其中,顯性主題詞與隱性主題詞共同構成了基礎多主題知識庫;
S2、采用景區隱喻主題特征挖掘算法(Scenic?metaphor?topic?feature?miningalgorithm,SMTFMA)構建景區的隱喻多主題知識庫:所述隱喻多主題知識庫由隱喻主題詞及隱喻主題特征兩部分組成,根據步驟S1中得到的基礎多主題知識庫,從景區評論語料中挖掘隱喻主題詞及隱喻主題特征,構建景區的隱喻多主題知識庫;將隱喻主題詞與基礎多主題知識庫進行整合,得到景區多主題知識庫,將隱喻主題特征與情感詞庫整合得到景區情感詞知識庫;
S3、構建景區評價知識庫:基于景區語料庫的語義搭配計算模型來計算景區主題詞與情感詞之間的搭配關系,并對主題詞與情感詞構成的搭配進行優化,使景區主題詞與情感詞形成一對多的搭配,以知識樹的形式進行存放,構建景區評價知識庫;并基于景區評價知識庫對游客評論數據所屬的主題及在該主題下對應的情感傾向進行識別;
所述采用景區語料庫的語義搭配計算模型進行情感詞與主題詞的搭配的具體方法包括:
首先,計算主題詞與情感詞的共現度,如式1所示;
其中,T表示主題詞,E表示情感詞,f(T,E)表示主題詞與情感詞在語料中出現在同一語句的句子個數,f(T)表示主題詞在語料中單獨出現的句子個數,f(E)表示情感詞在語料中單獨出現的句子個數,W(T,E)表示主題詞與情感詞的共現度;
其次,對主題詞與情感詞構成的搭配進行優化:主題詞與情感詞共現度的閾值為H,0<H<1,當主題詞與情感詞在旅游領域語料庫的共現度大于閾值H時,視為該主題詞與該情感詞能構成搭配,小于閾值H時,視為不能構成搭配并將其刪除,完成主題詞與情感詞搭配的優化,構建與主題詞對應的情感詞詞庫。
2.根據權利要求1所述的基于隱喻主題挖掘的景區評價知識庫構建方法,其特征在于,所述步驟S1景區隱性多主題知識庫的構建方法具體包括:
首先構建景區顯性多主題知識庫,其次采用SHTMA,把基于各主題的顯性主題詞作為種子詞,從景區評論語料中挖掘提取語料中包含的隱性主題詞,構建隱性多主題知識庫。
3.根據權利要求2所述的基于隱喻主題挖掘的景區評價知識庫構建方法,其特征在于,所述SHTMA的具體流程包括:
首先,對游客評論語料進行預處理,獲取隱性主題詞候選詞庫;其次,通過SHTMA詞向量模型計算顯性主題詞與隱性主題詞候選詞庫中詞語的相似度,根據相似度挖掘隱性主題詞,挖掘出的隱性主題詞構成隱性多主題知識庫,具體包括:先使用評論語料訓練詞向量模型,再將顯性主題詞輸入訓練好的詞向量模型,經過詞向量模型的計算,得到隱性主題詞候選詞庫中詞與輸入的顯性主題詞的語義特征相似度,根據語義特征相似度挖掘隱性主題詞,并組成候選的隱性主題詞。
4.根據權利要求1所述的基于隱喻主題挖掘的景區評價知識庫構建方法,其特征在于,所述S2中隱喻主題詞及隱喻主題特征的挖掘方法具體包括:
首先,從語料庫中篩選出針對各主題的景區評論語料,景區評論語料包括基礎主題詞、隱喻主題詞、隱喻主題特征,將語料中的句子按照標點符號分成短句;其次,基于SMTFMA,使用處理后的語料訓練分類器模型,并使用訓練后的分類器模型從景區評論語料中識別并挖掘隱喻主題詞及隱喻主題特征,構建隱喻多主題知識庫。
5.根據權利要求4所述的基于隱喻主題挖掘的景區評價知識庫構建方法,其特征在于,所述SMTFMA的具體流程包括:
首先,基于基礎多主題知識庫,對基于顯性主題、隱性主題及隱喻主題特征的語料進行人工標注;其次,通過人工標注的景區評論語料的隱喻特征對SMTFMA條件隨機場分類器進行訓練,根據訓練后的條件隨機場分類器計算未經標注語料在特定特征詞出現的情況下,待計算特征詞出現的概率,根據特征詞出現的概率識別指定詞的隱喻主題詞及隱喻主題特征。
6.根據權利要求1所述的基于隱喻主題挖掘的景區評價知識庫構建方法,其特征在于,所述S3構建景區評價知識庫的具體方法包括:
首先,構建旅游情感詞典知識庫;其次,基于景區多主題知識庫及旅游情感詞典知識庫,采用景區語料庫的語義搭配計算模型進行情感詞與主題詞的搭配,形成主題詞與情感詞之間一對多的搭配形式,并以SQL形式存放在數據庫之中,構建景區評價知識庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院遙感與數字地球研究所,未經中國科學院遙感與數字地球研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911302244.4/1.html,轉載請聲明來源鉆瓜專利網。





