[發(fā)明專利]基于商品評論文檔集的概念層次創(chuàng)建方法有效
| 申請?zhí)枺?/td> | 201310754874.1 | 申請日: | 2013-12-31 |
| 公開(公告)號: | CN103761264A | 公開(公告)日: | 2014-04-30 |
| 發(fā)明(設(shè)計(jì))人: | 陳嶺;涂鼎 | 申請(專利權(quán))人: | 浙江大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06Q30/02 |
| 代理公司: | 杭州天勤知識產(chǎn)權(quán)代理有限公司 33224 | 代理人: | 胡紅娟 |
| 地址: | 310027 浙*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 商品 評論 文檔 概念 層次 創(chuàng)建 方法 | ||
1.一種基于商品評論文檔集的概念層次創(chuàng)建方法,其特征在于,包括如下步驟:
步驟1,對初始的文檔集進(jìn)行預(yù)處理,得到文檔矩陣以及關(guān)鍵詞表;
步驟2,根據(jù)文檔矩陣以及關(guān)鍵詞表建立主題模型,并將每個(gè)主題下相關(guān)度最高的k個(gè)名詞作為關(guān)鍵概念;
步驟3,對關(guān)鍵概念進(jìn)行語義關(guān)系提取,得到關(guān)鍵概念的距離矩陣;
步驟4,根據(jù)距離矩陣進(jìn)行多路凝聚聚類,得到概念層次。
2.如權(quán)利要求1所述基于商品評論文檔集的概念層次創(chuàng)建方法,其特征在于,對初始的文檔集進(jìn)行預(yù)處理的步驟如下:
步驟1-1,從初始的文檔集提取具有評論數(shù)據(jù)的內(nèi)容;
步驟1-2,對所提取內(nèi)容進(jìn)行去停用詞和索引處理;
步驟1-3,根據(jù)索引中詞的出現(xiàn)頻率對內(nèi)容進(jìn)行過濾,并生成相應(yīng)的文檔矩陣和關(guān)鍵詞表。
3.如權(quán)利要求1所述基于商品評論文檔集的概念層次創(chuàng)建方法,其特征在于,步驟2中,主題模型的建立方法為:
步驟2-1,從文檔矩陣中得到主題-詞矩陣;
步驟2-2,由關(guān)鍵詞表得到關(guān)鍵名詞鏈表,主題-詞矩陣及關(guān)鍵名詞鏈表構(gòu)成主題模型。
4.如權(quán)利要求3所述基于商品評論文檔集的概念層次創(chuàng)建方法,其特征在于,步驟2-1中,得到主題一詞矩陣的步驟如下:
步驟2-11,讀取文檔矩陣,并通過預(yù)設(shè)的參數(shù)得到初始的主題模型,并從初始的主題模型得到抽樣的文檔集,其中預(yù)設(shè)的參數(shù)為文檔-主題分布的分布參數(shù)以及主題-詞分布的分布參數(shù);
步驟2-12,根據(jù)抽樣的文檔集與文檔矩陣的分布差異來對主題模型進(jìn)行調(diào)整;
步驟2-13,將步驟2-12重復(fù)8000至12000次,從所得的主題模型得到主題-詞分布矩陣,將每個(gè)主題下的詞按出現(xiàn)概率大小進(jìn)行排序,從而得到主題-詞矩陣。
5.如權(quán)利要求3所述基于商品評論文檔集的概念層次創(chuàng)建方法,其特征在于,步驟2-2中,得到關(guān)鍵名詞鏈表的步驟如下:
步驟2-21,讀取關(guān)鍵詞表,并建立一個(gè)初始的關(guān)鍵名詞鏈表,由關(guān)鍵詞表向該關(guān)鍵名詞鏈表輸入所有關(guān)鍵詞,并去除重復(fù)的關(guān)鍵詞;
步驟2-22,對于每個(gè)關(guān)鍵詞,判定所述關(guān)鍵詞在各個(gè)句子中的詞性,統(tǒng)計(jì)各個(gè)詞性出現(xiàn)的概率,選擇出現(xiàn)概率最大的詞性作為該詞在整個(gè)文檔集中的詞性;
步驟2-23,將所有名詞詞性的關(guān)鍵詞作為關(guān)鍵概念儲存于關(guān)鍵名詞鏈表中。
6.如權(quán)利要求1所述基于商品評論文檔集的概念層次創(chuàng)建方法,其特征在于,步驟3中,語義關(guān)系提取的步驟如下:
步驟3-1,將全部關(guān)鍵概念組成一個(gè)關(guān)鍵概念集合;
步驟3-2,遍歷各個(gè)句子,若包含關(guān)鍵概念,則將其寫入一個(gè)文件中;
步驟3-3,對所有關(guān)鍵概念進(jìn)行語義消歧;
步驟3-4,對于語義消歧后的每一個(gè)關(guān)鍵概念,統(tǒng)計(jì)其所有語義ID在初始的文檔集出現(xiàn)次數(shù),將出現(xiàn)次數(shù)最多的語義作為其在初始的文檔集中的語義;
步驟3-5,根據(jù)步驟3-4中所得到的語義計(jì)算詞典語義距離;
步驟3-6,根據(jù)所有關(guān)鍵概念對在初始文檔中出現(xiàn)的相關(guān)性計(jì)算其統(tǒng)計(jì)語義距離;
步驟3-7,將詞典語義距離和統(tǒng)計(jì)語義距離進(jìn)行結(jié)合得到語義距離,所有關(guān)鍵概念兩兩之間的語義距離所形成的矩陣作為最終的語義距離矩陣。
7.如權(quán)利要求6所述基于商品評論文檔集的概念層次創(chuàng)建方法,其特征在于,步驟3-3中,對各個(gè)關(guān)鍵概念的語義消歧方法如下:
步驟a),讀取該關(guān)鍵概念在同義詞詞林的所有語義ID;
步驟b),根據(jù)語義ID在同義詞詞林中的頂級分類進(jìn)行過濾;
步驟c),獲取所有語義ID的同義詞集;
步驟d),統(tǒng)計(jì)各個(gè)同義詞在初始的文檔集中出現(xiàn)的次數(shù),選擇出現(xiàn)次數(shù)最多的語義ID作為該關(guān)鍵概念的語義ID。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310754874.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





