[發(fā)明專利]關(guān)聯(lián)詞典構(gòu)建方法和裝置有效
申請(qǐng)?zhí)枺?/td> | 201310565554.1 | 申請(qǐng)日: | 2013-11-13 |
公開(公告)號(hào): | CN103605712A | 公開(公告)日: | 2014-02-26 |
發(fā)明(設(shè)計(jì))人: | 田晉坤 | 申請(qǐng)(專利權(quán))人: | 北京銳安科技有限公司 |
主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F17/28 |
代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 胡彬 |
地址: | 100044 北京市海*** | 國(guó)省代碼: | 北京;11 |
權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
摘要: | |||
搜索關(guān)鍵詞: | 關(guān)聯(lián) 詞典 構(gòu)建 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,尤其涉及關(guān)聯(lián)詞典構(gòu)建方法和裝置。
背景技術(shù)
關(guān)聯(lián)詞典是信息檢索中常用的輔助工具。檢索模型通過(guò)關(guān)聯(lián)詞典將文檔的索引術(shù)語(yǔ)和用戶的查詢術(shù)語(yǔ)進(jìn)行擴(kuò)展,來(lái)實(shí)現(xiàn)對(duì)檢索性能的提高。因此,建立高質(zhì)量的關(guān)聯(lián)詞典對(duì)檢索效果的提升有十分重要的意義。
現(xiàn)有的關(guān)聯(lián)詞典構(gòu)建方法中,路徑頻率-反向鏈接頻率(Path?frequency-inversed?backward?link?frequency,PF-IBF)算法能夠快速的搜集關(guān)聯(lián)術(shù)語(yǔ),并計(jì)算出關(guān)聯(lián)術(shù)語(yǔ)之間的關(guān)聯(lián)度參數(shù),被認(rèn)為是構(gòu)建關(guān)聯(lián)詞典的較優(yōu)的算法。但是,因?yàn)槁窂筋l率-反向鏈接頻率算法進(jìn)行術(shù)語(yǔ)挖掘的數(shù)據(jù)源范圍較小,并且不對(duì)原有的術(shù)語(yǔ)進(jìn)行擴(kuò)充,因此,采用路徑頻率-反向鏈接頻率算法獲得的關(guān)聯(lián)詞典的數(shù)據(jù)量十分有限。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提出一種關(guān)聯(lián)詞典構(gòu)建方法和裝置,以增加關(guān)聯(lián)詞典中的數(shù)據(jù)量。
第一方面,本發(fā)明實(shí)施例提供了一種關(guān)聯(lián)詞典構(gòu)建方法,所述方法包括:
從網(wǎng)絡(luò)詞典網(wǎng)頁(yè)上獲取源術(shù)語(yǔ)集合和目標(biāo)術(shù)語(yǔ)集合;
根據(jù)源術(shù)語(yǔ)與目標(biāo)術(shù)語(yǔ)在所述網(wǎng)絡(luò)詞典網(wǎng)頁(yè)上共同出現(xiàn)的情況構(gòu)建初始直接關(guān)聯(lián)矩陣;
對(duì)所述源術(shù)語(yǔ)集合和目標(biāo)術(shù)語(yǔ)集合進(jìn)行擴(kuò)充,使得擴(kuò)充后的關(guān)聯(lián)矩陣為方陣;
對(duì)擴(kuò)展后的關(guān)聯(lián)矩陣進(jìn)行冪運(yùn)算,得到不同冪次的間接關(guān)聯(lián)矩陣;
對(duì)不同冪次的間接關(guān)聯(lián)矩陣進(jìn)行加權(quán)平均,得到表示不同術(shù)語(yǔ)之間的關(guān)聯(lián)度的關(guān)聯(lián)矩陣。
第二方面,本發(fā)明實(shí)施例提供了一種關(guān)聯(lián)詞典構(gòu)建裝置,所述裝置包括:
術(shù)語(yǔ)集合獲取模塊,用于從網(wǎng)絡(luò)詞典網(wǎng)頁(yè)上獲取源術(shù)語(yǔ)集合和目標(biāo)術(shù)語(yǔ)集合;
初始直接關(guān)聯(lián)矩陣構(gòu)建模塊,用于根據(jù)源術(shù)語(yǔ)與目標(biāo)術(shù)語(yǔ)在所述網(wǎng)絡(luò)詞典網(wǎng)頁(yè)上共同出現(xiàn)的情況構(gòu)建初始直接關(guān)聯(lián)矩陣;
術(shù)語(yǔ)集合擴(kuò)充模塊,用于對(duì)所述源術(shù)語(yǔ)集合和目標(biāo)術(shù)語(yǔ)集合進(jìn)行擴(kuò)充,使得擴(kuò)充后的關(guān)聯(lián)矩陣為方陣;
間接關(guān)聯(lián)矩陣獲取模塊,用于對(duì)擴(kuò)展后的關(guān)聯(lián)矩陣進(jìn)行冪運(yùn)算,得到不同冪次的間接關(guān)聯(lián)矩陣;
關(guān)聯(lián)矩陣計(jì)算模塊,用于對(duì)不同冪次的間接關(guān)聯(lián)矩陣進(jìn)行加權(quán)平均,得到表示不同術(shù)語(yǔ)之間的關(guān)聯(lián)度的關(guān)聯(lián)矩陣。
本發(fā)明實(shí)施例提供的關(guān)聯(lián)詞典構(gòu)建方法和裝置,通過(guò)從網(wǎng)絡(luò)詞典網(wǎng)頁(yè)獲取術(shù)語(yǔ)集合,對(duì)術(shù)語(yǔ)集合進(jìn)行擴(kuò)充,并根據(jù)擴(kuò)充后的術(shù)語(yǔ)集合計(jì)算術(shù)語(yǔ)間的關(guān)聯(lián)矩陣,完成了對(duì)關(guān)聯(lián)術(shù)語(yǔ)之間的關(guān)聯(lián)度的計(jì)算,增加了關(guān)聯(lián)詞典中的數(shù)據(jù)量。
附圖說(shuō)明
通過(guò)閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
圖1是本發(fā)明第一實(shí)施例提供的關(guān)聯(lián)詞典構(gòu)建方法的流程圖;
圖2是本發(fā)明第一實(shí)施例提供的術(shù)語(yǔ)集合擴(kuò)充前后的術(shù)語(yǔ)集合和關(guān)聯(lián)矩陣比較示意圖;
圖3是本發(fā)明第一實(shí)施例提供的關(guān)聯(lián)詞典構(gòu)建方法中的初始直接關(guān)聯(lián)矩陣構(gòu)建的流程圖;
圖4是本發(fā)明第一實(shí)施例提供的關(guān)聯(lián)詞典構(gòu)建方法中的術(shù)語(yǔ)集合擴(kuò)充的流程圖;
圖5是本發(fā)明第二實(shí)施例提供的關(guān)聯(lián)詞典構(gòu)建方法中的術(shù)語(yǔ)集合擴(kuò)充的流程圖;
圖6是本發(fā)明第三實(shí)施例提供的關(guān)聯(lián)詞典構(gòu)建方法的流程圖;
圖7是本發(fā)明第三實(shí)施例提供的關(guān)聯(lián)詞典構(gòu)建裝置的結(jié)構(gòu)圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。可以理解的是,此處所描述的具體實(shí)施例僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。另外還需要說(shuō)明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部?jī)?nèi)容。
圖1至圖4示出了本發(fā)明的第一實(shí)施例。
圖1是本發(fā)明第一實(shí)施例提供的關(guān)聯(lián)詞典構(gòu)建方法的流程圖。參見(jiàn)圖1,所述關(guān)聯(lián)詞典構(gòu)建方法包括:
步驟S110,從網(wǎng)絡(luò)詞典網(wǎng)頁(yè)上獲取源術(shù)語(yǔ)集合和目標(biāo)術(shù)語(yǔ)集合。
關(guān)聯(lián)詞典是由相互之間具有關(guān)聯(lián)關(guān)系的術(shù)語(yǔ)及它們之間的關(guān)聯(lián)關(guān)系構(gòu)成的數(shù)據(jù)集合。每個(gè)關(guān)聯(lián)關(guān)系涉及兩個(gè)術(shù)語(yǔ),即所述關(guān)聯(lián)關(guān)系的指出術(shù)語(yǔ),以及所述關(guān)聯(lián)關(guān)系的指入術(shù)語(yǔ)。在本發(fā)明中,所述關(guān)聯(lián)關(guān)系的指出術(shù)語(yǔ)被稱為源術(shù)語(yǔ),而所述關(guān)聯(lián)關(guān)系的指入術(shù)語(yǔ)被稱為目標(biāo)術(shù)語(yǔ)。
所述源術(shù)語(yǔ)集合是用于構(gòu)建關(guān)聯(lián)詞典的源術(shù)語(yǔ)組成的集合,而目標(biāo)術(shù)語(yǔ)集合是用于構(gòu)建關(guān)聯(lián)詞典的目標(biāo)術(shù)語(yǔ)組成的集合。
所述網(wǎng)絡(luò)詞典網(wǎng)頁(yè)是互聯(lián)網(wǎng)上各種網(wǎng)絡(luò)詞典的網(wǎng)頁(yè),包括維基百科的網(wǎng)頁(yè)、百度百科的網(wǎng)頁(yè)。由于這些網(wǎng)絡(luò)詞典中的詞條經(jīng)過(guò)了專業(yè)人員的加工,具有一定的代表性,因此,將這些網(wǎng)絡(luò)詞典的網(wǎng)頁(yè)作為構(gòu)建關(guān)聯(lián)詞典的數(shù)據(jù)源。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京銳安科技有限公司,未經(jīng)北京銳安科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310565554.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:一種多重保護(hù)的緊急切斷閥
- 下一篇:一種帶輪
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 關(guān)聯(lián)裝置
- 數(shù)據(jù)關(guān)聯(lián)裝置和數(shù)據(jù)關(guān)聯(lián)方法
- 安全關(guān)聯(lián)
- 設(shè)備關(guān)聯(lián)
- 終端關(guān)聯(lián)裝置和終端關(guān)聯(lián)方法
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)分析方法和關(guān)聯(lián)分析系統(tǒng)
- 報(bào)文關(guān)聯(lián)方法、報(bào)文關(guān)聯(lián)裝置及報(bào)文關(guān)聯(lián)系統(tǒng)
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測(cè)模型構(gòu)建方法
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)