[發(fā)明專利]一種面向開放文本的領(lǐng)域概念抽取方法在審
| 申請?zhí)枺?/td> | 201610011936.3 | 申請日: | 2016-01-08 |
| 公開(公告)號: | CN105677640A | 公開(公告)日: | 2016-06-15 |
| 發(fā)明(設計)人: | 賈巖濤;陳新蕾;王元卓;徐君;程學旗 | 申請(專利權(quán))人: | 中國科學院計算技術(shù)研究所 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N5/02 |
| 代理公司: | 北京泛華偉業(yè)知識產(chǎn)權(quán)代理有限公司 11280 | 代理人: | 王勇;葉北琨 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 開放 文本 領(lǐng)域 概念 抽取 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及領(lǐng)域知識庫構(gòu)建技術(shù)領(lǐng)域,具體地說,本發(fā)明涉及一種面 向開放文本的領(lǐng)域概念抽取方法。
背景技術(shù)
世界已經(jīng)入網(wǎng)絡化的大數(shù)據(jù)時代。網(wǎng)絡化的大數(shù)據(jù)數(shù)量巨大、形式復 雜、密度低,如過要充分地挖掘其中蘊含的巨大價值,就需要以知識庫的 形式將這些數(shù)據(jù)組織起來。知識庫分為普通知識庫和領(lǐng)域知識庫,領(lǐng)域知 識庫注重知識的深度,反映領(lǐng)域概念及其關(guān)系。領(lǐng)域概念是一種領(lǐng)域知識 的表現(xiàn)形式,它是人類在認知過程中對于特定事物的抽象描述。開放文本 的領(lǐng)域概念識別主要關(guān)注如何利用計算機實現(xiàn)自動或者半自動地從互聯(lián) 網(wǎng)上眾多無結(jié)構(gòu)文本中獲取上述領(lǐng)域概念。目前,領(lǐng)域概念抽取及領(lǐng)域知 識庫技術(shù)在信息檢索、文本分類、機器翻譯等自然語言處理領(lǐng)域得到了廣 泛的應用。
目前,領(lǐng)域概念識別方法主要分為人工識別和自動識別兩大類:
1.人工識別主要時依靠專家知識進行識別概念,或者同時依靠專家知 識和從百科等其它來源所收集的相關(guān)信息來識別概念。這種方法需要對領(lǐng) 域知識有一定了解的專家來進行數(shù)據(jù)處理,雖然可以確保知識的準確率, 但所需要的時間和人工成本比較高,因此所能處理的開放文本規(guī)模有限, 所構(gòu)建的知識庫與自動識別概念構(gòu)建的知識庫規(guī)模相差較大,無法適應當 前以爆炸形式增長的大規(guī)模web數(shù)據(jù)。
2.自動概念識別主要是通過基于統(tǒng)計的方法對互聯(lián)網(wǎng)開放文本數(shù)據(jù) 中的概念、屬性、關(guān)系等進行抽取與識別。自動概念識別方法可以分為傳 統(tǒng)的統(tǒng)計方法和基于機器學習的統(tǒng)計方法。傳統(tǒng)的統(tǒng)計方法通過定義一些 統(tǒng)計量及相應的評價指標對候選領(lǐng)域概念進行篩選,最終得到領(lǐng)域相關(guān)性 較高的概念?;跈C器學習的統(tǒng)計方法通過學習標注的語料獲取規(guī)則,然 后根據(jù)這些規(guī)則識別領(lǐng)域概念。然而,目前不論是基于傳統(tǒng)的統(tǒng)計方法, 還是基于機器學習的統(tǒng)計方法,其識別準確率和召回率都有待提高。
因此,當前迫切需要一種能夠提高準確率和召回率的自動領(lǐng)域概念識 別的解決方案。
發(fā)明內(nèi)容
因此,本發(fā)明的任務是提供一種能夠克服現(xiàn)有技術(shù)的上述缺陷的基站 休眠解決方案。
本發(fā)明提供了一種面向開放文本的領(lǐng)域概念抽取方法,包括下列步驟:
1)遍歷語料庫中的所有開放文本,分別從每一篇開放文本中提取候選 領(lǐng)域概念;
2)對于每一候選領(lǐng)域概念,利用該候選領(lǐng)域概念的短語拆分結(jié)果、上 下文信息和百科分類信息得到該候選領(lǐng)域概念所關(guān)聯(lián)的詞向量,將該詞向 量中的所有的詞分別作為該候選領(lǐng)域概念所關(guān)聯(lián)的領(lǐng)域標簽;
3)用步驟1)得出的所有候選領(lǐng)域概念構(gòu)建候選領(lǐng)域概念集合A,用 步驟2)得出的所有領(lǐng)域標簽構(gòu)建領(lǐng)域標簽集合B;基于所述候選領(lǐng)域概念 集合A中各個元素與領(lǐng)域標簽集合B中各個元素的關(guān)聯(lián)關(guān)系,利用HITS 算法進行迭代計算,得出表征所述候選領(lǐng)域概念集合A中各個候選領(lǐng)域概 念在該候選領(lǐng)域概念集合A中的重要程度的權(quán)值,將候選領(lǐng)域概念的權(quán)值 作為該候選領(lǐng)域概念的領(lǐng)域相關(guān)度;
4)根據(jù)各個候選領(lǐng)域概念的特征判斷其是否為領(lǐng)域概念,所述候選領(lǐng) 域概念的特征包括該候選領(lǐng)域概念的所述領(lǐng)域相關(guān)度。
其中,所述步驟1)包括下列子步驟:
11)對開放文本的原始語料進行分詞;
12)對于分詞結(jié)果,通過進行句法分析得到其中名詞或名詞短語,并 將所述名詞和名詞短語作為所述候選領(lǐng)域概念。
其中,所述步驟12)還包括:合并相同的名詞和名詞短語,統(tǒng)計各個 名詞和名詞短語的出現(xiàn)頻次作為相應候選領(lǐng)域概念的出現(xiàn)頻次。
其中,所述步驟2)中,所述HITS算法為加權(quán)HITS算法。
其中,所述步驟3)包括下列子步驟:
31)基于預設的各個領(lǐng)域標簽的權(quán)值的初始值,計算各個候選領(lǐng)域概 念的領(lǐng)域相關(guān)度;
32)基于步驟31)所得出的各個候選領(lǐng)域概念的領(lǐng)域相關(guān)度,計算并更 新各個領(lǐng)域標簽的權(quán)值;
33)基于步驟32)所得出的各個領(lǐng)域標簽的權(quán)值,計算并更新各個候選 領(lǐng)域概念的領(lǐng)域相關(guān)度;
34)重復步驟32)和33),直至所述領(lǐng)域相關(guān)度或所述領(lǐng)域標簽的權(quán)值 收斂。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學院計算技術(shù)研究所,未經(jīng)中國科學院計算技術(shù)研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610011936.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種三軸電動云臺
- 下一篇:一種電腦顯示器固定架





