[發明專利]一種面向開放文本的領域概念抽取方法在審
| 申請號: | 201610011936.3 | 申請日: | 2016-01-08 |
| 公開(公告)號: | CN105677640A | 公開(公告)日: | 2016-06-15 |
| 發明(設計)人: | 賈巖濤;陳新蕾;王元卓;徐君;程學旗 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N5/02 |
| 代理公司: | 北京泛華偉業知識產權代理有限公司 11280 | 代理人: | 王勇;葉北琨 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 開放 文本 領域 概念 抽取 方法 | ||
1.一種面向開放文本的領域概念抽取方法,包括下列步驟:
1)遍歷開放文本集合,分別從每一篇開放文本中提取候選領域概念;
2)對于所提取出的每一候選領域概念,利用該候選領域概念的短語拆 分結果、上下文信息和百科分類信息得到該候選領域概念所關聯的詞向量, 將該詞向量中的所有的詞分別作為該候選領域概念所關聯的領域標簽;
3)用步驟1)得出的所有候選領域概念構建候選領域概念集合A,用 步驟2)得出的所有領域標簽構建領域標簽集合B;基于所述候選領域概念 集合A中各個元素與領域標簽集合B中各個元素的關聯關系,利用HITS 算法進行迭代計算,得出表征所述候選領域概念集合A中各個候選領域概 念在該候選領域概念集合A中的重要程度的領域相關度;
4)根據各個候選領域概念的特征判斷其是否為領域概念,所述候選領 域概念的特征包括該候選領域概念的所述領域相關度。
2.根據權利要求1所述的面向開放文本的領域概念抽取方法,其特征 在于,所述步驟1)包括下列子步驟:
11)對開放文本的原始語料進行分詞;
12)對于分詞結果,通過進行句法分析得到其中名詞或名詞短語作為 所述候選領域概念。
3.根據權利要求2所述的面向開放文本的領域概念抽取方法,其特征 在于,所述步驟12)還包括:合并相同的名詞和名詞短語,統計各個名詞 和名詞短語的出現頻次作為相應候選領域概念的出現頻次。
4.根據權利要求3所述的面向開放文本的領域概念抽取方法,其特征 在于,所述步驟2)中,所述HITS算法為加權HITS算法。
5.根據權利要求1所述的面向開放文本的領域概念抽取方法,其特征 在于,所述步驟3)包括下列子步驟:
31)基于預設的各個領域標簽的權值的初始值,計算各個候選領域概 念的領域相關度;
32)基于步驟31)所得出的各個候選領域概念的領域相關度,計算并更 新各個領域標簽的權值;
33)基于步驟32)所得出的各個領域標簽的權值,計算并更新各個候選 領域概念的領域相關度;
34)重復步驟32)和33),直至所述領域相關度或者所述領域標簽的權 值收斂。
6.根據權利要求5所述的面向開放文本的領域概念抽取方法,其特征 在于,所述步驟31)和33)中,基于下述規則計算和更新所述領域相關度: 候選領域概念的所述領域相關度為與該候選領域概念相關聯的所有領域標 簽的權值的加權和;所述步驟32)中,基于下述規則計算和更新所述領域 標簽的權值:領域標簽的權值為與該領域標簽相關聯的所有候選領域概念的 領域相關度的加權和。
7.根據權利要求6所述的面向開放文本的領域概念抽取方法,其特征 在于,所述步驟32)中,在計算各個領域標簽的權值時,所述的各個候選 領域概念的領域相關度的權重分別根據該候選領域概念的出現頻次得出。
8.根據權利要求6所述的面向開放文本的領域概念抽取方法,其特征 在于,所述步驟31)和33)中,在計算各個候選領域概念的領域相關度時, 所述的各個領域標簽的權重分別根據該領域標簽的出現頻次得出。
9.根據權利要求1所述的面向開放文本的領域概念抽取方法,其特征 在于,所述步驟4)中,所述候選領域概念的特征還包括該候選領域概念的 出現頻次。
10.根據權利要求9所述的面向開放文本的領域概念抽取方法,其特 征在于,所述步驟4)還包括:當所述候選領域概念的出現頻次大于預設的 出現頻次閾值,且所述候選領域概念的領域相關度大于預設的領域相關度閾 值時,判定該候選領域概念為正式的領域概念;否則,丟棄所述候選領域 概念。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610011936.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種三軸電動云臺
- 下一篇:一種電腦顯示器固定架





