[發明專利]一種基于目標知識點的句群抽取方法及裝置有效
| 申請號: | 201510859508.1 | 申請日: | 2015-11-30 |
| 公開(公告)號: | CN105512238B | 公開(公告)日: | 2019-06-04 |
| 發明(設計)人: | 成洪甲;葉茂;徐劍波 | 申請(專利權)人: | 北大方正集團有限公司;北京方正阿帕比技術有限公司;北京大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F17/27 |
| 代理公司: | 北京三聚陽光知識產權代理有限公司 11250 | 代理人: | 馬永芬 |
| 地址: | 100871 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 目標 知識點 抽取 方法 裝置 | ||
一種基于目標知識點的句群抽取方法及裝置,該方法包括如下步驟:獲取知識點的精確屬性;利用精確屬性在待處理數字資源中抽取知識點的模糊屬性;利用精確屬性和模糊屬性在待處理數字資源中進行知識點的句群掛接,獲取知識點句群。通過加入知識點的精確屬性和模糊屬性,提高了知識點句群抽取的準確性。
技術領域
本發明涉及數字資源加工領域,具體涉及一種基于目標知識點的句群抽取方法及裝置。
背景技術
自然語言處理是一個當前研究比較熱門的領域,而從大量文本語料中抽取知識點相關信息又是自然語言處理中的一個研究熱點。目前,以章節形式存儲的知識資源非常的豐富,但是以句子為單位組織起來的知識片段資源十分的匱乏,知識點的句群掛接實現了以句子為單位組織起來的知識片段資源。知識點的句群掛接是通過對語料進行內容分析和處理,將語料中蘊含的與知識點相關的句子逐條抽取出來形成知識片段。句群,又叫句組,是幾個在意義和結構上有密切聯系的各自獨立的句子組成的言語交際單位。即:由前后連貫共同表示一個中心意思的幾個句子組成。句群抽取是指抽取前后連貫、密切聯系,共同闡述一個概念或主題的若干句子,組成表達一個中心意思的句群。句群抽取是知識抽取的一種常用方法,但是現有的句群抽取方法抽取的知識點句群準確性不高,因此目前亟需一種準確性高的句群抽取方法。
發明內容
因此,本發明要解決的技術問題在于現有的知識點句群抽取方法準確性不高。
為此,本發明實施例提供了如下技術方案:
一種基于目標知識點的句群抽取方法,包括如下步驟:
獲取知識點的精確屬性,精確屬性是描述知識點具體屬性的數據;
利用精確屬性在待處理數字資源中抽取知識點的模糊屬性;
利用精確屬性和模糊屬性在待處理數字資源中進行知識點的句群掛接,獲取知識點句群。
優選地,利用精確屬性在待處理數字資源中抽取知識點的模糊屬性的步驟包括:
在待處理數字資源中獲取包含知識點的多個段落,根據精確屬性分別計算每個段落的第一得分;
根據第一得分將包含知識點的段落降序排序;
按照排序結果從前提取預設數量的段落;
對提取的段落進行分句;
對包含知識點的分句以及其前后句子進行分詞;
對分詞結果進行過濾;
統計過濾后的分詞詞頻并按照詞頻進行降序排列,并按照排序結果從前提取預設數量的分詞作為該知識點的模糊屬性。
優選地,包含知識點的段落的第一得分是通過以下公式計算得到的:
其中,n為知識點在該段落中出現的次數,v為知識點的權重,ni為第i個精確屬性在段落中出現的次數,vi為第i個精確屬性的權重。
優選地,模糊屬性的詞性相同。
優選地,利用精確屬性和模糊屬性在待處理數字資源中進行知識點的句群掛接的步驟包括:
根據精確屬性和模糊屬性計算包含知識點的段落的第二得分,并進行降序排序;
按照排序結果從前提取預設數量的段落;
對提取的段落進行分句;
根據分句后的段落獲取多個初始句群,初始句群是從段落的第一句開始取前后連貫的預設數量的句子形成的;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京方正阿帕比技術有限公司;北京大學,未經北大方正集團有限公司;北京方正阿帕比技術有限公司;北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510859508.1/2.html,轉載請聲明來源鉆瓜專利網。





