[發明專利]一種基于目標知識點的句群抽取方法及裝置有效

申請號：	201510859508.1	申請日：	2015-11-30
公開（公告）號：	CN105512238B	公開（公告）日：	2019-06-04
發明（設計）人：	成洪甲;葉茂;徐劍波	申請（專利權）人：	北大方正集團有限公司;北京方正阿帕比技術有限公司;北京大學
主分類號：	G06F16/31	分類號：	G06F16/31;G06F17/27
代理公司：	北京三聚陽光知識產權代理有限公司 11250	代理人：	馬永芬
地址：	100871 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于目標知識點抽取方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

一種基于目標知識點的句群抽取方法及裝置，該方法包括如下步驟：獲取知識點的精確屬性；利用精確屬性在待處理數字資源中抽取知識點的模糊屬性；利用精確屬性和模糊屬性在待處理數字資源中進行知識點的句群掛接，獲取知識點句群。通過加入知識點的精確屬性和模糊屬性，提高了知識點句群抽取的準確性。

技術領域

本發明涉及數字資源加工領域，具體涉及一種基于目標知識點的句群抽取方法及裝置。

背景技術

自然語言處理是一個當前研究比較熱門的領域，而從大量文本語料中抽取知識點相關信息又是自然語言處理中的一個研究熱點。目前，以章節形式存儲的知識資源非常的豐富，但是以句子為單位組織起來的知識片段資源十分的匱乏，知識點的句群掛接實現了以句子為單位組織起來的知識片段資源。知識點的句群掛接是通過對語料進行內容分析和處理，將語料中蘊含的與知識點相關的句子逐條抽取出來形成知識片段。句群，又叫句組，是幾個在意義和結構上有密切聯系的各自獨立的句子組成的言語交際單位。即：由前后連貫共同表示一個中心意思的幾個句子組成。句群抽取是指抽取前后連貫、密切聯系,共同闡述一個概念或主題的若干句子,組成表達一個中心意思的句群。句群抽取是知識抽取的一種常用方法，但是現有的句群抽取方法抽取的知識點句群準確性不高，因此目前亟需一種準確性高的句群抽取方法。

發明內容

因此，本發明要解決的技術問題在于現有的知識點句群抽取方法準確性不高。

為此，本發明實施例提供了如下技術方案：

一種基于目標知識點的句群抽取方法，包括如下步驟：

獲取知識點的精確屬性，精確屬性是描述知識點具體屬性的數據；

利用精確屬性在待處理數字資源中抽取知識點的模糊屬性；

利用精確屬性和模糊屬性在待處理數字資源中進行知識點的句群掛接，獲取知識點句群。

優選地，利用精確屬性在待處理數字資源中抽取知識點的模糊屬性的步驟包括：

在待處理數字資源中獲取包含知識點的多個段落，根據精確屬性分別計算每個段落的第一得分；

根據第一得分將包含知識點的段落降序排序；

按照排序結果從前提取預設數量的段落；

對提取的段落進行分句；