[發明專利]攜帶實體關系屬性的中文通用知識圖譜的生成方法及裝置有效
| 申請號: | 201710602759.0 | 申請日: | 2017-07-21 |
| 公開(公告)號: | CN107391677B | 公開(公告)日: | 2020-10-13 |
| 發明(設計)人: | 宋亞楠;邱楠;王昊奮;周磊 | 申請(專利權)人: | 蘇州狗尾草智能科技有限公司 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F16/36 |
| 代理公司: | 北京酷愛智慧知識產權代理有限公司 11514 | 代理人: | 任媛 |
| 地址: | 215000 江蘇省蘇州*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 攜帶 實體 關系 屬性 中文 通用 知識 圖譜 生成 方法 裝置 | ||
本發明提供的攜帶實體關系屬性的中文通用知識圖譜的生成方法及裝置,方法為:對多種外部數據源和數據庫中的實體進行命名實體識別,并對識別得到的多個命名實體進行連接,得到多個實體關系;在多個實體關系中增加屬性標識符,得到多個實體關系屬性;根據多個實體、多個實體關系和多個實體關系屬性,生成攜帶實體關系屬性的中文通用知識圖譜。本發明通過在實體關系中添加標識符,建立實體關系屬性,使通過知識圖譜抽取答案時,由于實體關系屬性的增加,提高了答案抽取的效率,且提高了抽取答案的完整性,使知識圖譜更為高效地為使用者提供服務。
技術領域
本發明涉及人工智能領域,尤其涉及攜帶實體關系屬性的中文通用知識圖譜的生成方法及裝置領域。
背景技術
知識圖譜技術2012年由谷歌提出,其目標在于描述真實世界中存在的各種實體和概念,及實體、概念之間的關聯關系,從而改善搜索結果。隨后,知識圖譜技術得到了研究人員和企業的重視,并在檢索、風控等方面得到了應用。知識圖譜在對輸入進行回復的過程中,可以做一層、二層甚至多層檢索以便組織最符合用戶意圖的全面的答案。
現有技術方案多是搜索引擎公司開發(google baidu sougou),用于特殊領域,比如百度和搜狗均開發人物關系的知識圖譜,谷歌作為英文搜索為主的搜索引擎,對中文知識圖譜的建立也有不足。盡管中文開放知識圖譜聯盟(OpenKG)已經搭建有OpenKG.CN技術平臺,有35家機構入駐。吸引了國內如Zhishi.me,CN-DBPedia,PKUBase等最著名知識圖譜資源加入,并已經包含了來自于常識、醫療、金融、城市、出行等15個類目的開放知識圖譜。但中文通用知識圖譜的開發目前仍顯不足,中文通用知識圖譜的開發平臺也仍是空白領域。
當前知識圖譜中存儲的多是實體、實體屬性、實體關系,但是關系本身也是具有屬性的。另外,隨著知識圖譜規模變大,從其中推斷新的關系或抽取特定答案工作量也變大,且信息產生的速度越來越快,需要快速更新知識圖譜才能保證知識圖譜的可靠性、有用性。另外,由于同一語義在自然語言中有多種不同的表達方式(“魯迅出生在浙江紹興”和“浙江紹興是魯迅的家鄉”),導致在進行結構化查詢(SPARQL)時無法抽取到完整答案。
因此,現有技術中的缺陷是:現有的知識圖譜,由于知識圖譜規模不斷變大,單單依靠實體、實體屬性和實體關系從知識圖譜中抽取答案,導致效率慢、可靠性差,且由于同一語義在自然語言中有多種不同的表達方式,使抽取到的答案無法保證完整性。
發明內容
針對上述技術問題,本發明提供一種攜帶實體關系屬性的中文通用知識圖譜的生成方法及裝置,通過在實體關系中添加標識符,建立實體關系屬性,使通過知識圖譜抽取答案時,由于實體關系屬性的增加,提高了答案抽取的效率,且提高了抽取答案的完整性,使知識圖譜更為高效地為使用者提供服務。
為解決上述技術問題,本發明提供的技術方案是:
第一方面,本發明提供一種攜帶實體關系屬性的中文通用知識圖譜生成方法,其特征在于,包括:
步驟S1,對多種外部數據源和數據庫中的實體進行命名實體識別,并對識別得到的多個命名實體進行連接,得到多個實體關系;
步驟S2,在所述多個實體關系中增加屬性標識符,得到多個實體關系屬性;
步驟S3,根據所述多個實體、所述多個實體關系和所述多個實體關系屬性,生成攜帶實體關系屬性的中文通用知識圖譜。
本發明提供一種攜帶實體關系屬性的中文通用知識圖譜生成方法,其技術方案為:對多種外部數據源和數據庫中的實體進行命名實體識別,并對識別得到的多個命名實體進行連接,得到多個實體關系;在所述多個實體關系中增加屬性標識符,得到多個實體關系屬性;根據所述多個實體、所述多個實體關系和所述多個實體關系屬性,生成攜帶實體關系屬性的中文通用知識圖譜。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州狗尾草智能科技有限公司,未經蘇州狗尾草智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710602759.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:網頁展示方法及裝置
- 下一篇:基于聚類的網頁內容信息提取方法





