[發明專利]屬性詞識別及其層次構建方法、裝置、設備及存儲介質有效
| 申請號: | 201710813362.6 | 申請日: | 2017-09-11 |
| 公開(公告)號: | CN109492214B | 公開(公告)日: | 2023-09-19 |
| 發明(設計)人: | 李正華;陳志鵬;陳文亮;袁坤;劉婷婷;黃婷婷 | 申請(專利權)人: | 蘇州大學;騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284 |
| 代理公司: | 華進聯合專利商標代理有限公司 44224 | 代理人: | 何平;鄧云鵬 |
| 地址: | 215000*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 屬性 識別 及其 層次 構建 方法 裝置 設備 存儲 介質 | ||
本發明提供一種屬性詞識別方法及裝置,包括:獲取評論語料的名詞詞表;獲取上下位關系矩陣,所述上下位關系矩陣為種子詞與種子詞的下位詞的上下位關系的矩陣;根據所述上下位關系矩陣及所述名詞詞表中的各詞,確定所述名詞詞表中各詞的預測上位詞向量,所述預測上位詞向量為所述上下位關系矩陣與詞的詞向量的乘積;根據各詞的所述預測上位詞向量確定種子詞的屬性詞。該方法及裝置,僅需通過少量人力資源確定種子詞,而無需通過大量的人力資源,便可以確定與種子詞相關的屬性詞,從而降低了人力資源消耗量。本發明還提供一種與上述屬性詞識別方法及裝置對應的屬性詞的層次構建方法及裝置,以及一種計算機設備及計算機存儲介質。
技術領域
本發明涉及數據挖掘技術領域,特別是涉及一種屬性詞識別及其層次構建方法、裝置、設備及存儲介質。
背景技術
屬性詞是指在評論文本中描述實體的詞。屬性詞對于評論文本的概要顯示具有十分重要的意義。目前,評論文本概要顯示的主流做法為生成“屬性詞+情感詞”的平行標簽,根據屬性詞和情感詞在評論中出現的次數,選取高頻的進行顯示,以幫助用戶快速了解評論中的概要信息,用戶無需逐一閱讀文本,便能夠快速地選擇相關的屬性詞進行查看。
主流方法中,屬性詞識別依賴人工,利用大量的人力資源進行篩選,并進行維護,如果出現新的詞或者新的領域,則需要繼續依靠人工識別屬性詞,從而構造屬性詞表?,F實中存在諸多領域,如旅游、電商等,領域中又分為諸多類別,如電商領域,又可分為“電器”、“服飾”等類別。每個類別的屬性詞表都不一樣,需要分別構造屬性詞表,若都依賴人工,將消耗大量的人力資源。
發明內容
基于此,有必要針對人力資源消耗量大的問題,提供一種降低人力資源消耗量的屬性詞識別及其層次構建方法、裝置、設備及存儲介質。
一種屬性詞識別方法,包括:
獲取評論語料的名詞詞表;
獲取上下位關系矩陣,所述上下位關系矩陣為種子詞與種子詞的下位詞的上下位關系的矩陣;
根據所述上下位關系矩陣及所述名詞詞表中的各詞,確定所述名詞詞表中各詞的預測上位詞向量,所述預測上位詞向量為所述上下位關系矩陣與詞的詞向量的乘積;
根據各詞的所述預測上位詞向量確定種子詞的屬性詞。
一種屬性詞識別裝置,包括:
詞表獲取模塊,用于獲取評論語料的名詞詞表;
矩陣獲取模塊,用于獲取上下位關系矩陣,所述上下位關系矩陣為種子詞與種子詞的下位詞的上下位關系的矩陣;
上位向量確定模塊,用于根據所述上下位關系矩陣及所述名詞詞表中的各詞,確定所述名詞詞表中各詞的預測上位詞向量,所述預測上位詞向量為所述上下位關系矩陣與詞的詞向量的乘積;
屬性詞確定模塊,用于根據各詞的所述預測上位詞向量確定種子詞的屬性詞。
上述屬性詞識別方法及裝置,僅需通過少量人力資源確定種子詞,而無需通過大量的人力資源,便可以確定與種子詞相關的屬性詞,從而降低了人力資源消耗量。
一種屬性詞的層次構建方法,包括:
獲取評論語料的名詞詞表;
獲取上下位關系矩陣,所述上下位關系矩陣為種子詞與種子詞的下位詞的上下位關系的矩陣;
對所述名詞詞表中的詞構造上下位詞對,形成二層屬性詞結構;
根據所述上下位關系矩陣及所述上下位詞對中的各詞,確定所述上下位詞對中各詞的預測上位詞向量,所述預測上位詞向量為所述上下位關系矩陣與詞的詞向量的乘積;
根據各所述預測上位詞向量確定所述上下位詞對對應的種子詞,形成三層屬性詞結構。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學;騰訊科技(深圳)有限公司,未經蘇州大學;騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710813362.6/2.html,轉載請聲明來源鉆瓜專利網。





