[發明專利]一種百科詞條標簽的優化方法及系統有效
| 申請號: | 201710627612.7 | 申請日: | 2017-07-28 |
| 公開(公告)號: | CN107247709B | 公開(公告)日: | 2021-03-16 |
| 發明(設計)人: | 徐波 | 申請(專利權)人: | 廣州多益網絡股份有限公司;多益網絡有限公司;廣東利為網絡科技有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F16/332;G06F16/35 |
| 代理公司: | 廣州駿思知識產權代理有限公司 44425 | 代理人: | 吳靜芝 |
| 地址: | 510530 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 百科 詞條 標簽 優化 方法 系統 | ||
本發明提供一種百科詞條標簽的優化方法,其包括以下步驟:S1:對百科詞條進行判斷是否有標簽;若有標簽,則執行步驟S2;若無標簽,則執行步驟S3;S2:對有標簽的詞條按標簽正確性作降序排序,排序后的第一個標簽作為詞條的最佳標簽;S3:獲取該無標簽詞條的屬性詞的詞向量,并分別與有標簽的詞條的屬性詞的詞向量進行相似度比較,從而在有標簽詞條中匹配出該無標簽詞條相似度最大的詞條,并將該詞條的標簽作為無標簽詞條的標簽。相比于現有技術,本發明可在合適的時間內完成標簽優化工作。該方法提高了百科詞條的三元組數據的標簽的正確性,改善了知識本體庫的質量,提高了問答系統回答用戶問題的正確性。
技術領域
本發明涉及優化方法,特別是一種百科詞條標簽的優化方法及系統。
背景技術
知識庫,又稱為智能數據庫或人工智能數據庫。知識庫是知識工程中結構化、易操作、易利用、全面有組織的知識集群,是針對某一(或某些)領域問題求解的需要,采用某種(或若干)知識表示方式在計算機存儲器中存儲、組織、管理和使用的互相聯系的知識片集合。這些知識片包括與領域相關的理論知識、事實數據,由專家經驗得到的啟發式知識,如某領域內有關的定義、定理和運算法則以及常識性知識等。
知識庫有著廣泛的應用,典型的應用有智能問答系統或自動問題系統或問答知識庫,自動問題系統中存儲著一些預設的問題,并存儲預設問題對應的答案信息,在公眾用戶提出問題時,自動問題系統會將公眾用戶提出的問題與預設的問題進行匹配,若匹配成功,自動問題系統會將該預設問題對應的答案信息反饋給公眾用戶。
在問答系統領域中,往往需要從百科中抽取結構化數據來擴展知識本體庫。所要抽取的結構數據為三元組格式,即詞條-詞條屬性-屬性值。為了提高在本體庫中搜索詞條的速度,需要會利用詞條標簽對詞條進行分類,以縮減搜索詞條的范圍,同時了解該詞條所屬領域。但是百科詞條經常會有標簽錯誤或無標簽的情況。
同時,對于詞條有可能會存在多個標簽,由于詞條標簽經常是由網民編輯的,標簽質量難以保證。即使是由專業的工作人員編輯詞條標簽,同樣會出現標簽質量不高的情況。目前的方法,無法提供更好的優化效果。
發明內容
本發明的目的在于克服現有技術的缺點與不足,提供了一種百科詞條標簽的優化方法及系統。
本發明通過以下的方案實現:一種百科詞條標簽的優化方法,其包括以下步驟:
S1:對百科詞條進行判斷是否有標簽;若有標簽,則執行步驟S2;若無標簽,則執行步驟S3;
S2:對有標簽的詞條按標簽正確性作降序排序,排序后的第一個標簽作為詞條的最佳標簽;
S3:獲取該無標簽詞條的屬性詞的詞向量,并分別與有標簽的詞條的屬性詞的詞向量進行相似度比較,從而在有標簽詞條中匹配出該無標簽詞條相似度最大的詞條,并將該詞條的標簽作為無標簽詞條的標簽;
所述步驟S3中具體包括以下步驟:
S31:獲得無標簽詞條的各個屬性詞的詞向量,將所有屬性詞的向量相加再取平均得到的最終的一個向量;
S32:將該無標簽詞條的各個屬性詞的詞向量與有標簽詞條的屬性詞向量進行相似度比較;
S33:獲取有標簽的詞條中匹配出跟無標簽的詞條最相近的詞條,并把其標簽作為無標簽的詞條的標簽;
所述步驟S33中,在有標簽的詞條中匹配出跟無標簽的詞條最相近的詞條時,具體通過:
遍歷全部有標簽的詞條,并匹配出相似度最大的詞條標簽;
或著,通過抽取設定數量的有標簽的詞條,并匹配出相似度最大的詞條標簽;
或者,通過設定一個相似度閾值,當余弦相似度大于設定的相似度閾值時,則結束匹配;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州多益網絡股份有限公司;多益網絡有限公司;廣東利為網絡科技有限公司,未經廣州多益網絡股份有限公司;多益網絡有限公司;廣東利為網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710627612.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種姓名識別方法及系統
- 下一篇:一種英語翻譯機





