[發明專利]一種百科詞條標簽的優化方法及系統有效
| 申請號: | 201710627612.7 | 申請日: | 2017-07-28 |
| 公開(公告)號: | CN107247709B | 公開(公告)日: | 2021-03-16 |
| 發明(設計)人: | 徐波 | 申請(專利權)人: | 廣州多益網絡股份有限公司;多益網絡有限公司;廣東利為網絡科技有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F16/332;G06F16/35 |
| 代理公司: | 廣州駿思知識產權代理有限公司 44425 | 代理人: | 吳靜芝 |
| 地址: | 510530 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 百科 詞條 標簽 優化 方法 系統 | ||
1.一種百科詞條標簽的優化方法,其特征在于:包括以下步驟:
S1:對百科詞條進行判斷是否有標簽;若有標簽,則執行步驟S2;若無標簽,則執行步驟S3;
S2:對有標簽的詞條按標簽正確性作降序排序,排序后的第一個標簽作為詞條的最佳標簽;
所述步驟S2中具體包括:
S21:對百科語料進行訓練,獲得word2vec模型;
S22:向量化詞條屬性和詞條標簽;
S23:獲取詞條標簽向量和詞條屬性向量的余弦相似度;
S24:將余弦相似度最大值所對應的標簽作為該詞條的最佳標簽;
S3:獲取該無標簽詞條的屬性詞的詞向量,并分別與有標簽的詞條的屬性詞的詞向量進行相似度比較,從而在有標簽詞條中匹配出該無標簽詞條相似度最大的詞條,并將該詞條的標簽作為無標簽詞條的標簽;
所述步驟S3中具體包括以下步驟:
S31:獲得無標簽詞條的各個屬性詞的詞向量,將所有屬性詞的向量相加再取平均得到的最終的一個向量;
S32:將該無標簽詞條的各個屬性詞的詞向量與有標簽詞條的屬性詞向量進行相似度比較;
S33:獲取有標簽的詞條中匹配出跟無標簽的詞條最相近的詞條,并把其標簽作為無標簽的詞條的標簽;
所述步驟S33中,在有標簽的詞條中匹配出跟無標簽的詞條最相近的詞條時,具體通過:
遍歷全部有標簽的詞條,并匹配出相似度最大的詞條標簽;
或者,通過抽取設定數量的有標簽的詞條,并匹配出相似度最大的詞條標簽;
或者,通過設定一個相似度閾值,當余弦相似度大于設定的相似度閾值時,則結束匹配。
2.一種百科詞條標簽的優化系統,其特征在于:包括判斷模塊、有標簽詞條處理模塊和無標簽詞條處理模塊;
所述判斷模塊,用于對百科詞條的標簽進行判斷,若該詞條有標簽時,則發送至所述有標簽詞條處理模塊,若該詞條無標簽時,則發送至所述無標簽詞條處理模塊;
所述有標簽詞條處理模塊,用于對有標簽的詞條按標簽正確性作降序排序,排序后的第一個標簽作為詞條的最佳標簽;
所述有標簽詞條處理模塊包括:
模型獲取模塊,用于對百科語料進行訓練,獲得word2vec模型;
向量化模塊,用于向量化詞條屬性和詞條標簽;
余弦相似度獲取模塊,用于獲取詞條標簽向量和詞條屬性向量的余弦相似度;
最佳標簽獲取模塊,用于將余弦相似度最大值所對應的標簽作為該詞條的最佳標簽;
所述無標簽詞條處理模塊,用于獲取該無標簽詞條的屬性詞的詞向量,并分別與有標簽的詞條的屬性詞的詞向量進行相似度比較,從而在有標簽詞條中匹配出該無標簽詞條相似度最大的詞條,并將該詞條的標簽作為無標簽詞條的標簽;
所述無標簽詞條處理模塊包括:
屬性詞向量獲取模塊,用于獲得無標簽詞條的各個屬性詞的詞向量,將所有屬性詞的向量相加再取平均得到的最終的一個向量;
相似度比較模塊,用于將該無標簽詞條的各個屬性詞的詞向量與有標簽詞條的屬性詞向量進行相似度比較;
無標簽詞條的標簽獲取模塊,用于獲取有標簽的詞條中匹配出跟無標簽的詞條最相近的詞條,并把其標簽作為無標簽的詞條的標簽;
所述無標簽詞條的標簽獲取模塊具體通過:
遍歷全部有標簽的詞條,并匹配出相似度最大的詞條標簽;
或者,通過抽取設定數量的有標簽的詞條,并匹配出相似度最大的詞條標簽;
或者,通過設定一個相似度閾值,當余弦相似度大于設定的相似度閾值時,則結束匹配。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州多益網絡股份有限公司;多益網絡有限公司;廣東利為網絡科技有限公司,未經廣州多益網絡股份有限公司;多益網絡有限公司;廣東利為網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710627612.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種姓名識別方法及系統
- 下一篇:一種英語翻譯機





