[發明專利]新詞發現方法、裝置、終端及服務器有效
| 申請號: | 201611040851.4 | 申請日: | 2016-11-23 |
| 公開(公告)號: | CN106776543B | 公開(公告)日: | 2019-09-06 |
| 發明(設計)人: | 謝瑜;張昊;朱頻頻 | 申請(專利權)人: | 上海智臻智能網絡科技股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 張振軍;吳敏 |
| 地址: | 201803 上海市嘉*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 新詞 發現 方法 裝置 終端 服務器 | ||
1.一種新詞發現方法,其特征在于,包括:
對原始語料進行新詞發現操作,以得到新詞候選詞;
對所述原始語料進行分詞,以得到第一分詞結果;
基于所述第一分詞結果拆分所述新詞候選詞得到所述新詞候選詞的子部分,其中所述新詞候選詞的子部分包含在所述第一分詞結果中,所述新詞候選詞包括至少兩個所述第一分詞結果中的詞;
計算所述新詞候選詞與其子部分的語義相似度;
如果所述語義相似度小于設定閾值,則將所述新詞候選詞確定為新詞;
對確定的所述新詞的準確率進行評估,得到評估結果;
根據所述評估結果調整所述設定閾值;
利用調整后的所述設定閾值再次確定所述新詞,直至確定的所述新詞的準確率符合預設要求。
2.根據權利要求1所述的新詞發現方法,其特征在于,還包括:
如果所述語義相似度大于或等于設定閾值,則將所述新詞候選詞確定為垃圾詞串。
3.根據權利要求1所述的新詞發現方法,其特征在于,所述計算所述新詞候選詞與其子部分的語義相似度包括:
計算所述新詞候選詞的詞向量以及所述新詞候選詞的子部分的詞向量;
根據所述新詞候選詞的詞向量以及所述新詞候選詞的子部分的詞向量計算所述新詞候選詞與其子部分的語義相似度。
4.根據權利要求3所述的新詞發現方法,其特征在于,對所述原始語料進行分詞是基于分詞詞典完成的,所述對原始語料進行新詞發現操作,以得到新詞候選詞之后還包括:
將所述新詞候選詞添加至分詞詞典。
5.根據權利要求4所述的新詞發現方法,其特征在于,還包括:
利用加入所述新詞候選詞的分詞詞典對所述原始語料進行分詞,得到第二分詞結果,所述第二分詞結果至少包括所述新詞候選詞。
6.根據權利要求5所述的新詞發現方法,其特征在于,所述計算所述新詞候選詞的詞向量以及所述新詞候選詞的子部分的詞向量包括:
基于所述第一分詞結果和所述第二分詞結果,計算得到所述第一分詞結果和所述第二分詞結果中所有詞的詞向量;
計算每一新詞候選詞的子部分對應的各個詞的詞向量之和,以作為所述每一新詞候選詞的子部分的詞向量。
7.根據權利要求5所述的新詞發現方法,其特征在于,所述計算所述新詞候選詞的詞向量以及所述新詞候選詞的子部分的詞向量包括:
對所述原始語料進行分字處理,以得到字列表;
基于所述第一分詞結果、所述第二分詞結果和所述字列表,計算得到所述第一分詞結果和所述第二分詞結果中所有詞的詞向量;
計算每一新詞候選詞的子部分對應的各個詞的詞向量之和,以作為所述每一新詞候選詞的子部分的詞向量。
8.根據權利要求7所述的新詞發現方法,其特征在于,通過將所述第一分詞結果、所述第二分詞結果和所述字列表輸入詞向量轉換模型,得到所述第一分詞結果和所述第二分詞結果中所有詞的詞向量。
9.根據權利要求1至8任一項所述的新詞發現方法,其特征在于,所述計算所述新詞候選詞與其子部分的語義相似度包括:
計算每一新詞候選詞的詞向量和所述每一新詞候選詞的子部分的詞向量的語義距離,以衡量所述語義相似度。
10.根據權利要求1至8任一項所述的新詞發現方法,其特征在于,所述對所述原始語料進行分詞之前還包括:
對所述原始語料進行預處理,以得到格式統一的所述原始語料。
11.根據權利要求1至8任一項所述的新詞發現方法,其特征在于,采用統計或規則算法進行所述新詞發現操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海智臻智能網絡科技股份有限公司,未經上海智臻智能網絡科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611040851.4/1.html,轉載請聲明來源鉆瓜專利網。





