[發明專利]新詞發現方法、裝置、終端及服務器有效
| 申請號: | 201611040851.4 | 申請日: | 2016-11-23 |
| 公開(公告)號: | CN106776543B | 公開(公告)日: | 2019-09-06 |
| 發明(設計)人: | 謝瑜;張昊;朱頻頻 | 申請(專利權)人: | 上海智臻智能網絡科技股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 張振軍;吳敏 |
| 地址: | 201803 上海市嘉*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 新詞 發現 方法 裝置 終端 服務器 | ||
一種新詞發現方法、裝置、終端及服務器,新詞發現方法包括:對原始語料進行新詞發現操作,以得到新詞候選詞;對所述原始語料進行分詞,以得到第一分詞結果;基于所述第一分詞結果拆分所述新詞候選詞得到所述新詞候選詞的子部分,其中所述新詞候選詞的子部分包含在所述第一分詞結果中,所述新詞候選詞包括至少兩個所述第一分詞結果中的詞;計算所述新詞候選詞與其子部分的語義相似度;如果所述語義相似度小于設定閾值,則將所述新詞候選詞確定為新詞。本發明技術方案提高了新詞提取的效率和精準度。
技術領域
本發明涉及自然語言處理領域,尤其涉及一種新詞發現方法、裝置、終端及服務器。
背景技術
在自然語言領域的實際應用中,有些場景需要確定具備新的特定含義的詞語,也就是新詞,例如新三板、警示股、母基金。因此,需要對文本或語料中的進行新詞抽取操作。
現有技術中,新詞抽取主要是基于統計和規則的方法?;谝巹t的方法通常是基于新詞的內部語法規則或者新詞的前后綴規則,并以此為準則發現新詞。基于統計方法一般是尋找描述新詞特征的統計量,常用統計量有成詞概率、互信息、剛性等等;并抽取候選詞串,計算其內部聚合度和自由度,在此基礎上確定閾值,尋找聚合度和自由度最大的字符串組合作為新詞。
但時,基于規則的方法中,如何建立全面完整的規則是亟需解決的問題;在基于統計方法中,閾值的確定是個難題,導致抽取的新詞并非新詞的問題,從而導致新詞候選詞中包含垃圾詞串(比如“做家務”、“這本書”、“的時候”等),進而需要大量人工參與新詞過濾,效率極低。
發明內容
本發明解決的技術問題是如何提高新詞提取的效率和精準度。
為解決上述技術問題,本發明實施例提供一種新詞發現方法,新詞發現方法包括:
對原始語料進行新詞發現操作,以得到新詞候選詞;對所述原始語料進行分詞,以得到第一分詞結果;基于所述第一分詞結果拆分所述新詞候選詞得到所述新詞候選詞的子部分,其中所述新詞候選詞的子部分包含在所述第一分詞結果中,所述新詞候選詞包括至少兩個所述第一分詞結果中的詞;計算所述新詞候選詞與其子部分的語義相似度;如果所述語義相似度小于設定閾值,則將所述新詞候選詞確定為新詞。
可選的,所述新詞發現方法還包括:如果所述語義相似度大于或等于設定閾值,則將所述新詞候選詞確定為垃圾詞串。
可選的,所述計算所述新詞候選詞與其子部分的語義相似度包括:計算所述新詞候選詞的詞向量以及所述新詞候選詞的子部分的詞向量;根據所述新詞候選詞的詞向量以及所述新詞候選詞的子部分的詞向量計算所述新詞候選詞與其子部分的語義相似度。
可選的,對所述原始語料進行分詞是基于分詞詞典完成的,所述對原始語料進行新詞發現操作,以得到新詞候選詞之后還包括:將所述新詞候選詞添加至分詞詞典。
可選的,所述新詞發現方法還包括:利用加入所述新詞候選詞的分詞詞典對所述原始語料進行分詞,得到第二分詞結果,所述第二分詞結果至少包括所述新詞候選詞。
可選的,所述計算所述新詞候選詞的詞向量以及所述新詞候選詞的子部分的詞向量包括:基于所述第一分詞結果和所述第二分詞結果,計算得到所述第一分詞結果和所述第二分詞結果中所有詞的詞向量;計算每一新詞候選詞的子部分對應的各個詞的詞向量之和,以作為所述每一新詞候選詞的子部分的詞向量。
可選的,所述計算所述新詞候選詞的詞向量以及所述新詞候選詞的子部分的詞向量包括:對所述原始語料進行分字處理,以得到字列表;基于所述第一分詞結果、所述第二分詞結果和所述字列表,計算得到所述第一分詞結果和所述第二分詞結果中所有詞的詞向量;計算每一新詞候選詞的子部分對應的各個詞的詞向量之和,以作為所述每一新詞候選詞的子部分的詞向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海智臻智能網絡科技股份有限公司,未經上海智臻智能網絡科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611040851.4/2.html,轉載請聲明來源鉆瓜專利網。





