[發明專利]新詞發現方法及裝置、電子設備及存儲介質在審
| 申請號: | 202110227279.7 | 申請日: | 2021-03-01 |
| 公開(公告)號: | CN113705212A | 公開(公告)日: | 2021-11-26 |
| 發明(設計)人: | 陳誠;陳守志;董井然;張杰;曾令英;梁浩強;孫雨豪 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279 |
| 代理公司: | 深圳市隆天聯鼎知識產權代理有限公司 44232 | 代理人: | 葉虹 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 新詞 發現 方法 裝置 電子設備 存儲 介質 | ||
本公開提供一種新詞發現方法及裝置、電子設備、計算機可讀存儲介質;涉及計算機技術領域。所述新詞發現方法包括:獲取多個文本數據,且各所述文本數據均具有類型標簽;對所述多個文本數據進行新詞提取,以得到一個或多個新詞;在各所述類型標簽中確定目標類型標簽,并計算所述新詞與所述目標類型標簽之間的相關度指標;依據所述相關度指標,在所述新詞中確定出與所述目標類型標簽關聯的目標新詞。本公開通過引入相關性指標,可以在確保新詞發現的準確率的同時,提高新詞發現的結果與目標類型的相關性。
技術領域
本公開涉及計算機技術領域,具體而言,涉及一種新詞發現方法、新詞發現裝置、電子設備以及計算機可讀存儲介質。
背景技術
社會經濟文化及科學技術的發展與變遷會對語言產生潛移默化的影響,其中,最直觀的影響便是新詞的出現。新詞的來源涵蓋生產生活的方方面面,例如,可以是網絡新詞、可以是生產運營過程催生的新詞,還可以是某一行業或某一領域的新詞,而如何在文本處理和信息挖掘領域中快速和有效地識別新詞也越發重要。在相關技術中,由于只考慮新詞判定維度的衡量指標,因此存在新詞發現的結果與目標任務無關等問題。
需要說明的是,在上述背景技術部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
本公開的目的在于提供一種新詞發現方法、新詞發現裝置、電子設備以及計算機可讀存儲介質,進而至少在一定程度上克服由于相關技術的限制和缺陷而導致的新詞發現的結果與目標任務無關的問題。
根據本公開的第一方面,提供一種新詞發現方法,包括:
獲取多個文本數據,且各所述文本數據均具有類型標簽;
對所述多個文本數據進行新詞提取,以得到一個或多個新詞;
在各所述類型標簽中確定目標類型標簽,并計算所述新詞與所述目標類型標簽之間的相關度指標;
依據所述相關度指標,在所述新詞中確定出與所述目標類型標簽關聯的目標新詞。
根據本公開的第二方面,提供一種新詞發現裝置,包括:
文本獲取模塊,用于獲取多個文本數據,且各所述文本數據均具有類型標簽;
新詞提取模塊,用于對所述多個文本數據中進行新詞提取,以得到一個或多個新詞;
相關度計算模塊,用于在各所述類型標簽確定目標類型標簽,并計算所述新詞與所述目標類型標簽之間的相關度指標;
目標新詞發現模塊,用于依據所述相關度指標,在所述新詞中確定出與所述目標類型標簽關聯的目標新詞。
在本公開的一種示例性實施例中,所述新詞提取模塊通過執行以下方法對所述多個文本數據中進行新詞提取,以得到一個或多個新詞:
將各所述文本數據劃分為多個句子,并從各所述句子中提取多個候選詞;
計算各所述候選詞的鄰字豐富度指標及內部凝固度指標;
當所述鄰字豐富度指標和所述內部凝固度指標分別大于對應的預設豐富度閾值及預設凝固度閾值時,將所述候選詞作為所述新詞。
在本公開的一種示例性實施例中,所述新詞提取模塊通過執行以下步驟從各所述句子中提取多個候選詞:
分別以多個不同的字符長度從各所述句子中提取多個所述候選詞。
在本公開的一種示例性實施例中,所述新詞提取模塊通過執行以下方法計算各所述候選詞的鄰字豐富度指標及內部凝固度指標:
從所述文本數據中獲取所述候選詞的左右鄰字集合,并對應計算所述候選詞與所述左右鄰字集合間的信息熵,得到所述鄰字豐富度指標;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110227279.7/2.html,轉載請聲明來源鉆瓜專利網。





