[發明專利]結合時域特征的新詞發現方法和系統在審
| 申請號: | 202310195366.8 | 申請日: | 2023-02-24 |
| 公開(公告)號: | CN116186202A | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 李同慶;凌芳覺 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/216;G06N3/04;G06N3/08 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 周敏 |
| 地址: | 310023 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 結合 時域 特征 新詞 發現 方法 系統 | ||
本公開提供了一種用于新詞發現的方法和系統,方法包括:對輸入的文本進行預處理以分割成多個文本片段;針對每個文本片段生成多個候選詞;對于該多個候選詞中的每個候選詞,根據該候選詞的針對詞頻的時域變化指標來確定該候選詞為新詞的概率分;以及在該概率分大于預定閾值概率分的情況下,確定該候選詞為新詞。
技術領域
本公開涉及人工智能領域,更具體地,涉及用于新詞發現的方法和系統。
背景技術
目前在自然語言處理領域中,隨著新詞的不斷出現而可能導致大量的分詞錯誤。例如,產品名稱往往是新創造的名詞,對于分詞器而言屬于未登錄詞,因此導致無法正確切分,因此需要利用新詞發現的算法來發現新詞并進行準確切分。
然而,目前現有的算法往往具有較大的局限性,例如,基于規則的新詞發現方法需要建立非常復雜的規則庫,這大大增加了新詞發現系統的設計復雜度,而基于統計的新詞發現方法包括有監督和無監督的新詞發現,其中有監督的新詞發現需要一個標注良好的訓練集,這需要耗費大量時間,無監督的新詞發現不需要標注的訓練集,但是傳統的無監督新詞發現算法并不考慮詞的時域特征從而需要積累一定的樣本才能正確識別出來,導致無法快速地發現新詞,具有一定的時間滯后性。
因此,期望能夠提供一種用于新詞發現的方法和系統,能夠不僅考慮詞的詞頻、凝固度和信息熵等特征,而且還考慮詞的時域特征,從而能夠快速發現新詞并且提高新詞發現的準確率。
發明內容
提供本公開內容以便以簡化形式介紹將在以下具體實施方式中進一步的描述一些概念。本公開內容并非旨在標識所要求保護的主題的關鍵特征或必要特征,也不旨在用于幫助確定所要求保護的主題的范圍。
針對以上問題,根據本公開的第一方面,提供了一種用于新詞發現的方法,所述方法包括:對輸入的文本進行預處理以分割成多個文本片段;針對每個文本片段生成多個候選詞;對于所述多個候選詞中的每個候選詞,根據該候選詞的針對詞頻的時域變化指標、內部凝固度和左右信息熵來確定該候選詞為新詞的概率分;以及在所述概率分大于預定閾值概率分的情況下,確定該候選詞為新詞。
本公開實施例的技術方案中,通過設計新詞時域特征計算指標,利用結合時域特征的無監督新詞發現算法來快速發現新詞,從而解決傳統算法具有一定時間滯后性,導致無法快速發現新詞的問題。
根據本公開的一個實施例,對于所述多個候選詞中的每個候選詞,該候選詞的時域變化指標是通過以下操作來確定的:對該候選詞的詞頻按時段進行指數加權濾波以得到該候選詞在每個時段的濾波后詞頻;以及根據所述濾波后詞頻來確定該候選詞的時域變化指標。
根據本公開的進一步實施例,確定該候選詞為新詞的概率分進一步包括:根據該候選詞的針對詞頻的時域變化指標、內部凝固度和左右信息熵來確定該候選詞為新詞的概率分。
根據本公開的進一步實施例,對輸入的文本進行預處理以分割成多個文本片段進一步包括:對輸入的文本進行繁簡轉換、大小寫轉換或中英文標點轉換;以及根據標點符號或標志位來將經轉換的文本分割成多個文本片段。
根據本公開的進一步實施例,對每個文本片段生成多個候選詞是基于n元模型n-gram來實現的。
根據本公開的進一步實施例,針對每個文本片段生成多個候選詞進一步包括:在每個文本片段上通過窗口大小分別為2、3、4、5的窗口進行滑動以分別生成2-5元的多個候選詞。
根據本公開的進一步實施例,對于所述多個候選詞中的每個候選詞,該候選詞的內部凝固度是基于該候選詞的各個子序列之間的互信息熵的最小值來確定的。
根據本公開的進一步實施例,對于所述多個候選詞中的每個候選詞,該候選詞的左信息熵和右信息熵分別是基于該候選詞的左鄰字集合和右鄰字集合在該候選詞所在的文本片段中出現的概率來確定的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310195366.8/2.html,轉載請聲明來源鉆瓜專利網。





