[發明專利]一種領域詞典生成方法及裝置有效
| 申請號: | 201910002132.0 | 申請日: | 2019-01-02 |
| 公開(公告)號: | CN109783649B | 公開(公告)日: | 2023-01-24 |
| 發明(設計)人: | 繆暢宇 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/95 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 郝傳鑫;賈允 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 領域 詞典 生成 方法 裝置 | ||
本發明公開了一種領域詞典生成方法及裝置,所述方法包括獲取目標領域的相關文本;根據所述相關文本得到字符單元集合,所述字符單元集合中包括多個字符單元,所述字符單元由所述相關文本中的連續字符進行組合而得到;獲取每個字符單元的互相關度以得到所述目標領域的原始詞典;計算所述原始詞典中每個字符單元對所述目標領域的貢獻度以得到所述目標領域的目標詞典。本發明基于互相關度和貢獻度的計算得到的目標詞典與所述目標領域具有高度相關性。
技術領域
本發明涉及自然語言處理技術領域,尤其涉及一種領域詞典生成方法及裝置。
背景技術
隨著互聯網的快速發展,產生了大量的、公開的網頁數據,也因此催發了各種基于大數據技術的新興產業,比如互聯網醫療、互聯網教育、企業或者個人征信等;這些互聯網產業的興起與繁榮離不開大量的數據信息分析;大數據分析中自然語言處理占據重要的地位;其中,在自然語言處理分析中基于詞典的分析方法具有重要的應用;具體是以詞典中的詞作為特征,通過詞典匹配來抽取對應的特征詞匯,在特征詞匯抽取的基礎上結合設定的模型或者算法進行針對性的分析和挖掘;不同的領域所采取的詞典也有很大的不同。
其中,詞典大致分成兩大類:一是通用詞典,二是領域詞典;在具體任務上,領域詞典的應用更廣。現有的用于生成領域詞典的方案多種多樣,但都離不開專家知識,即人工選出某個領域的詞作為種子詞;然后再基于這些專家知識訓練模型識別更多的領域詞;該種方法具有很大的偏差和狹隘性。
因此,需要提供一種能夠高效準確生成領域詞典的技術方案。
發明內容
為了解決現有技術中的問題,本發明提供了一種領域詞典生成方法及裝置,具體地:
一方面提供了一種領域詞典生成方法,所述方法包括:
獲取目標領域的相關文本;
根據所述相關文本得到字符單元集合,所述字符單元集合中包括多個字符單元,所述字符單元由所述相關文本中的連續字符進行組合而得到;
獲取每個字符單元的互相關度以得到所述目標領域的原始詞典;
計算所述原始詞典中每個字符單元對所述目標領域的貢獻度以得到所述目標領域的目標詞典。
另一方方面提供了一種領域詞典生成裝置,所述裝置包括:
相關文本獲取模塊,用于獲取目標領域的相關文本;
字符單元得到模塊,用于根據所述相關文本得到字符單元集合,所述字符單元集合中包括多個字符單元,所述字符單元由所述相關文本中的連續字符進行組合而得到;
原始詞典得到模塊,用于獲取每個字符單元的互相關度以得到所述目標領域的原始詞典;
目標詞典得到模塊,用于計算所述原始詞典中每個字符單元對所述目標領域的貢獻度以得到所述目標領域的目標詞典。
本發明提供的一種領域詞典生成方法及裝置,具有的有益效果為:
本發明通過獲取目標領域的相關文本;根據所述相關文本得到字符單元集合,所述字符單元集合中包括多個字符單元,所述字符單元由所述相關文本中的連續字符進行組合而得到;獲取每個字符單元的互相關度以得到所述目標領域的原始詞典;計算所述原始詞典中每個字符單元對所述目標領域的貢獻度以得到所述目標領域的目標詞典;本發明具有廣泛的適用性;得到的目標詞典與所述目標領域具有高度相關性;能夠為相關的文本分析提供更加準確的資源數據;方便了行業內信息的集成和共享。
附圖說明
為了更清楚地說明本說明書實施例或現有技術中的技術方案和優點,下面將對實施例或現有技術描述中所需要使用的附圖作簡單的介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其它附圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910002132.0/2.html,轉載請聲明來源鉆瓜專利網。





