[發明專利]海量文本中基于詞向量表征的新詞發現方法及系統在審
| 申請號: | 201710344343.3 | 申請日: | 2017-05-16 |
| 公開(公告)號: | CN107168953A | 公開(公告)日: | 2017-09-15 |
| 發明(設計)人: | 袁華;錢宇 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/02 |
| 代理公司: | 四川省成都市天策商標專利事務所51213 | 代理人: | 卞濤 |
| 地址: | 610000 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 海量 文本 基于 向量 表征 新詞 發現 方法 系統 | ||
技術領域
本發明屬于中文自然語言處理領域,特別涉及一種海量文本中基于詞向量表征的新詞發現方法及系統。
背景技術
新詞發現是中文自然語言處理研究領域一個非常重要的研究內容。由于中文不像英文等許多西方語言,詞和詞之間有固定的分隔符,所以分詞通常作為中文信息處理任務最開始的一個必要步驟,而新詞發現又與分詞緊密相關。Sproat和Emerson指出新詞的出現很大程度上影響著分詞工具的分詞準確性,60%的分詞錯誤是由新詞引起的。在新詞任務中,對于“新詞”并沒有一個明確界定的概念。在中文分詞領域,有新詞和未登錄詞兩種概念,未登錄詞是指不在當前分詞工具的詞典出現的詞,新詞則是指隨時代發展出現的詞,新詞也屬于未登錄詞,一般沒有對新詞和未登錄詞加以區別,本發明對此也不做區分。
目前新詞識別方法主要分為有監督的方法和無監督的方法。有監督的方法主要是基于統計學習,這種方法需要大量的標注數據以及大量的特征選取工作,而獲得大量的標注數據往往成本較高,特征選取需要豐富的經驗;無監督的方法主要是基于規則或計算一些統計指標來進行新詞發現,基于規則的方法需要制定大量的語言規則,可移植性差,而單純的某個統計指標往往效果較差,且一些統計指標計算復雜。
隨著近幾年利用神經網絡或深度學習訓練語言模型而得到的詞向量能夠很好的表征詞與詞之間的語義關系,而一個新詞如果被分詞軟件錯誤的分開,被分開的不同部分應該語義上很相似,例如‘張勇’是一個人名,但分詞軟件錯誤的分成了“張/勇/”。經過合適的神經網絡模型訓練,可以發現‘張’和‘勇’對應的詞向量很相似。
發明內容
本發明的目的是提供一種海量文本中基于詞向量表征的新詞發現方法及系統,以至少解決以上技術問題之一。
本發明是通過以下技術方案實現的。
本發明首先涉及一種海量文本中基于詞向量表征的新詞發現方法,包括:
對新詞發現任務的語料進行預處理,所述預處理至少包括短句切分和分詞;
對預處理后的語料進行n-gram詞串挖掘,以得到該語料中的n-gram候選詞串;
設置詞向量,并根據n-gram候選詞串中的詞與詞之間對應的詞向量的相似性進行剪枝,得到新詞。
作為一種優選的實施方式,所述對預處理后的語料進行n-gram詞串挖掘以得到該語料中的n-gram候選詞串的方法包括:
從預處理后的語料中查找所有出現頻率大于預設頻率閾值的二元詞串,并記錄各個二元詞串的位置索引;
二元詞串從其位置索引開始進行左右擴張直到達到停止條件,得到n-gram候選詞串。
作為另一種優選的實施方式,所述詞向量為基于外部語料訓練得到,所述基于外部語料訓練詞向量的方法包括:
對外部語料進行分詞處理;
采用神經網絡訓練語言模型對分詞處理后的外部語料進行訓練,得到詞向量。
作為另一種優選的實施方式,所述根據n-gram候選詞串中的詞與詞之間對應的詞向量的距離進行剪枝的方法包括:判斷n-gram候選詞串中的詞與詞之間對應的詞向量的相似性是否大于預設的相似性閾值,如果滿足該條件則將這兩個詞作為一個新詞進行保存。
本發明還涉及一種海量文本中基于詞向量表征的新詞發現系統,包括:
預處理模塊,其被配置成對新詞發現任務的語料進行預處理,所述預處理至少包括短句切分和分詞;
n-gram詞串挖掘模塊,其被配置成對預處理后的語料進行n-gram詞串挖掘,以得到該語料中的n-gram候選詞串;
詞向量設置模塊,其被配置成設置詞向量;
剪枝模塊,其被配置成根據n-gram候選詞串中的詞與詞之間對應的詞向量的相似性進行剪枝,得到新詞。
作為一種優選的實施方式,所述n-gram詞串挖掘模塊具體被配置成:
從預處理后的語料中查找所有出現頻率大于預設頻率閾值的二元詞串,并記錄各個二元詞串的位置索引;
二元詞串從其位置索引開始進行左右擴張直到達到停止條件,得到n-gram候選詞串。
作為另一種優選的實施方式,所述詞向量設置模塊具體被配置成:對外部語料進行分詞處理;采用神經網絡訓練語言模型對分詞處理后的外部語料進行訓練,得到詞向量。
作為另一種優選的實施方式,所述剪枝模塊具體被配置成:判斷n-gram候選詞串中的詞與詞之間對應的詞向量的相似性是否小于預設的相似性閾值,如果滿足該條件則將這兩個詞作為一個新詞進行保存。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710344343.3/2.html,轉載請聲明來源鉆瓜專利網。





