[發明專利]一種基于時間窗口和語義的變體詞規范化的方法和系統有效
| 申請號: | 201710308896.3 | 申請日: | 2017-05-04 |
| 公開(公告)號: | CN107315734B | 公開(公告)日: | 2019-11-26 |
| 發明(設計)人: | 沙灜;施振輝;李銳;梁棋;邱詠欽;王斌 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 11200 北京君尚知識產權代理有限公司 | 代理人: | 司立彬<國際申請>=<國際公布>=<進入 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 時間 窗口 語義 變體 規范化 方法 系統 | ||
1.一種基于時間窗口和語義的變體詞規范化的方法,其步驟為:
1)根據給定變體詞的出現時間,選取社交網絡中該出現時間之前的設定時間段內的語料,作為候選語料庫集合D1;
2)將該候選語料庫集合D1中和該變體詞所在語料語義相似的語料加入到候選語料庫集合D2;
3)從該候選語料庫集合D2中提取出候選詞,得到一候選詞集合;
4)根據每一候選詞和變體詞的字面相似度以及上下文特征相似度計算每對候選詞和變體詞的得分,根據計算結果確定該變體詞對應的候選詞,將確定出的候選詞作為該變體詞的規范詞。
2.如權利要求1所述的方法,其特征在于,從該候選語料庫集合D2中提取出候選詞的方法為:利用分詞工具、詞性標注方法、名詞詞組檢測方法、命名實體標注方法和事件提取方法分別從該候選語料庫集合D2中提取出候選詞;然后將提取出的候選詞取并集得到所述候選詞集合。
3.如權利要求1所述的方法,其特征在于,基于LDA文本相似性計算方法或基于Doc2Vec的文本相似性計算方法計算所述語義相似的語料。
4.如權利要求1或2或3所述的方法,其特征在于,所述步驟4)中,采用無監督的機器學習方法,利用神經網絡在大規模語料庫中自主學習詞語的上下文語義表示計算每對候選詞和變體詞的得分。
5.如權利要求4所述的方法,其特征在于,分別提取變體詞和候選詞的詞向量輸入無監督的機器學習方法進行訓練,其中在訓練詞向量的時候,將一個詞語拆分成兩部分:詞語本身和組成該詞語的漢字。
6.如權利要求5所述的方法,其特征在于,采用CWE模型訓練詞向量,加入組成詞語的字的信息構成該詞語的語義表示。
7.如權利要求1或2或3所述的方法,其特征在于,所述步驟4)中,采用有監督的機器學習方法,計算每對候選詞和變體詞的得分。
8.如權利要求6所述的方法,其特征在于,分別提取變體詞和候選詞的表面特征、語義特征、社交特征,輸入有監督的機器學習方法進行訓練,得到每一候選詞和變體詞的得分。
9.一種基于時間窗口和語義的變體詞規范化的系統,其特征在于,包括采集模塊、過濾模塊、獲取模塊和規范詞獲取模塊;其中,
采集模塊,用于從社交網絡中采集語料信息;
過濾模塊,用于根據給定變體詞的出現時間,從采集的語料信息中選取該出現時間之前的設定時間段內的語料,作為候選語料庫集合D1;以及從該候選語料庫集合D1中選取與該變體詞所在語料語義相似的語料,加入到候選語料庫集合D2;
獲取模塊,用于從該候選語料庫集合D2中提取出候選詞,得到一候選詞集合;
規范詞獲取模塊,用于根據每一候選詞和變體詞的字面相似度以及上下文特征相似度計算每對候選詞和變體詞的得分,根據計算結果確定該變體詞對應的候選詞,將確定出的候選詞作為該變體詞的規范詞。
10.如權利要求9所述的系統,其特征在于,所述規范詞獲取模塊包括分詞模塊和相似度計算模塊;其中,分詞模塊,用于對輸入的語料進行分詞處理,將之作為詞向量訓練的輸入;相似度計算模塊,用于根據變體詞和候選目標詞的詞向量計算每對候選詞和變體詞的相似度得分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710308896.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種中式英語的發現方法及系統
- 下一篇:用于筆記整理的方法及設備





