[發明專利]一種新詞獲取方法及系統有效
| 申請號: | 201210438561.0 | 申請日: | 2012-11-06 |
| 公開(公告)號: | CN102929862A | 公開(公告)日: | 2013-02-13 |
| 發明(設計)人: | 周步戀;雷大偉;石志偉;車天文;楊振東;王更生;王喜民;何宏靖;徐憶蘇 | 申請(專利權)人: | 深圳市宜搜科技發展有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 胡海國 |
| 地址: | 518026 廣東省深圳市福田區濱*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 新詞 獲取 方法 系統 | ||
1.一種新詞獲取方法,?其特征在于,包括,
收集最新具有時效性的規范數據集和不規范數據集,以及,收集歷史規范數據集;
挖掘規范數據集中的可能新詞作為第一候選新詞集,挖掘不規范數據集中的可能新詞作為第二候選新詞集,挖掘歷史規范數據集中的可能新詞作為初始化的非詞高頻串;
將第一候選新詞集和第二候選新詞集進行加權匹配過濾,得到第三候選新詞集;從第三候選新詞集中過濾掉非詞的高頻串,獲得新詞集。
2.根據權利要求1所述的方法,其特征在于,還包括,
人工過濾新詞集,得到最終的新詞結果。
3.根據權利要求2所述的方法,其特征在于,還包括,
將不是新詞的串加入到非詞的高頻串集合中。
4.根據權利要求1至3任一所述的方法,其特征在于,所述最新具有時效性的規范數據集包括一些新聞網頁和最新編輯的正規網頁數據;
所述最新具有時效性的不規范數據集包括用戶查詢日志、微博和聊天記錄等一些短文本的數據;
歷史規范數據集包括一些歷史的規范網頁數據。
5.根據權利要求4所述的方法,其特征在于,
所述第一候選新詞包含,真正的新詞、漢語高頻串;
第二候選新詞集中包含,真正的新詞、漢語高頻串、錯誤串。
6.根據權利要求5所述的方法,其特征在于,所述將第一候選新詞集和第二候選新詞集進行加權匹配過濾,得到第三候選新詞集具體包括,
將第一候選新詞集和第二候選新詞集匹配,過濾掉短文本中常用的錯誤串,同時發現在第二候選新詞集中出現頻次不高但是在第一候選新詞集中出現的新詞以挖掘出現頻次不高的新詞。
7.一種新詞獲取系統,?其特征在于,包括,
數據收集模塊,用于收集最新具有時效性的規范數據集和不規范數據集,以及,收集歷史規范數據集;
新詞挖掘模塊,用于挖掘規范數據集中的可能新詞作為第一候選新詞集,挖掘不規范數據集中的可能新詞作為第二候選新詞集,以及挖掘歷史規范數據集中的可能新詞作為初始化的非詞高頻串;
新詞過濾模塊,用于將第一候選新詞集和第二候選新詞集進行加權匹配過濾,得到第三候選新詞集;從第三候選新詞集中過濾掉非詞的高頻串,獲得新詞集。
8.根據權利要求7所述的系統,其特征在于,所述新詞過濾模塊還用于,人工過濾新詞集,得到最終的新詞結果,以及將不是新詞的串加入到非詞的高頻串集合中。
9.根據權利要求8所述的系統,其特征在于,所述最新具有時效性的規范數據集包括一些新聞網頁和最新編輯的正規網頁數據;
所述最新具有時效性的不規范數據集包括用戶查詢日志、微博和聊天記錄等一些短文本的數據;
歷史規范數據集包括一些歷史的規范網頁數據;
所述第一候選新詞包含,真正的新詞、漢語高頻串;
第二候選新詞集中包含,真正的新詞、漢語高頻串、錯誤串。
10.根據權利要求9所述的系統,其特征在于,所述新詞過濾模塊用于將第一候選新詞集和第二候選新詞集進行加權匹配過濾,得到第三候選新詞集具體包括,
所述新詞過濾模塊用于將第一候選新詞集和第二候選新詞集匹配,過濾掉短文本中常用的錯誤串,同時發現在第二候選新詞集中出現頻次不高但是在第一候選新詞集中出現的新詞以挖掘出現頻次不高的新詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市宜搜科技發展有限公司,未經深圳市宜搜科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210438561.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:同步監控雙系統光學成像安防長焦鏡頭
- 下一篇:具有緩沖功能的單向傳動裝置





