[發明專利]一種電子商務字典中單字詞的自動抽取方法無效
| 申請號: | 201310079808.9 | 申請日: | 2013-03-14 |
| 公開(公告)號: | CN103136191A | 公開(公告)日: | 2013-06-05 |
| 發明(設計)人: | 姚明東;陳浩;范英磊 | 申請(專利權)人: | 姚明東 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 410082 湖南省*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 電子商務 字典 字詞 自動 抽取 方法 | ||
1.一種電子商務字典中單字詞的自動抽取方法,其特征在于,包括以下步驟:
A1、語料準備和預處理;
A2、對語料進行帶有冗余數據的遞進窮舉,獲取所有可能的潛在詞組合;采用遞進窮舉方法按有效詞最大長度+1窮舉各種分詞組合,同時累計各種單字及多字組合出現的頻率,形成完整的包含所有可能潛在詞集合。引進大于有效詞長度的無效潛在詞用于過濾切分邊界數據;
A3、對于長度為2以上的基于較短潛在詞在一組以該詞作為前綴/后綴的最短長潛在詞中分布的離散度進行無效詞的過濾;
A4、基于長度為2以上潛在詞獨立出現的概率進行無效詞過濾;
較短潛在詞在包含它的最短長潛在詞中出現次數大于一定閥值,并且長潛在詞不符合正則過濾條件,則短潛在詞count減長潛在詞count的差值,對于差為0的短潛在詞直接刪除,否則短潛在詞count為所述差值;
A5、對于經過A3、A4兩步過濾后剩余的長度為2以上的潛在詞進行正則過濾,前綴/后綴/中間包含在預先定義的集合中,并且剩余部分都為以上過濾之后有效詞的,則刪除該潛在詞;同時對于前綴/后綴包含在預先定義的集合中,并且不在例外的詞的集合;
A6、出現在唯一上下文中誤刪除長度為2以上有效詞的補償;首先基于如下條件判斷出現在唯一上下文中誤刪除的潛在詞:
(1)該潛在詞不符合正則過濾條件;
(2)包含該潛在詞的所有潛在詞都被過濾掉了,不管長度是多少;
(3)該潛在詞的count與所有包含它的潛在詞count相同;
其次,找到包含該誤刪除詞的最長潛在詞;在一個潛在詞出現在多個最長潛在詞的情況下,做拼接,重新還原切分邊界;然后對以上最長潛在詞/還原的切分單元基于已有有效詞進行正/逆向最大匹配分詞,如果切分的組合已經作為一個潛在詞出現在有效詞詞典中,則繼續向后掃描字符串,對于沒有出現在潛在詞字典中的長度不小于2的最長切分組合加入到有效潛在詞詞典中,頻率為該組合的全切分的原始頻率;最后對于最長潛在詞中不包含有效詞的,則保留最長潛在詞,加入有效詞詞典中;
A7、單個字在更長詞中作為子串出現的頻率統計:找到包含該字的所有其它更長有效詞,從短到長依次處理,刪除所有包含當前詞的更長詞;
A8、補償交集型誤統計修正,減掉重復統計的單字詞在更長詞中作為子串出現的頻率;
1)對于所有步驟A7中剩余詞獲取全切分結束后的原始count,作為詞的當前count;
2)對于步驟A7中剩余詞找到所有以當前字作為前綴和后綴的潛在詞,作為前綴和后綴的分為兩組,兩組中各取一個兩兩組合;
3)對2)中生成的組合結果到步驟A7的結果中逐一匹配,對于匹配成功的組合,則用組成該組合的兩個詞其中之一的當前count減去組合的原始count;
A9、單字詞獨立出現頻率統計計算,從遞進窮舉中獲取的單字詞的總頻率減掉步驟8最終獲取的count;
A10、過濾結束,剔除在所有語料中出現次數很少的詞低頻詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于姚明東,未經姚明東許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310079808.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種配合式檢測量規
- 下一篇:一種用于工程塑料保持架內外徑的檢測工裝





