[發明專利]一種電子商務字典中單字詞的自動抽取方法無效

申請號：	201310079808.9	申請日：	2013-03-14
公開（公告）號：	CN103136191A	公開（公告）日：	2013-06-05
發明（設計）人：	姚明東;陳浩;范英磊	申請（專利權）人：	姚明東
主分類號：	G06F17/27	分類號：	G06F17/27
代理公司：	暫無信息	代理人：	暫無信息
地址：	410082 湖南省***	國省代碼：	湖南;43
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種電子商務字典字詞自動抽取方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種電子商務字典中單字詞的自動抽取方法，其特征在于，包括以下步驟：

A1、語料準備和預處理；

A2、對語料進行帶有冗余數據的遞進窮舉，獲取所有可能的潛在詞組合；采用遞進窮舉方法按有效詞最大長度+1窮舉各種分詞組合，同時累計各種單字及多字組合出現的頻率，形成完整的包含所有可能潛在詞集合。引進大于有效詞長度的無效潛在詞用于過濾切分邊界數據；

A3、對于長度為2以上的基于較短潛在詞在一組以該詞作為前綴/后綴的最短長潛在詞中分布的離散度進行無效詞的過濾；

A4、基于長度為2以上潛在詞獨立出現的概率進行無效詞過濾；

較短潛在詞在包含它的最短長潛在詞中出現次數大于一定閥值，并且長潛在詞不符合正則過濾條件，則短潛在詞count減長潛在詞count的差值，對于差為0的短潛在詞直接刪除，否則短潛在詞count為所述差值；

A5、對于經過A3、A4兩步過濾后剩余的長度為2以上的潛在詞進行正則過濾，前綴/后綴/中間包含在預先定義的集合中，并且剩余部分都為以上過濾之后有效詞的，則刪除該潛在詞；同時對于前綴/后綴包含在預先定義的集合中，并且不在例外的詞的集合；

A6、出現在唯一上下文中誤刪除長度為2以上有效詞的補償；首先基于如下條件判斷出現在唯一上下文中誤刪除的潛在詞：

(1)該潛在詞不符合正則過濾條件；

(2)包含該潛在詞的所有潛在詞都被過濾掉了，不管長度是多少；

(3)該潛在詞的count與所有包含它的潛在詞count相同；

其次，找到包含該誤刪除詞的最長潛在詞；在一個潛在詞出現在多個最長潛在詞的情況下，做拼接，重新還原切分邊界；然后對以上最長潛在詞/還原的切分單元基于已有有效詞進行正/逆向最大匹配分詞，如果切分的組合已經作為一個潛在詞出現在有效詞詞典中，則繼續向后掃描字符串，對于沒有出現在潛在詞字典中的長度不小于2的最長切分組合加入到有效潛在詞詞典中，頻率為該組合的全切分的原始頻率；最后對于最長潛在詞中不包含有效詞的，則保留最長潛在詞，加入有效詞詞典中；

A7、單個字在更長詞中作為子串出現的頻率統計：找到包含該字的所有其它更長有效詞，從短到長依次處理，刪除所有包含當前詞的更長詞；

A8、補償交集型誤統計修正，減掉重復統計的單字詞在更長詞中作為子串出現的頻率；

1)對于所有步驟A7中剩余詞獲取全切分結束后的原始count，作為詞的當前count；

2)對于步驟A7中剩余詞找到所有以當前字作為前綴和后綴的潛在詞，作為前綴和后綴的分為兩組，兩組中各取一個兩兩組合；

3)對2)中生成的組合結果到步驟A7的結果中逐一匹配，對于匹配成功的組合，則用組成該組合的兩個詞其中之一的當前count減去組合的原始count；

A9、單字詞獨立出現頻率統計計算，從遞進窮舉中獲取的單字詞的總頻率減掉步驟8最終獲取的count；

A10、過濾結束，剔除在所有語料中出現次數很少的詞低頻詞。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于姚明東，未經姚明東許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310079808.9/1.html，轉載請聲明來源鉆瓜專利網。