[發明專利]一種地名新詞的發現方法在審

申請號：	201810246763.2	申請日：	2018-03-23
公開（公告）號：	CN108647199A	公開（公告）日：	2018-10-12
發明（設計）人：	李俊;孫海峰;徐忠建;朱必亮;馮建亮	申請（專利權）人：	江蘇速度信息科技股份有限公司
主分類號：	G06F17/27	分類號：	G06F17/27;G06F17/30
代理公司：	南京正聯知識產權代理有限公司 32243	代理人：	陸中丹
地址：	210000 江蘇省南京***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	原始文檔分詞預處理構建發現集合字符串匹配分詞處理概率統計網絡爬蟲網頁解析網頁文本網頁資源文檔集合新詞發現中文分詞互聯網新詞匯準確率文檔解析文本分割分類
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種地名新詞的發現方法，其特征在于，包括以下步驟：

S1：構建原始文檔集合：利用網絡爬蟲程序或RSS的方法從互聯網中對網頁文本進行爬取，并利用網頁解析軟件對爬取的文本進行解析，形成原始的文檔集合；

S2：預處理原始文檔：對步驟S1中構建的原始文檔集合中的文檔進行預處理；

S3：分詞處理：采用基于字符串匹配的方法和概率統計相結合的方法進行中文分詞處理，設計分詞詞典；

S4：提取地名新詞：利用步驟S3中生成的分詞詞典，對分詞詞典進行分類，并將詞典進行分割，得到有益于處理的長度，然后提取出地名新詞。

2.根據權利要求1所述的地名新詞的發現方法，其特征在于，所述步驟S2中對原始文件進行預處理的過程具體包括如下步驟：

S21：去除網頁標簽：將找到的所有網頁標簽及其中的內容從文本中刪除；

S22：替換標識符：根據步驟S21中處理完成的文本，將文本中的標識符替換成相應的標識符；

S23：切分文本：利用中文文本中的標點符號或回車換行符號作為切分文本的標志，將步驟S22中處理完成的文本進行切分；

S24：過濾非中文字符：對原始文檔中非中文字符全部過濾掉，并以非中文字符所在的位置為界，將文檔中的字符劃分為字符串的組合，每個字符串占文本文檔的每一行，并刪除原始文檔的內容，將劃分結果保存在原始文檔中。

3.根據權利要求2所述的地名新詞的發現方法，其特征在于，所述步驟S3的具體過程具體包括以下步驟：

S31：首先利用逆向最大匹配法進行字符串的匹配，將匹配后的字符串用N-gram概率統計方法進行統計以發現新詞；

S32：在進行中文分詞前，先預設一個全面的專業詞典，將詞典的格式設計為最簡單的數列的形式；然后在利用統計語言模型進行信息提取的過程中，設置一個字符串同現頻度表，存放每個字符串及其前面一個字符串的同現頻度；

S33：設計一個詞典用于存儲分詞詞典。

4.根據權利要求2所述的地名新詞的發現方法，其特征在于，所述步驟S4包括預處理階段和地名新詞抽取階段；所述預處理階段具體包括預設專業詞典、預設噪聲詞典、處理高頻噪聲詞、分詞切割四個步驟；所述地名新詞抽取階段具體包括發現頻繁項目集和生成關聯規則兩個步驟。

5.根據權利要求4所述的地名新詞的發現方法，其特征在于，所述預處理階段具體包括以下步驟：

S411：預設專業詞典：在進行地名新詞抽取過程中，首先需要預設一個已知地名詞匯的專業詞典，用已知詞匯抽取未知的詞匯；

S412：預設噪聲詞典：由于分詞詞典中存在者大量的無關詞匯，需要將這些無關詞匯從分詞詞典中刪除；從不同領域的文檔進行收集，和分詞詞典進行比對，計算分詞詞典中每個詞出現的頻次，提取出現頻次最高的詞作為噪聲詞，加入到噪聲詞典中；

S413：處理高頻噪聲詞：利用步驟S412中生成的噪聲詞典，對文檔的高頻詞匯進行統計，挖掘出高頻詞匯，過濾出高頻噪聲詞。

S414：分詞切割：對文檔進行分詞切割處理，得到有益于處理的長度，為地名新詞的發現做準備。

6.根據權利要求5所述的地名新詞的發現方法，其特征在于，所述地名新詞抽取階段具體包括以下步驟：

S421：發現頻繁項目集：首先對最小支持度進行設置，然后對所有詞匯進行歸納，找出所有不同的詞匯，并統計它們出現的頻數，將它們的頻數與最小支持度進行對比，取支持數大于最小支持數的所有詞匯，每個詞匯作為事務數據庫的一條事務記錄，將這些事務記錄作為統一的事務集合，這個事務集合就是一個頻繁項目集，然后使用遞歸的方法找出其它的頻繁項目集，并最終找出最大頻繁項目集；

S422：生成關聯規則：首先對最小置信度進行設定，根據步驟S421中生成的頻繁項目集生成關聯規則，進而提取出地名新詞。

7.根據權利要求6所述的地名新詞的發現方法，其特征在于，所述地名新詞抽取階段采用Apriori算法。

8.根據權利要求6所述的地名新詞的發現方法，其特征在于，該地名新詞的發現方法所使用的系統包括控制模塊、語料獲取模塊、新詞抽取模塊、預處理模塊和中文分詞模塊；所述語料獲取模塊、新詞抽取模塊、預處理模塊和中文分詞模塊均與所述控制模塊形成雙向傳輸連接；所述語料抽取模塊用于從大量互聯網信息中抽取網頁文本，并對網頁信息進行解析，生成對應的文本，形成最原始的文檔集合；所述預處理模塊用于對文本進行處理，生成字符串集合，使之適合后續處理的需要；所述中文分詞模塊對預處理的文檔進行分詞，所有的文檔將被分為詞的集合；所述新詞抽取模塊用于利用關聯規則的方法對地名新詞進行提取，并存儲到新詞詞典中。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于江蘇速度信息科技股份有限公司，未經江蘇速度信息科技股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810246763.2/1.html，轉載請聲明來源鉆瓜專利網。