[發明專利]一種標準檢索智能分詞方法有效
| 申請號: | 201410024472.0 | 申請日: | 2014-01-20 |
| 公開(公告)號: | CN103870537B | 公開(公告)日: | 2017-02-01 |
| 發明(設計)人: | 李鳳龍;劉麗梅;王秀芹;馬強 | 申請(專利權)人: | 山東金質信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 濟南舜源專利事務所有限公司37205 | 代理人: | 商金婷 |
| 地址: | 250014 山東省濟南*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 標準 檢索 智能 分詞 方法 | ||
技術領域
本發明涉及一種智能檢索領域,具體地講,涉及一種標準檢索智能分詞方法。?
背景技術
?隨著科學技術的發展,生產的社會化程度越來越高,生產規模越來越大,技術要求越來越復雜,分工越來越細,生產協作越來越廣泛,這就要求必須通過制定和使用符合國家或國際規定的標準,來保證各生產部門的活動,在技術上保持高度的統一和協調,從而保障生產的正常進行,獲得最佳經濟和社會效益,并為促進技術進步,產業結構調整,產品升級換代和產品質量提高等提供全方位的標準支持。?
在以往采用數據庫的系統中,通過sql查詢操作難以得到用戶所需的標準。目前,使用的標準數量已經達到千萬級別的、甚至更高的海量級別。在大眾對標準不熟悉,查詢不準確的情況下,提供準確的查找或者相似的標準,成為一個急需解決的難題。????
針對標準數量眾多、用戶對標準不熟悉,查詢所需標準效率低等問題,引入有限狀態機和記憶規則原理,提出解決該海量標準數據檢索問題的一個算法,對用戶的查詢進行相關的智能提示或推薦,簡單、快速挖掘用戶所需標準,有效提高了查詢效率。
發明內容
本發明要解決的技術問題是提供一種標準檢索智能分詞方法,滿足用戶的查詢需要,提高用戶的標準檢索速度。?
本發明采用如下技術方案實現發明目的:?
一種標準檢索智能分詞方法,其特征在于,包括如下步驟:
(1)對輸入的字符串的進行規范化預處理;
(2)判斷當前輸入的字符串是否為編號,如果輸入的是編號,轉步驟(3),反之,轉步驟(4);
(3)判斷是否到字符串的末尾,如果不是到字符串末尾,則判斷當前字符和上一個字符是否為同一類,同類則直接歸并到上一個字符所在的組中,形成詞段,否則創建新組,并將新組加入到組鏈中,并將該字符計入新組,組成另一個詞段,循環上述操作直到字符串末尾為止,如果是字符串末尾,則針對生成出來的組鏈,轉步驟(5);?
(4)采用基于詞典的方式處理,形成分詞并存儲;
(5)根據得到的組鏈,采用基于記憶規律的分詞組合方式,依次利用分詞規則形成分詞,并且在去重過濾后進行存儲。
作為對本技術方案的進一步限定,所述分詞規則具體包括簡單詞的分詞組合、相連詞的分詞組合、相連詞的模糊組合和全詞組合。?
與現有技術相比,本發明的優點和積極效果是:本發明根據用戶輸入的檢索條件,經過預處理、分詞等處理過程,形成檢索條件,然后利用檢索引擎,匹配出符合條件的記錄,從而反饋給用戶檢索結構。本發明利用空間維度換取時間維度,實時反饋查詢結果,以便最快速的滿足用戶的檢索請求,提高平臺和用戶的交互性。?
附圖說明
圖1為本發明優選實施例的流程圖。?
具體實施方式
下面結合附圖和優選實施例對本發明作更進一步的詳細描述。?
標準編號:?由標準化組織制定的符合國家或國際標準的具有唯一性的、用以記錄各種標準的代號,稱為標準編號。?
標準編號有國際標準編號和我國的國家標準編號兩種。國際及國外的標準編號形式各異,但基本結構為:標準代號+專業代號+順序號+年代號。?我國的標準編號由標準代號、標準發布順序和標準發布年代號構成。?
標準查詢:
根據標準組織代號、標準順序號、標準名稱、適用范圍、中標分類號、標準年代號、ICS分類號等檢索條件進行模糊檢索。查詢結果顯示標準號、標準名稱、實施日期、標準狀態、頁數、前言、引言、預覽按鈕等。
預處理:
對輸入的字符串進行規范化的預先處理,如:去除字符串中的首尾空格、回車、換行符、制表符等,并將所有小寫字母轉化成大寫字母,這個處理過程稱為預處理;在系統構建索引、用戶查詢時均先進行該步驟,以便規范化系統、用戶的輸入。
詞段:
在輸入字符串判斷是否為編號中,根據依次輸入的字符是否為同一類進行劃分,把同類的字符放入一組,形成一個子字符串,稱之為詞段。由多個字符組成字符串,在是否為同一詞段的判斷過程中,若當前字符和上一字符同類,則放到同一個詞段中。例如字符串SJZ1162013,首先輸入字符串S,因為是第一個字符,直接放入一組,再次輸入J時,就開始判斷當前字符J是否和上一字符S是否為同類,從而決定是否放入同一詞段中。按字符是英文字母和阿拉伯數字分類,SJZ1162013會分為SJZ和1162013兩個詞段。
組鏈:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東金質信息技術有限公司,未經山東金質信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410024472.0/2.html,轉載請聲明來源鉆瓜專利網。





