[發明專利]識別技術文件中關鍵詞的方法及系統有效
| 申請號: | 201310629883.8 | 申請日: | 2013-11-29 |
| 公開(公告)號: | CN103646058B | 公開(公告)日: | 2017-01-25 |
| 發明(設計)人: | 劉邦信;趙云飛;張亞棟;龍威 | 申請(專利權)人: | 北京廣利核系統工程有限公司;中國廣核集團有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京元中知識產權代理有限責任公司11223 | 代理人: | 王明霞 |
| 地址: | 100094 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 識別 技術 文件 關鍵詞 方法 系統 | ||
1.一種識別技術文件中關鍵詞的方法,包括以下步驟:
S100、對技術文件中不同長度的詞匯進行掃描與識別,以生成多個不同長度詞匯的哈希表;
S200、對每個哈希表進行排序,并提取哈希表中的元素,以生成高頻詞匯列表;
S300、去除高頻詞匯列表中的不完整詞匯后,以得到關鍵詞匯列表。
2.根據權利要求1所述的識別技術文件中關鍵詞的方法,其特征在于,對詞匯的長度進行設定,每次只掃描一種長度的詞匯。
3.根據權利要求2所述的識別技術文件中關鍵詞的方法,其特征在于,對技術文件中的文本信息進行分類,包括:
將文本信息中由漢字組成的漢字信息定義為Han;
將文本信息中由標點符號組成的標點符號信息定義為Ic;
將文本信息中由數字組成的數字信息定義為Num;
將文本信息中由英文字母、下劃線、中劃線和數字混合組成的編碼或英文單詞信息定義為Eng;
將文本信息中由空白字符組成的空白符定義為Nul。
4.根據權利要求3所述的識別技術文件中關鍵詞的方法,其特征在于,步驟S100中的具體操作如下:
S101、將技術文件中的文本信息分割為多個段落;
S102、以標點符號信息(Ic)為分割符,將某個段落分割為多個句子;
S103、對某個段落中的句子進行處理,包括:
S1031、獲取某一句子;
S1032、將設定的n長度詞匯與句子的有效長度進行比較,若n長度詞匯大于句子的有效長度,則跳轉執行S104,否則執行步驟S1033;
S1033、判斷句子中的首字符的類型,若句子的首字符類型為空白符(Nul)或數字信息(Num),則跳轉執行S1036,否則執行步驟S1034;
S1034、取句子的前m個有效字符作為詞匯,其中,前m個有效字符為非空白符(Nul);
S1035、將上述詞匯以及在文檔中出現的次數加入哈希表中;
S1036、刪除句子的首字符,并返回至步驟S1033;
S104、判斷段落中是否還有未經過處理的句子,若結果為是,則返回至S1031,若結果為否,則執行步驟S105;
S105、判斷是否還有未經過處理的段落,若結果為是,則返回至S102,若結果為否,則表明已獲得n長度詞匯的哈希表,操作結束。
5.根據權利要求1所述的識別技術文件中關鍵詞的方法,其特征在于,在步驟S300中,對關鍵的短詞匯與長詞匯出現的次數進行統計,若短詞匯統計次數與長詞匯的統計次數之差,超過一個臨界值,則表明短詞匯作為獨立詞匯出現過多次,就不應消除。
6.根據權利要求5所述的識別技術文件中關鍵詞的方法,其特征在于,在步驟S300中的具體操作如下:
S301、獲取m+1長度的詞匯列表;
S302、提取一個未處理的未處理詞匯(Long?Word);
S303、提取未處理詞匯(Long?Word)中的前m個字作為首詞匯(First?Word);
S304、判斷首詞匯(First?Word)是否在m長度的詞匯列表中,若判斷為是,則執行步驟S305,否則,跳轉執行步驟S307;
S305、將首詞匯(First?Word)出現的次數與未處理詞匯(Long?Word)出現的次數的差與臨界值進行比較,若二者的差小于臨界值,則執行步驟S306,否則,跳轉執行步驟S307;
S306、將首詞匯(First?Word)由m長度的詞匯列表中刪除;
S307、提取未處理詞匯(Long?Word)中的后m個字作為末尾詞匯(Last?Word);
S308、判斷末尾詞匯(Last?Word)是否在m長度的詞匯列表中,若判斷為是,則執行步驟S309,否則,跳轉執行步驟S311;
S309、將末尾詞匯(Last?Word)出現的次數與未處理詞匯(Long?Word)出現的次數的差與臨界值進行比較,若二者的差小于臨界值,則執行步驟S310,否則,跳轉執行步驟S311;
S310、將末尾詞匯(Last?Word)由m長度的詞匯列表中刪除;
S311、判斷m+1長度的詞匯列表中是否還有未處理詞匯,若判斷為是,則返回執行步驟S302,若判斷為否,則表明已詞匯列表中的不完整詞匯,操作結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京廣利核系統工程有限公司;中國廣核集團有限公司,未經北京廣利核系統工程有限公司;中國廣核集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310629883.8/1.html,轉載請聲明來源鉆瓜專利網。





