[發明專利]一種對電子文件進行語義檢索的方法和系統無效
| 申請號: | 201210236309.1 | 申請日: | 2012-07-09 |
| 公開(公告)號: | CN102799661A | 公開(公告)日: | 2012-11-28 |
| 發明(設計)人: | 張訓軍 | 申請(專利權)人: | 北京中科希望軟件股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100190 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 電子 文件 進行 語義 檢索 方法 系統 | ||
技術領域
本發明涉及數字圖書領域,尤其是涉及一種對電子圖書中的電子文件進行語義檢索的方法和系統。
背景技術
數字出版的核心競爭力是對數字內容的快速檢索與方便查閱,而快速檢索與方便查閱的核心是語義檢索,目前基于電子書的語義檢索在國內還是空白。
目前各大圖書館的電子版圖書的檢索方法有三種,一是按傳統的各種分類方法進行檢索,二是按傳統的CPI數據查找,三是按關鍵字檢索(這種方法在圖書的檢索中非常少),所有方法的檢索結果是一本完整的圖書。目前大部分電子書是沒有語義內容的,但是從2011年開始,隨著EPUB3.0的發展,逐漸會產生了一些具有語義的電子書。而本發明正是基于這一變化,可以實現通過語義來檢索,返回的結果也是圖書的一部分。特別是對圖書的圖片、音視頻、動畫、小程序等的檢索具有明顯優勢,因為這些內容通過目前傳統的方式是檢索不到的。這對圖書檢索技術是一個很大的進步。
發明內容
鑒于現有技術中存在的問題,本發明的目的在于提供一種對電子文件進行語義檢索的方法,該方法包括如下步驟:步驟(1)在數據庫中以結構文件形式建立一個相近詞的字典;步驟(2)確認待處理的電子文件是否包含語義描述內容;步驟(3)接受用戶查詢條件,然后對該條件進行中文分詞,獲得若干詞匯;步驟(4)詞匯匹配,依據中文分詞后的詞匯,然后再讀取一個或多個電子文件的每一個語義描述中的項目名與語義內容,把這些內容與上一步獲得的中文分詞詞匯進行比較,如果是相同或者相近,則返回該項目名稱及對應的語義內容;步驟(5)向外部顯示所有的返回的項目名稱及對應的語義內容,供用戶選擇其中的一部分;步驟(6)根據用戶的選擇,顯示該項目名稱與語義內容所對應的圖片、視頻、文字塊內容。
進一步,本發明方法中的步驟(1)進一步包括:在數據庫中建立一張表,表中至少有兩個字段,一是用于存儲詞條,另一個用于存儲相近詞義的I?D號,如果兩個詞條擁有相同的詞義ID號,即理解為相近詞。
進一步,本發明方法中的步驟(3)進一步包括:把查詢條件視為以字為元素的數組;以第一個元素為起點,取出所有連續組合;以第二個元素為起點,取出所有連續組合;以此類推,取出最后一個元素的組合;建立一個字典,該字典中按常用、不常用的分級方式存儲詞組;在常用詞字典中找出上述取出的組合;如果沒有常用詞,再在不常用詞典中查找,如果有則記為分詞詞匯。
進一步,本發明方法中的步驟(4)進一步包括:
先把分出的詞匯與項目名稱對應,找出所有相同或相近的,返回項目名稱及對應的語義內容,然后再與語義內容比較,如果語義內容中包含了分出的詞匯,則返回項目名稱及對應的語義內容。
此外,本發明還提供了一種對電子文件進行語義檢索的系統,該系統包括:數據庫,在該數據庫中以結構文件形式存儲有一個相近詞的字典;確認模塊,用于確認待處理的電子文件是否包含語義描述內容;中文分詞模塊,用于在接受用戶查詢條件后對該條件進行中文分詞,獲得若干詞匯;詞匯匹配模塊,依據中文分詞后的詞匯,然后再讀取一個或多個電子文件的每一個語義描述中的項目名與語義內容,把這些內容與上一步獲得的中文分詞詞匯進行比較,如果是相同或者相近,則返回該項目名稱及對應的語義內容;語義描述顯示模塊,向外部顯示所有的返回的項目名稱及對應的語義內容,供用戶選擇其中的一部分;內容顯示模塊,根據用戶的選擇,顯示該項目名稱與語義內容所對應的圖片、視頻、文字塊內容。
進一步,在數據庫中建立一張表,表中至少有兩個字段,一是用于存儲詞條,另一個用于存儲相近詞義的ID號,如果兩個詞條擁有相同的詞義ID號,即理解為相近詞。
進一步,本發明系統中的中文分詞模塊把查詢條件視為以字為元素的數組;以第一個元素為起點,取出所有連續組合;以第二個元素為起點,取出所有連續組合;以此類推,取出最后一個元素的組合;建立一個字典,該字典中按常用、不常用的分級方式存儲詞組;在常用詞字典中找出上述取出的組合;如果沒有常用詞,再在不常用詞典中查找,如果有則記為分詞詞匯。
進一步,本發明系統中的詞匯匹配模塊先把分出的詞匯與項目名稱對應,找出所有相同或相近的,返回項目名稱及對應的語義內容,然后再與語義內容比較,如果語義內容中包含了分出的詞匯,則返回項目名稱及對應的語義內容。
本發明所述的具有以下優點:可以對具有語義描述的電子書進行檢索,返回的結果也可以是圖書的一部分。特別是對圖書的圖片、音視頻、動畫、小程序等的檢索具有明顯優勢。
附圖說明
圖1是本發明所述的方法的處理流程圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中科希望軟件股份有限公司,未經北京中科希望軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210236309.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電源濾波電路
- 下一篇:偽連續導電模式開關變換器自適應續流控制裝置





