[發明專利]利用多字節編碼的文獻檢索方法及文獻索引方法在審
| 申請號: | 201610096619.6 | 申請日: | 2016-02-22 |
| 公開(公告)號: | CN106933938A | 公開(公告)日: | 2017-07-07 |
| 發明(設計)人: | 安洪國;白承哲 | 申請(專利權)人: | 唯溥思株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京三友知識產權代理有限公司11127 | 代理人: | 李輝,金玲 |
| 地址: | 韓國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 利用 多字 編碼 文獻 檢索 方法 索引 | ||
技術領域
本發明涉及利用多字節編碼而檢索與用戶輸入的關鍵詞匹配的文獻的方法及裝置。更具體地,涉及如下的方法及裝置:對于構成檢索對象的文獻,分別利用多字節編碼而構建數據庫化的索引之后,在用戶輸入了關鍵詞的情況下,抽取上述關鍵詞的單位音節及單位音節的位置,通過將抽取的單位音節及單位音節的位置與之前數據庫化的索引進行比較來檢索文獻。
背景技術
一般,作為分析多語種的語素的方式,具有基于統計的方法和基于詞典的方法。
基于統計的方法作為根據通過分析大量的多語種文檔集而計算的概率而分析的方式,通過機器學習而自動分析,因此與基于詞典的方法相比,難以去除錯誤。
另外,基于詞典的方法作為分析出現在多語種的單詞而標記詞性并數據庫化成詞典而分析的方式,能夠提高錯誤的控制及準確度,但需要由人來進行分別將單詞數據庫化為詞典的作業,并且在每次變更詞典時,均再次執行整個索引作業及數據庫化作業。
本發明是在這樣的技術背景下完成的,本發明的目的在于不僅充分滿足以上的技術要求,并且還提供本領域技術人員無法容易地發明的追加性的技術要素。
現有技術文獻
專利文獻
(專利文獻0001)韓國公開專利公報2001-0000673(2001.01.05.)
發明內容
發明要解決的課題
本發明的目的在于,利用多字節編碼而從構成檢索對象的多個文獻抽取索引而生成索引信息即進行數據庫化,特別是,在生成索引信息時將文獻標記化,對于所獲得 的語節,以二音節為基準進行拆分而抽取一個以上的單位音節,另外進一步掌握該單位音節在各個語節內的位置,對于一個索引,使單位音節和單位音節的位置匹配起來的方式進行存儲。
另外,本發明的目的在于以如下方式進行文獻檢索:對于用戶輸入的關鍵詞,利用多字節編碼,以二音節的單位音節及各個單位音節的位置進行匹配而分析各個關鍵詞,并對上述分析的單位音節及各個單位音節的位置與之前生成的索引信息進行比較而判斷該文獻中是否包括關鍵詞。
本發明的目的在于,特別是,以單位音節及單位音節的位置匹配的信息為基礎而判斷文獻內是否包括關鍵詞,從而提高準確度及速度。
解決課題的手段
為了解決上述的問題,本發明的文獻檢索方法包括:(a)由用戶輸入關鍵詞的步驟;(b)將上述關鍵詞以語節單位進行分離的步驟;(c)將上述關鍵詞以n-音節(n為1以上的自然數)為基準進行拆分而獲得一個以上的單位音節,并獲得各個上述單位音節在上述關鍵詞內的位置,從而生成包括上述單位音節及單位音節在上述關鍵詞內的位置的檢索信息的步驟;(d)將上述檢索信息與關于一個以上的文獻的索引信息進行比較,從而檢索與上述單位音節及該單位音節的位置相應的文獻的步驟。
另外,在上述文獻檢索方法中,在上述(c)步驟中,將上述分離后的關鍵詞以二音節為基準進行拆分而獲得一個以上的單位音節,并獲得各個上述單位音節在上述關鍵詞內的位置。
另外,在上述文獻檢索方法中,在上述(c)步驟中,在上述分離后的關鍵詞為一音節的情況下,在上述一音節后端追加分隔符后定義為單位音節,并獲得上述單位音節在關鍵詞內的位置,從而生成包括上述單位音節及單位音節在關鍵詞內的位置的檢索信息。
另外,在上述文獻檢索方法中,在上述(d)步驟中,對包括上述單位音節、該單位音節的位置的檢索信息與上述索引信息進行比較。
另外,在上述文獻檢索方法中,在上述(d)步驟中,對包括上述單位音節和該單位音節的位置的檢索信息與上述索引信息進行比較而計算與上述索引信息之間的類似度,并以所計算的類似度為基準檢索文獻,通過比較在上述檢索信息內包括的關鍵詞的單位音節及單位音節的位置與在上述索引信息內包括的索引詞的單位音節及單 位音節的位置來算出上述類似度。
另外,本發明的另一方面的文獻索引方法包括:(a)下載文獻,將上述文獻標記化而獲得一個以上的語節的步驟;(b)將上述語節以n-音節(n為1以上的自然數)為基準進行拆分而獲得一個以上的單位音節,并獲得各個上述單位音節在上述語節內的位置的步驟;(c)生成匹配有各個上述單位音節和該單位音節在語節內的位置的索引信息的步驟。
另外,在上述文獻索引方法中,在上述(b)步驟中,在上述語節為一音節的情況下,獲得上述一音節,并獲得上述一音節在上述語節內的位置,并生成匹配有上述一音節和該一音節在語節內的位置的索引信息。
發明效果
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于唯溥思株式會社,未經唯溥思株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610096619.6/2.html,轉載請聲明來源鉆瓜專利網。





