[發明專利]文獻字段標準化的方法無效
| 申請號: | 200710307065.0 | 申請日: | 2007-12-28 |
| 公開(公告)號: | CN101388019A | 公開(公告)日: | 2009-03-18 |
| 發明(設計)人: | 杰森·懷特 | 申請(專利權)人: | 英賽特半導體有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京信慧永光知識產權代理有限責任公司 | 代理人: | 武玉琴;張友文 |
| 地址: | 加拿大*** | 國省代碼: | 加拿大;CA |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文獻 字段 標準化 方法 | ||
技術領域
本發明涉及數據庫條目(entry),具體地,本發明涉及對數據庫條目進行文獻字段標準化的改進方法。
背景技術
很多數據庫系統都包含著數千乃至數百萬的記錄。通常,主要用這些記錄中的一個或多個字段來編錄或檢索數據庫記錄。這些字段被稱為文獻字段。
并不鮮見的是,對這些文獻字段而言,多個數據庫記錄具有一個共同值。例如,在一個記載有多個專利記錄細節的數據庫中,可以用個人或公司的名字訪問該專利數據庫,該個人或公司可以是該專利的發明人和/或受讓人。而該相同的個人或公司名字可以用于具有相同發明人和/或受讓人的若干專利。
如通常的情形那樣,當記錄條目是采用手工輸入時,碰到錯誤的條目是很常見的。即使設立標準的命名規則,如對個人名字設立標準的命名規則(例如,名在姓后面,以逗號分開,或者在姓名前冠以一系列稱呼之一,如“Mr.”、“Ms.”),也是如此。
而且,記錄數據可能被正確地輸入,但是記錄本身的信息可能表現為較早階段的潛在條目錯誤,例如,在已授權專利的封頁上,發明人的名字存在著排字錯誤。
通常,大多數數據庫條目系統執行的是人工驗證步驟,借此檢驗員手動地檢查所輸入的記錄,或者檢查正在輸入的記錄字段與已輸入進數據庫內的對應條目之間的匹配。這樣就確保了數據庫自始至終保持著正確的形式,從而適合于檢索。
然而無論以何種方實現,即使在一個記錄包含很少的文獻字段的情形下,這種人工驗證過程的成本也很高,并且不能保證與任意命名規則都普遍相適應或者數據條目的100%準確度。實際上,如果錯誤是潛在的,即在當前輸入進數據庫內的文件或記錄上已經有錯誤的信息,那么這種驗證過程將沒有任何作用。
另外,這種驗證過程的成本還使得只能對所識別的關鍵文獻字段中很少的一部分,例如在專利數據庫中,只能對第一發明人和/或受讓人的名字執行這樣的檢驗。而其他的文獻字段,比如共同發明人的名字、代理人或者其他當事人,通常未經驗證,而且估計會充斥著數據庫條目錯誤。因此,對于使用這種次級文獻字段進行檢索而言,這種人工驗證工作根本無法保證檢索能夠覆蓋正確或希望的記錄。
由于上述的這些缺點,人們對開發標準化的程序產生了興趣。與促使數據庫條目的正確性相比,這種標準化程序更多的是針對潛在的不正確條目,并產生一種度量標準(metrics),該度量標準用于識別哪些不是完全相同的文獻字段能夠指向相同的條目,從而便于檢索數據庫。
這些程序中的許多都使用的是編輯距離算法(edit?distancealgorithm),這些算法包括但并不限于Levenshtein,Hamming以及damerau-levenshtein算法,這些算法用于量化兩詞之間的相似度。同樣已知的還有模糊檢索,這種算法通常通過對兩個文本字符串間的差別進行加權從而測定它們之間的相關性,其中對應于相同字符串的權重為零,對應于相差單個替換(詞語中單個字母產生的變化)的字符串的權重為1,等等。
采用這種度量標準,加權值越小,所考慮字符串構成匹配的可能性越大,也即,所考慮字符串涉及相同的文獻實體的可能性越大,該文獻實體可以用查找表或詞典加以識別。
現有技術中已有許多涉及在查詢時能自動校正文本錯誤的方法的系統。
例如,2006年7月11日授權給Nagao的、名稱為“DocumentProcessing?Apparatus?Having?an?Authoring?Capability?for?Describing?aDocument?Structure”的美國專利No.7,706,732描述了使用詞典循環(looping)來校正短語字符串中的錯誤。短語字符串指的是不構成完整語句的詞語字符串,如搜索引擎中的關鍵詞。Nagao教導的這種方法將整個短語字符串分段成子字符串,而不是由空格描繪(space-delineated)的詞語,然后將這些子字符串與短語詞典里的條目進行比較,獲得最佳匹配。Nagao主要針對的是搜索引擎中的拼寫校正,并且僅能有限地適用于較大數據庫內文獻字段的標準化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于英賽特半導體有限公司,未經英賽特半導體有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710307065.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:提供工程工具服務的方法
- 下一篇:聲接觸式傳感器





