[發明專利]用于從電子數據結構中提取屬性的注釋系統有效
| 申請號: | 201780005536.4 | 申請日: | 2017-01-26 |
| 公開(公告)號: | CN108496190B | 公開(公告)日: | 2022-06-24 |
| 發明(設計)人: | 吳思明;S·伯爾簡·布羅簡尼 | 申請(專利權)人: | 甲骨文國際公司 |
| 主分類號: | G06Q30/06 | 分類號: | G06Q30/06;G06Q10/08;G06F16/332 |
| 代理公司: | 中國貿促會專利商標事務所有限公司 11038 | 代理人: | 劉玉潔 |
| 地址: | 美國加*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 電子 數據結構 提取 屬性 注釋 系統 | ||
描述了與從電子數據結構提取屬性關聯的系統、方法和其他實施例。在一個實施例中,方法包括通過識別所定義的屬性中的哪些屬性與標記匹配來將來自描述串的標記與電子庫存數據庫中的定義的屬性相關聯,以將標記鏈接到與所定義的屬性關聯的數據庫的列。該方法包括使用條件隨機場模型根據識別的標記與所定義的屬性之間的已知關聯生成用于未被識別的標記的建議的匹配,來迭代地更新用于標記中未被識別的標記的注釋串。該方法還包括通過將來自描述串的標記自動地存儲到由注釋串所識別的列中,使用來自描述串的所識別的標記來根據注釋串填充數據庫。
背景技術
隨著電子商務和電子庫存系統變得更加廣泛,對于提供和確保產品信息的準確性出現新的困難。例如,在電子庫存中,每個單獨的產品都包括許多不同的屬性。屬性可以包括識別號碼、價格、品牌名稱、詳細描述等。因此,當庫存的單個類別可能包括數千個單獨的產品時,確保信息準確是一項復雜且耗時的任務,特別是考慮到輸入信息是手動過程。
例如,在雜貨店的情景中,被輸入到電子庫存中的每個產品可以包括諸如重量、味道、品牌名稱、價格、每包裝的件數等等之類的許多不同的屬性。各種屬性通常與數據庫中的單獨的列相關聯并且因此信息由工作人員手動審查并輸入到單獨的列中。此外,因為產品描述是非結構化的并且不遵循任何特定的格式,所以它們可能包括語法錯誤、拼寫錯誤和/或其他錯誤。因此,僅僅將信息復制到數據庫中不能提供準確的和適當編目的信息。因此,在數據庫中提供準確的產品描述是有許多復雜性的困難任務。
發明內容
在本公開的一個方面中,公開了一種存儲指令的非暫態計算機可讀介質,這些指令在由計算設備的一個或多個處理器執行時使得計算設備至少進行以下操作:關聯來自描述串的標記(token)與產品的定義的屬性,其中所定義的屬性被組織到電子庫存數據庫中的列中,其中關聯標記包括識別所定義的屬性中的哪些屬性與標記匹配,以及使用注釋串將標記映射到列,以指示所定義的屬性與標記中的相應標記之間的匹配,其中產品中的每個產品與描述串和注釋串中的相應的描述串和注釋串關聯,并且其中描述串中的每個描述串包括指示庫存中的產品屬性的字母數字字符的非結構化組合;通過根據所定義的屬性和識別的標記之間的關聯迭代地分析描述串和注釋串,來生成用于標記中的未被識別的標記的建議的匹配;以及通過從描述串中提取標記并將標記插入到由注釋串的映射所指定的列中來填充電子庫存數據庫。公開了一種執行類似功能的計算機實現的方法。
在非暫態計算機可讀介質的另一個實施例中,使得計算設備填充電子庫存數據庫的指令包括使得計算設備進行以下操作的指令:通過從描述串自動提取標記并將標記存儲到由注釋串所識別的電子庫存數據庫的列中以針對產品中的每個產品在電子庫存數據庫中填充描述,來根據注釋串結構化描述串,其中標記具有不同的長度,其中庫存是零售業務的庫存,并且其中邊界標志分隔描述串的標記并且包括空格或非字母數字字符。
在上面的非暫態計算機可讀介質的另一個實施例中,非暫態計算機可讀介質還包括使得計算設備進行以下操作的指令:通過從存儲介質中讀取電子數據來訪問包括用于庫存類別中的產品的描述串的電子數據,并且其中描述串是不符合定義的協議的數據的非結構化串,其中所定義的屬性與電子庫存數據庫的列關聯并且包括多個產品的特性,以及其中關聯標記初始化注釋串以初始地識別標記與所定義的屬性之間的匹配。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于甲骨文國際公司,未經甲骨文國際公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780005536.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于正則化機器學習模型的方法、系統和存儲介質
- 下一篇:智能廚房信息管理





