[發明專利]一種基于層疊條件隨機場的產品名識別方法及裝置有效
| 申請號: | 201510974820.5 | 申請日: | 2015-12-23 |
| 公開(公告)號: | CN105630768B | 公開(公告)日: | 2018-10-12 |
| 發明(設計)人: | 黃河燕;楊獻祥 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京理工正陽知識產權代理事務所(普通合伙) 11639 | 代理人: | 唐華 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 層疊 條件 隨機 品名 識別 方法 裝置 | ||
1.一種基于層疊條件隨機場的上下文相關產品名識別方法,該方法包括以下步驟:
步驟一、對語料文本進行分詞和詞性標注預處理;
步驟二、對語料文本以詞為單位進行一次特征表示;
步驟三、對當前詞以已訓練的低層條件隨機場模型要求的特征模板表示后利用已訓練的低層條件隨機場模型進行識別得到初步識別結果,記為標記1;
步驟四、將用一次特征表示的詞加上標記1作為二次特征表示;
步驟五、對當前詞以已訓練的低層條件隨機場模型要求的特征模板表示后利用已訓練的高層條件隨機場模型進行識別獲得最終識別結果,記為標記2;
步驟六、將語料文本中被識別出是產品實體的詞增加其對應的標記2后輸出;
所述一次特征包括基礎特征、領域特征、類別特征,所述基礎特征用于表示詞所具有的特征,包括詞本身、詞性、是否包含字母、是否包含數字、是否包含特殊字符;領域特征用于表示詞所屬領域的特征,包括當前詞是否品牌名、是否系列名、是否型號名、是否產品屬性;類別特征用于表示詞所屬的類別特征;
所述領域特征基于領域產品知識庫通過字符串匹配方式確定,所述領域產品知識庫通過以下過程構建:
從領域相關網站抓取產品相關數據;
對抓取到的數據進行解析得到初步的產品實體列表;
對初步的產品實體列表進行人工修正,明確產品實體所屬品牌、系列以及型號,構建包括產品實體及其所屬品牌、系列以及型號在內的產品實體列表并存儲;
參考抓取得到的數據人工整理一個領域產品的常見屬性列表并存儲;
所述當前詞所屬的類別特征通過以下過程確定:
基于詞向量模型,對其中的詞根據彼此之間的相似度進行聚類,兩個詞A和B對應的詞向量和向量之間的相似度通過以下公式計算:
聚類完成后為每一個類別設置一個唯一的類別編號;
將當前詞所屬的類別的類別編號輸出;
所述詞向量模型通過以下過程獲得:
下載領域相關的網頁并解析成純文本;
對下載得到的文本進行分詞處理;
使用分好詞的文本訓練詞向量模型;
所述標記1和標記2采用BIO方式進行標注,B表示實體開始,I表示實體中除開始之外的部分,O表示非實體部分,由此方式得到的標記1為下述之一:
B-BRA:表示品牌名的開始元素;
I-BRA:表示品牌名的除開始元素以外的其它元素;
B-SER:表示系列名的開始元素;
I-SER:表示系列名的除開始元素以外的其它元素;
B-TYP:表示型號名的開始元素;
I-TYP:表示型號名的除開始元素以外的其它元素;
B-COM:表示公司名的開始元素;
I-COM:表示公司名的除開始元素以外的其它元素;
B-PRO:表示產品名的開始元素;
I-PRO:表示產品名的除開始元素以外的其它元素;
O:表示非實體元素;
所述已訓練的低層條件隨機場模型和高層條件隨機場模型通過如下過程得到:
收集產品相關的文本作為訓練語料;
對訓練語料進行分詞和詞性標注;
標記分詞后的文本中出現的品牌、系列、型號、公司、產品名實體,得到包含產品實體的句子;
對產品實體進行一次特征、標記1和標記2表示;
將以一次特征、標記1表示的產品實體用于條件隨機場模型的訓練得到已訓練的低層條件隨機場模型,其特征模板應包括上一個詞、當前詞和下一個詞的特征;
將以一次特征、標記1、標記2表示的產品實體用于條件隨機場模型的訓練得到已訓練的高層條件隨機場模型,其特征模板應包括上一個詞、當前詞和下一個詞的特征。
2.根據權利要求1所述的產品名識別方法構建的一種基于層疊條件隨機場的上下文相關產品名識別裝置,其特征在于:包括領域產品知識庫、詞向量模型、已訓練的低層條件隨機場模型、已訓練的高層條件隨機場模型、文本預處理模塊、一次特征表示模塊、二次特征表示模塊、初步產品名識別模塊、最終產品名識別模塊和識別結果輸出模塊;文本預處理模塊、一次特征表示模塊、初步產品名識別模塊、二次特征表示模塊、最終產品名識別模塊和識別結果輸出模塊依次相連,領域產品知識庫、詞向量模型分別與一次特征表示模塊相連,已訓練的低層條件隨機場模型與初步產品名識別模塊相連,已訓練的高層條件隨機場模型與最終產品名識別模塊相連。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510974820.5/1.html,轉載請聲明來源鉆瓜專利網。





