[發明專利]序列切分的方法和裝置有效
| 申請號: | 201610326460.2 | 申請日: | 2016-05-17 |
| 公開(公告)號: | CN107392311B | 公開(公告)日: | 2020-06-30 |
| 發明(設計)人: | 燕鵬舉;李龍飛 | 申請(專利權)人: | 創新先進技術有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08 |
| 代理公司: | 北京博思佳知識產權代理有限公司 11415 | 代理人: | 林祥 |
| 地址: | 開曼群島大開曼島西灣路8*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 序列 切分 方法 裝置 | ||
本申請提供一種序列切分的方法,用于將待切分序列劃分為包括一個到多個符號的子序列,所述方法包括:利用神經網絡獲取待切分序列的相鄰符號中至少一個符號的類別標記集合概率分布;所述神經網絡以樣本序列中每個符號依序作為各個時刻的輸入向量,以當前時刻輸入向量的相鄰符號作為目標類別標記進行訓練;根據所述至少一個符號的類別標記集合概率分布的分散度特征值和另一個符號在所述類別標記集合概率分布中的概率值,確定所述相鄰符號的邊界指標;當所述邊界指標滿足預定邊界條件時,在所述相鄰符號之間進行子序列切分。通過本申請的技術方案,節省了大量的人力工作,提高了模型訓練的效率,而且適用于各種應用場景。
技術領域
本申請涉及數據處理領域,尤其涉及一種序列切分的方法和裝置。
背景技術
在數字信息化時代,隨著人們越來越多的利用網絡完成各種生活和工作是想,互聯網上沉積的數據越來越多。數據分析的價值也日益凸顯,例如,通過分析用戶使用某個軟件產品的行為數據,可以有效的完善該軟件產品的設計;通過分析用戶的消費數據,可以增加廣告投放的精準度、發現市場的未來發展方向等等。
在互聯網數據分析中,對數據序列的切分是必不可少的一個環節。例如,用戶在訪問網站時,其訪問行為通常在與網站建立的會話(Session)中進行,會話由一系列的事件(Event)組成。網站的訪問日志中記錄的是用戶訪問該網站時的一系列事件,屬于一個用戶的事件構成一個訪問行為序列;而在分析用戶的訪問行為時通常針對會話來進行,這樣就需要將訪問行為序列切分為若干個會話。再如,對互聯網的中文內容進行分析時,在絕大多數場景下(如命名實體識別、句法分析、語義分析、搜索引擎、推薦系統等)需要進行分詞,也就是說,需要將由單字組成的文本序列切分為若干個詞。
現有技術中,序列切分的一種實現是采用監督學習的方式,由人工對一定量的樣本序列進行切分并標注出切分所得的子序列,用于序列切分的模型采用這樣的訓練材料進行監督學習,最后將監督學習完成后的該模型作用于待切分序列,得到切分后的子序列。這種實現以大量的人工標注為基礎,不僅需要大量的人力勞動,而且對于很多應用場景和很多類型的序列來說人工標注難以獲得;此外,當應用場景中序列的數據規律發生變化時,需要重新或補充進行人工標注,進一步限制了這種方式的適用情形。
發明內容
有鑒于此,本申請提供一種序列切分的方法,用于將待切分序列劃分為包括一個到多個符號的子序列,所述方法包括:
利用神經網絡獲取待切分序列的相鄰符號中至少一個符號的類別標記集合概率分布;所述神經網絡以樣本序列中每個符號依序作為各個時刻的輸入向量,以當前時刻輸入向量的相鄰符號作為目標類別標記進行訓練;
根據所述至少一個符號的類別標記集合概率分布的分散度特征值和另一個符號在所述類別標記集合概率分布中的概率值,確定所述相鄰符號的邊界指標;
當所述邊界指標滿足預定邊界條件時,在所述相鄰符號之間進行子序列切分。
本申請還提供了一種序列切分的裝置,用于將待切分序列劃分為包括一個到多個符號的子序列,所述裝置包括:
概率分布獲取單元,用于利用神經網絡獲取待切分序列的相鄰符號中至少一個符號的類別標記集合概率分布;所述神經網絡以樣本序列中每個符號依序作為各個時刻的輸入向量,以當前時刻輸入向量的相鄰符號作為目標類別標記進行訓練;
邊界指標單元,用于根據所述至少一個符號的類別標記集合概率分布的分散度特征值和另一個符號在所述類別標記集合概率分布中的概率值,確定所述相鄰符號的邊界指標;
子序列切分單元,用于當所述邊界指標滿足預定邊界條件時,在所述相鄰符號之間進行子序列切分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于創新先進技術有限公司,未經創新先進技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610326460.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:神經網絡模型訓練方法及裝置
- 下一篇:一種基于DCGAN性能的動態調整方法





