[發(fā)明專利]基于雙向循環(huán)神經(jīng)網(wǎng)絡進行分詞的方法在審
| 申請?zhí)枺?/td> | 201810379547.5 | 申請日: | 2018-04-25 |
| 公開(公告)號: | CN108595428A | 公開(公告)日: | 2018-09-28 |
| 發(fā)明(設計)人: | 張黎;鄒開紅;宗旭;肖增輝 | 申請(專利權)人: | 杭州閃捷信息科技股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/04 |
| 代理公司: | 杭州千克知識產(chǎn)權代理有限公司 33246 | 代理人: | 裴金華 |
| 地址: | 311100 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分詞 神經(jīng)網(wǎng)絡 雙向循環(huán) 向量 句子 樣本 分類標記序列 標記序列 輸出序列 自然語言處理技術 文本 分類概率 分類類型 循環(huán)單元 雙向門 分類 準確率 消耗 傳遞 轉換 預測 網(wǎng)絡 | ||
本發(fā)明提供基于雙向循環(huán)神經(jīng)網(wǎng)絡進行分詞的方法,屬于自然語言處理技術領域。該基于雙向循環(huán)神經(jīng)網(wǎng)絡進行分詞的方法包括如下步驟:S1:將獲取的句子樣本中的字分別轉換為字向量;S2:將字向量輸入雙向門控循環(huán)單元網(wǎng)絡中進行訓練得到輸出序列;S3:將輸出序列傳遞到分類層以產(chǎn)生分詞標記序列;S4:將分詞標記序列與句子樣本結合生成分詞文本。本發(fā)明中將字向量輸入至雙向循環(huán)神經(jīng)網(wǎng)絡中進行訓練,在預測每個字的分類類型時既結合了前文信息也結合了后文信息,分類概率更加合理,分類層計算出分類標記序列,將分類標記序列與句子樣本結合生成分詞文本,訓練速度更快,消耗資源更少,準確率更高。
技術領域
本發(fā)明屬于自然語言處理技術領域,涉及基于雙向循環(huán)神經(jīng)網(wǎng)絡進行分詞的方法。
背景技術
隨著互聯(lián)網(wǎng)技術的發(fā)展,產(chǎn)生了海量的數(shù)據(jù)信息,人們對于信息分析和信息處理的需求越來越多,在這些海量的信息中要及時準確地分析出人們關心的數(shù)據(jù),這就需要大數(shù)據(jù)分析做工作。面對巨大的數(shù)據(jù)在進行相應的數(shù)據(jù)分析,首先需要進行分詞處理,也就是將連貫的文字分解由一個個具有特定語言含義的單元組成的序列,這樣的處理在中文的信息處理中表現(xiàn)的尤為突出。因為中文分詞與英文分詞有所不同,英文分詞是以詞為單位,詞與詞之間用空格分隔,而中文分詞是以字為單位,句子中所有的字連起來才能完整地表達某個含義。例如,英文句子“Knowledge is power”,中文則為“知識就是力量”。計算機可以很容易地通過空格知道“knowledge”是一個單詞,但是不容易明白“知識”兩個字合起來才表示一個詞。所謂中文分詞就是將中文的漢字序列切分成有意義的詞,也稱為切詞。例如,“知識就是力量”這句話的切詞結果是“知識/就是/力量”。中文分詞的準確程度,常常直接影響到搜索結果的相關度排序。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有的技術存在的上述問題,提供基于雙向循環(huán)神經(jīng)網(wǎng)絡進行分詞的方法,本發(fā)明所要解決的技術問題是:如何提高分詞的效率和準確率。
本發(fā)明的目的可通過下列技術方案來實現(xiàn):
基于雙向循環(huán)神經(jīng)網(wǎng)絡進行分詞的方法,包括如下步驟:
S1:將獲取的句子樣本中的字分別轉換為字向量;
S2:將字向量輸入雙向門控循環(huán)單元網(wǎng)絡中進行訓練得到輸出序列;
S3:將輸出序列傳遞到分類層以產(chǎn)生分詞標記序列;
S4:將分詞標記序列與句子樣本結合生成分詞文本。
優(yōu)選的,步驟S1中采用Embedding將獲取的句子樣本中的字分別轉換為字向量。
優(yōu)選的,步驟S2中將字向量按照句子樣本順序和反序分別輸入雙向門控循環(huán)單元網(wǎng)絡時雙向門控循環(huán)單元網(wǎng)絡分離成前向傳遞單元和反向傳遞單元,將字向量按照句子樣本順序輸入前向傳遞單元得到第一狀態(tài)輸出,將字向量按照句子樣本反序輸入反向傳遞單元得到第二狀態(tài)輸出,將第一狀態(tài)輸出和第二狀態(tài)輸出拼接起來得到輸出序列。
優(yōu)選的,所述第一狀態(tài)輸出和第二狀態(tài)輸出的長度相等,所述輸出序列的長度為第一狀態(tài)輸出的長度的兩倍。
優(yōu)選的,所述分類層為softmax分類器。
優(yōu)選的,步驟S3中的分詞標記序列包括4個標簽組合的字符串。
優(yōu)選的,所述標簽組合包括BMES,其中B表示詞的開始部分,E表示詞的結尾部分,M表示詞的中間部分,S表示單個詞。
優(yōu)選的,步驟S4中將句子樣本按照分詞標記序列中屬于詞的開始部分、多個中間部分、結束部分和單個詞分別對應的字作為詞語從句子樣本中切分。
優(yōu)選的,所述句子樣本是由一個或多個末端帶有終結符號、符合中文語法規(guī)則的句子構成的文本,所述終結符合包括句號、問號、感嘆號、逗號或者分號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州閃捷信息科技股份有限公司,未經(jīng)杭州閃捷信息科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810379547.5/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡轉換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡
- 神經(jīng)網(wǎng)絡的生成方法、生成裝置和電子設備
- 一種舌診方法、裝置、計算設備及計算機存儲介質(zhì)
- 學習神經(jīng)網(wǎng)絡結構
- 脈沖神經(jīng)網(wǎng)絡轉換方法及相關轉換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設備
- 一種適應目標數(shù)據(jù)集的網(wǎng)絡模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構人工神經(jīng)網(wǎng)絡的處理器及其操作方法、電氣設備
- 一種圖像神經(jīng)網(wǎng)絡結構的優(yōu)化方法及裝置





