[發(fā)明專利]一種詞性標注方法及裝置在審
| 申請?zhí)枺?/td> | 201810235359.5 | 申請日: | 2018-03-21 |
| 公開(公告)號: | CN110298016A | 公開(公告)日: | 2019-10-01 |
| 發(fā)明(設計)人: | 張鵬 | 申請(專利權)人: | 普天信息技術有限公司 |
| 主分類號: | G06F17/21 | 分類號: | G06F17/21;G06F17/27;G06K9/62 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩;李相雨 |
| 地址: | 100080 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 詞性標注 輸入向量 分詞 特征向量組 求和 加權 詞頻 計算過程 特征向量 預先獲取 詞性 兩組 | ||
本發(fā)明實施例提供一種詞性標注方法及裝置。所述方法包括根據(jù)預先獲取的待處理文本得到所述待處理文本的至少兩組特征向量組;其中,所述待處理文本至少包括一個分詞;對所有的特征向量通過加權求和得到輸入向量組;根據(jù)所述輸入向量組得到所述待處理文本中各個分詞的詞性標注,本發(fā)明實施例通過將得到的待處理文本的多個特征向量組進行加權求和得到輸入向量組,從而能夠在后續(xù)的計算過程中,更加快速、準確得得到待處理文本中每個分詞的詞性和詞頻。
技術領域
本發(fā)明實施例涉及自然語言處理技術領域,尤其涉及一種詞性標注方法及裝置。
背景技術
詞性標注是自然語言處理中的一項基礎任務,在語音識別、信息檢索及自然語言處理的許多領域都發(fā)揮著重要的作用。詞性標注對于句子中的每個詞都指派一個合適的詞性,也就是要確定每個詞是名詞、動詞、形容詞或其他詞性的過程,又稱詞類標注或者簡稱標注。
現(xiàn)在技術中對于詞性標注的一種模型為基于詞頻的一種神經網(wǎng)絡模型,至少包括BGRU(Bidirection Gated Recurrent Unit,雙向門循環(huán)單元)、 CNN(ConvolutionalNeural Network,卷積神經網(wǎng)絡)、BLSTM(Long Short-Term Memory,長短期記憶網(wǎng)絡)和CRF(Conditional Random Field Algorithm,條件隨機場算法)。該模型采用CNN與BGRU作為特征提取層,其中CNN用來提取詞內部的字向量特征V2,BGRU用來提取不包含稀有詞的詞向量特征V3。而后將原始文本的詞向量V1與V2、V3向量直接連接,即V=[V1,V2,V3]。將向量V輸入到BLSTM隱藏層采用Sigmoid 作為激活函數(shù)進行非線性計算,最終結果一部分輸出到CRF層用來進行詞性預測,同時另一部分用來預測詞頻。
現(xiàn)有技術中對于提取到的特征向量采用直接輸入的方式使模型的計算效率低且準確率不高。
發(fā)明內容
本發(fā)明實施例提供一種詞性標注方法及裝置,用以解決現(xiàn)有技術中對于提取到的特征向量采用直接輸入的方式使模型的計算效率低且準確率不高。
第一方面,本發(fā)明實施例提供了一種詞性標注方法,包括:
根據(jù)預先獲取的待處理文本得到所述待處理文本的至少兩組特征向量組;其中,所述待處理文本至少包括一個分詞;
對所有的特征向量通過加權求和得到輸入向量組;
根據(jù)所述輸入向量組得到所述待處理文本中各個分詞的詞性標注。
第二方面,本發(fā)明實施例提供了一種用于詞性標注方法的裝置,包括:
輸入模塊,用于根據(jù)預先獲取的待處理文本得到所述待處理文本的至少兩組特征向量組;其中,所述待處理文本至少包括一個分詞;
加權模塊,用于對所有的特征向量通過加權求和得到輸入向量組;
測算模塊,用于根據(jù)所述輸入向量組得到所述待處理文本中各個分詞的詞性標注。
第三方面,本發(fā)明實施例還提供了一種電子設備,包括:
處理器、存儲器、通信接口和總線;其中,
所述處理器、存儲器、通信接口通過所述總線完成相互間的通信;
所述通信接口用于該電子設備的通信設備之間的信息傳輸;
所述存儲器存儲有可被所述處理器執(zhí)行的程序指令,所述處理器調用所述程序指令能夠執(zhí)行如下方法:
根據(jù)預先獲取的待處理文本得到所述待處理文本的至少兩組特征向量組;其中,所述待處理文本至少包括一個分詞;
對所有的特征向量通過加權求和得到輸入向量組;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于普天信息技術有限公司,未經普天信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810235359.5/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





