[發明專利]文本指定信息的主體確定方法、裝置及計算機存儲介質有效
| 申請號: | 201911069210.5 | 申請日: | 2019-11-05 |
| 公開(公告)號: | CN110866396B | 公開(公告)日: | 2023-05-09 |
| 發明(設計)人: | 付驍弈;張杰 | 申請(專利權)人: | 北京明略軟件系統有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 戴仕琴;栗若木 |
| 地址: | 100084 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 指定 信息 主體 確定 方法 裝置 計算機 存儲 介質 | ||
一種文本指定信息的主體確定方法,包括對目標文本進行分詞;對每個分詞進行詞性標注得到每個分詞的詞性標注結果;根據每個分詞的詞性標注結果確定至少一個候選主體;分別根據所確定的每個候選主體對所述目標文本劃分,得到每個候選主體各自對應的樣本;獲取每條樣本的向量V,并輸入預先訓練好的第一神經網絡,以確定是否存在具有所述指定信息的樣本;當確定存在具有所述指定信息的樣本時,則所述樣本對應的候選主體為存在所述指定信息的主體。本申請能夠減少人工標注并且降低成本。
技術領域
本文涉及計算機技術,尤指一種文本指定信息的主體確定方法、裝置及存儲介質。
背景技術
負面信息主體判定任務是網絡輿情監控工作中的一項常見應用。其目的在于給定待分析文本,判定該文本中是否包含負面信息,如果包含負面信息同時給出該負面信息所涉及主體的名稱(或者在原文中的位置)。
現有統計學習方法耗費大量成本在人工特征構建上,這不但耗時費力,并且會導致模型在已被編碼的特征以外的新模式上缺少泛化能力。
現有統計學習使用深度神經網絡的方法通過對主體識別和負面判定進行聯合學習避免了人工特征構建的繁瑣過程,然而該方法需要大量精確的序列標注樣本,例如:使用序列標注,該方法需要在標注階段對待分析文本的每一個字符進行人工標注,例如附圖2中的:“廣州開發區ABXY集團有限公司為其想了一個頗具廣州特色的名字”對應的標注為“B?II?I?I?I?I?I?I?I?I?I?I?I?I?O?O?O?O?O?O?O?O?O?O?O?O?O?O?O”,此階段標注量等于輸入文本的字符串總長度。
發明內容
本申請提供了一種文本指定信息的主體確定方法、裝置及存儲介質,能夠達到減少人工標注并且降低成本的目標。
本申請提供一種文本指定信息的主體確定方法,包括:對目標文本進行分詞;對每個分詞進行詞性標注得到每個分詞的詞性標注結果;根據每個分詞的詞性標注結果確定至少一個候選主體;分別根據所確定的每個候選主體對所述目標文本劃分,得到每個候選主體各自對應的樣本;獲取每條樣本的向量V,并輸入預先訓練好的第一神經網絡,以確定是否存在具有所述指定信息的樣本;當確定存在具有所述指定信息的樣本時,則所述樣本對應的候選主體為存在所述指定信息的主體。
在一個示例性實施例中,上述獲取每條樣本的向量V包括:對每一條所得到的樣本分別進行如下操作:根據該樣本的候選主體的位置進行拆分得到第一子句A和第二子句B;其中所述第一子句A的長度為從該樣本的開始位置到所述候選主體開始的位置;所述第二子句B的長度為從所述候選主體開始的位置到該樣本結束的位置;對所述第一子句A和第二子句B中對應所述目標文本的每個分詞進行向量化,分別獲得所述第一子句A的實值矩陣MA和第二子句B實值矩陣MB;將第一子句A的實值矩陣MA和第二子句的實值矩陣MB輸入第二神經網絡對所述第一子句A和第二子句B進行編碼,獲取該樣本的向量V。
在一個示例性實施例中,上述將第一子句A的實值矩陣MA和第二子句的實值矩陣MB輸入第二神經網絡對所述第一子句A和第二子句B進行編碼,獲取該樣本的向量V,包括:將第一子句A的實值矩陣MA和第二子句實值矩陣MB輸入預先訓練好的第二神經網絡,對所述第一子句A和第二子句B進行編碼,獲得第一子句A的編碼向量為VA和第二子句B的編碼向量VB;將所獲得的向量VA和VB進行拼接,得到該樣本的向量V。
在一個示例性實施例中,上述對所述第一子句A和第二子句B進行編碼包括:對所述第一子句A從前向后編碼和第二子句B從后向前編碼。
在一個示例性實施例中,上述方法還包括:統計存在所述指定信息的樣本所對應的主體并進行合并輸出。
在一個示例性實施例中,上述根據每個分詞的詞性標注結果確定至少一個候選主體,包括:當所述分詞的詞性標注結果為專有名詞或者與專有名詞組成的詞組時,則確定為候選主體。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明略軟件系統有限公司,未經北京明略軟件系統有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911069210.5/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





