[發明專利]用于處理信息的方法、裝置、設備和介質有效
| 申請號: | 202010718666.6 | 申請日: | 2020-07-23 |
| 公開(公告)號: | CN111859970B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 伍林;潘俊杰 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/216;G06F16/335 |
| 代理公司: | 北京英創嘉友知識產權代理事務所(普通合伙) 11447 | 代理人: | 魏嘉熹 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 處理 信息 方法 裝置 設備 介質 | ||
本公開的實施例公開了用于處理信息的方法和裝置。該方法的一具體實施方式包括:獲取目標文本;對目標文本進行命名實體識別,獲得名詞序列;分別從名詞序列中提取角色名序列和稱謂序列;對于稱謂序列中的稱謂,執行以下匹配步驟:從角色名序列中確定與該稱謂相匹配的角色名作為該稱謂對應的匹配角色名;建立該稱謂對應的匹配角色名與該稱謂之間的關聯關系。該實施方式可以節省人力,提高信息處理的效率。
技術領域
本公開的實施例涉及計算機技術領域,具體涉及用于處理信息的方法和裝置。
背景技術
有聲讀物是將讀物中的內容朗讀出來并進行錄音后獲得的音頻形式的讀物。有聲讀物可以包括多個人物角色,而每個人物角色可以對應一個朗讀者。
實踐中,在針對某個人物角色進行朗讀時,需要確定出讀物中的哪些對話屬于該人物角色。然而,在讀物中,一個人物角色通常可以關聯多個稱謂(比如小說男主“張三”可以關聯公子、少爺、你、我、他等稱謂)。人物角色關聯的稱謂的對話也可以是屬于該人物角色的對話。所以,在確定哪些對話屬于該人物角色時,需要確定該人物角色關聯的稱謂,以將所關聯的稱謂的對話劃分到該人物角色的對話中。
目前,通常采用人工標注的方式確定讀物中的各個人物角色關聯的稱謂。
發明內容
本公開提出了用于處理信息的方法和裝置。
第一方面,本公開的實施例提供了一種用于處理信息的方法,該方法包括:獲取目標文本;對目標文本進行命名實體識別,獲得名詞序列;分別從名詞序列中提取角色名序列和稱謂序列;對于稱謂序列中的稱謂,執行以下匹配步驟:從角色名序列中確定與該稱謂相匹配的角色名作為該稱謂對應的匹配角色名;建立該稱謂對應的匹配角色名與該稱謂之間的關聯關系。
在一些實施例中,從角色名序列中確定與該稱謂相匹配的角色名作為該稱謂對應的匹配角色名包括:對于角色名序列中的角色名,執行以下步驟:提取該角色名與該稱謂的關聯特征;將所提取的關聯特征輸入預先訓練的匹配用模型,獲得用于表征該角色名與該稱謂的匹配程度的匹配結果;基于所獲得的匹配結果,從角色名序列中確定與該稱謂相匹配的角色名作為該稱謂對應的匹配角色名。
在一些實施例中,關聯特征包括以下至少一項:用于表征稱謂與角色名對應的性別是否相同的特征;用于表征稱謂與角色名是否包括相同的文字的特征;用于表征稱謂與角色名是否位于目標文本中的相同的句子的特征;用于表征稱謂與角色名是否位于目標文本中的相同的段落的特征;用于表征在名詞序列中,稱謂的位置與角色名的位置的距離的特征;用于表征角色名在稱謂對應的目標名詞集合中出現的次數的特征,其中,稱謂對應的目標名詞集合是在名詞序列中,與稱謂的距離小于或等于預設距離的名詞所組成的集合。
在一些實施例中,從名詞序列中提取角色名序列包括:按照預設條件,對名詞序列中的名詞進行過濾,獲得初始角色名序列,其中,預設條件包括以下至少一項:名詞為人稱代詞;名詞的字數小于2;名詞的字數大于4;基于初始角色名序列,生成角色名序列。
在一些實施例中,基于初始角色名序列,生成角色名序列包括:從初始角色名序列中提取在目標文本中的出現次數大于或等于預設次數的名詞,組成候選角色名序列;基于候選角色名序列,生成角色名序列。
在一些實施例中,基于候選角色名序列,生成角色名序列包括:從候選角色名序列中提取包含姓氏的名詞,組成角色名序列。
在一些實施例中,目標文本為目標小說文本。
在一些實施例中,獲得角色名序列后,從名詞序列中提取稱謂序列包括:從名詞序列中過濾掉屬于角色名序列的名詞,獲得候選稱謂序列;基于候選稱謂序列,生成稱謂序列。
在一些實施例中,基于候選稱謂序列,生成稱謂序列包括:從候選稱謂序列中過濾掉字數大于4的名詞,獲得稱謂序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010718666.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種產品收縮率的收集方法及系統
- 下一篇:一種洗滌設備及其控制方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





