[發(fā)明專利]文本分析及可視化方法與系統(tǒng)在審
| 申請?zhí)枺?/td> | 202211716825.4 | 申請日: | 2022-12-29 |
| 公開(公告)號: | CN116151255A | 公開(公告)日: | 2023-05-23 |
| 發(fā)明(設(shè)計)人: | 朱風(fēng)云;陳博 | 申請(專利權(quán))人: | 北京靈伴即時智能科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/289;G06V30/414;G06V30/19;G06T11/20 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100000 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 分析 可視化 方法 系統(tǒng) | ||
1.一種文本分析及可視化方法,其特征在于,包括:
將文本輸入至文本分析及可視化系統(tǒng)中;文本分析及可視化系統(tǒng)包括自然語言處理器、統(tǒng)計處理器、相關(guān)分析器、可視化裝置;
自然語言處理器對輸入的文本進行自然語言處理從而提取文本中的角色及對應(yīng)的角色信息并構(gòu)成角色列表;
自然語言處理器對文本進行自然語言處理從而將文本劃分成一個或多個劇情片段;
統(tǒng)計處理器統(tǒng)計得到各個角色在各劇情片段中的出場頻次;
相關(guān)分析器對角色在各劇情片段中的出場頻次分布模式進行分析并獲取各個角色之間出場頻次的相關(guān)性;
可視化裝置通過可視化方法將角色在各劇情片段中的出場頻次進行呈現(xiàn);可視化裝置利用角色類型以及不同角色之間出場頻次的相關(guān)性對各個角色的呈現(xiàn)順序進行排列,使得相鄰角色之間的相關(guān)性最大化。
2.根據(jù)權(quán)利要求1所述的文本分析及可視化方法,其特征在于,
其中,角色信息包括角色類型、角色性別、角色年齡、角色特點;
角色信息還包括該角色在涉及其自身的不同劇情片段出場的文本實例,用于輔助編輯者對角色進行梳理和判斷;
角色信息還包括各個角色在文本的全文中的總出場頻次、總出場頻次占比,由統(tǒng)計處理器統(tǒng)計得到;
角色信息還包括各個角色的在不同劇情片段中的出場頻次,由統(tǒng)計處理器統(tǒng)計得到。
3.根據(jù)權(quán)利要求1所述的文本分析及可視化方法,其特征在于,
其中,自然語言處理器包括命名實體識別模型裝置、角色信息判斷模型裝置、角色特點描述模型裝置;
命名實體識別模型裝置從文本中獲取并標(biāo)注角色名,通過對全文出場的角色進行提取和統(tǒng)計獲得角色列表;
角色信息判斷模型裝置根據(jù)角色名和角色出場的上下文對角色的角色類型、角色性別、角色年齡進行分類;
角色特點描述模型裝置通過對輸入的角色出場時的上下文進行分析處理,輸出角色特點的概要性描述;
其中,角色特點描述模型裝置利用序列到序列模型分析文本并生成關(guān)于角色特點的描述;或者,角色特點描述模型裝置利用序列標(biāo)注模型從文本中摘取關(guān)于角色特點的描述內(nèi)容。
4.根據(jù)權(quán)利要求1所述的文本分析及可視化方法,其特征在于,
統(tǒng)計處理器以劇情片段為單位統(tǒng)計得到角色在各個劇情片段中的出場頻次,將劇情片段在文本中出現(xiàn)的先后順序進行排列,并根據(jù)排列順序為劇情片段設(shè)置相應(yīng)的序號;
相關(guān)分析器將各個角色在不同劇情片段中的出場頻次以角色向量進行表示,其中,角色向量的下標(biāo)為劇情片段的序號;對任意兩個角色,相關(guān)分析器計算其對應(yīng)角色向量之間的相關(guān)性;
統(tǒng)計處理器完成以劇情片段為單位角色出場頻次的統(tǒng)計后,可視化裝置將表示每個角色在不同的劇情片段中出場頻次的角色向量組織形成可視化矩陣,其中,可視化矩陣的橫軸為劇情片段,縱軸為角色;可視化裝置利用二維熱力圖或氣泡圖對可視化矩陣進行可視化呈現(xiàn)。
5.根據(jù)權(quán)利要求1所述的文本分析及可視化方法,其特征在于,
其中,劇情片段的單位為場景或章節(jié);
自然語言處理器包括序列標(biāo)注模型裝置、模式匹配裝置;
其中,序列標(biāo)注模型裝置通過序列標(biāo)注模型將文本劃分成一個或多個場景,統(tǒng)計處理器以場景為單位統(tǒng)計各個角色的出場頻次;
或者,模式匹配裝置通過模式匹配處理識別出文本中的章節(jié),統(tǒng)計處理器以章節(jié)為單位統(tǒng)計各個角色的出場頻次;
其中,模式匹配裝置利用分類模型識別章節(jié)邊界;或者,模式匹配裝置利用基于規(guī)則的模式匹配方法識別章節(jié)邊界。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京靈伴即時智能科技有限公司,未經(jīng)北京靈伴即時智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211716825.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)可視化模型的處理方法及裝置
- 一種可視化內(nèi)容分發(fā)方法及系統(tǒng)
- 數(shù)據(jù)可視化圖形快速應(yīng)用方法及系統(tǒng)
- 基于有效信息的流場可視化視圖量化方法
- 可視化報表的制作方法、裝置、終端設(shè)備及存儲介質(zhì)
- 一種可視化圖形快速應(yīng)用與傳輸?shù)姆椒跋到y(tǒng)
- 一種可視化數(shù)據(jù)模型編排系統(tǒng)和編排方法
- 一種供水行業(yè)機房3D可視化運維管理系統(tǒng)
- 一種電網(wǎng)數(shù)據(jù)可視化方法、裝置、設(shè)備及介質(zhì)
- 一種大場景城市建筑實時三維可視化的方法





