[發明專利]一種文章段落分析注釋方法、系統、可讀介質及設備有效
| 申請號: | 202210376828.1 | 申請日: | 2022-04-12 |
| 公開(公告)號: | CN114462424B | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 李根柱 | 申請(專利權)人: | 北京思源智通科技有限責任公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F40/247;G06F40/216 |
| 代理公司: | 深圳市添源創鑫知識產權代理有限公司 44855 | 代理人: | 沈冠雄 |
| 地址: | 102400 北京市房山區閻*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文章 段落 分析 注釋 方法 系統 可讀 介質 設備 | ||
本發明提供了一種文章段落分析注釋方法、系統、可讀介質及設備。該方案包括獲取待分析文章,進行語義采集生成為段落數據和詞匯數據;根據所述詞匯數據進行語義分析,生成近義詞庫;獲取全部的句子,根據所述近義詞庫進行關鍵段關聯程度計算,形成目標關鍵段落;提取每個詞匯的出現頻率,計算每個詞匯的指示詞詞頻和每個句子的自創程度;對每個段落中的詞匯進行語義提取,生成語義轉折段落;根據所述語義轉折段落、所述自創程度和所述目標關鍵段落進行在線的段落標記、語句標記和詞匯標記。該方案通過自動的分析和提取在文章中的段落、語句和詞匯快速完成定位關鍵段落,分析每個句子的自創程度,并進行詞頻標記和語義轉折標記。
技術領域
本發明涉及文檔分析技術領域,更具體地,涉及一種文章段落分析注釋方法、系統、可讀介質及設備。
背景技術
隨著科技的發展,人人都能夠寫作,這導致在社交平臺、微博、微信、期刊、報紙等各個場 、景下的寫作內容越來越多。在此種情況下,將會產生諸多的文章,但是,這些文章可能每個都存在其特點,若需要對于大量文檔進行逐一的分析,需要花費大量的時間和精力,而且可能不能快速獲知語義。因此,需要部分文檔的分析方法,提升文檔分析效率和準確度。
在本發明技術之前,現有的文檔分析提取方法,較少能夠真正實現在線的對于段落的關鍵信息和段落的語義和轉折的提取。產生這一現象的原因是,現有的技術主要人員經驗依靠于對于文檔的整體性的分析,而整體的分析雖然能真正的提取出語義,但是每個分析的人員存在其主觀的觀點;此外,在分析過程中若出現多類型的數據存在近義詞時,常常無法有效分析。
發明內容
鑒于上述問題,本發明提出了一種文章段落分析注釋方法、系統、可讀介質及設備,通過自動的分析和提取在文章中的段落、語句和詞匯快速完成定位關鍵段落,分析每個句子的自創程度,并進行詞頻標記和語義轉折標記。
根據本發明實施例第一方面,提供一種文章段落分析注釋方法。
在一個或多個實施例中,優選地,所述一種文章段落分析注釋方法包括:
獲取待分析文章,進行語義采集生成為段落數據和詞匯數據;
根據所述詞匯數據進行語義分析,生成近義詞庫;
獲取全部的句子,根據所述近義詞庫進行關鍵段關聯程度計算,形成目標關鍵段落;
提取每個詞匯的出現頻率,計算每個詞匯的指示詞詞頻和每個句子的自創程度;
對每個段落中的詞匯進行語義提取,生成語義轉折段落;
根據所述語義轉折段落、所述自創程度和所述目標關鍵段落進行在線的段落標記、語句標記和詞匯標記。
在一個或多個實施例中,優選地,所述獲取待分析文章,進行語義采集生成為段落數據和詞匯數據,具體 包括:
獲取待分析文章,對文章進行段落分析,拆分為不同段落;
根據全部的段落進行詞匯拆分,拆分為不同的詞匯;
根據全部的段落進行語句拆分,拆分為不同的語句;
根據段落、詞匯和語句進行實時編號,并生成為所述段落數據、所述詞匯數據和語句數據。
在一個或多個實施例中,優選地,所述根據所述詞匯數據進行語義分析,生成近義詞庫,具體包括:
根據所述語句數據,生成為全部的句子;
根據所述詞匯數據,進行近義詞提取,根據每個詞匯的近義詞,生成所述近義詞庫;
根據所述語句數據和所述段落數據,進行從屬關系分析,形成每個句子對應的段落。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京思源智通科技有限責任公司,未經北京思源智通科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210376828.1/2.html,轉載請聲明來源鉆瓜專利網。





