[發明專利]一種基于文章結構樹的文章評價方法及系統有效
| 申請號: | 201911143150.7 | 申請日: | 2019-11-20 |
| 公開(公告)號: | CN111309854B | 公開(公告)日: | 2023-05-26 |
| 發明(設計)人: | 董喆;何雙江;秦威 | 申請(專利權)人: | 武漢烽火信息集成技術有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/31;G06F16/35;G06Q10/0639 |
| 代理公司: | 武漢東喻專利代理事務所(普通合伙) 42224 | 代理人: | 雷霄 |
| 地址: | 430076 湖北省武漢市東湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文章 結構 評價 方法 系統 | ||
本發明公開了一種基于文章結構樹的文章評價方法及系統。該方法包括:讀取用戶輸入的待評價文章,構建待評價文章的文章結構樹;構建包含多個樣本文章及對應評價信息的樣本庫,構建樣本文章的文章結構樹;獲取待評價文章的文章結構樹與樣本文章的文章結構樹的相似度,根據該相似度獲取與待評價文章最相似的樣本文章;根據最近似的樣本文章的評價信息獲取待評價文章的評價信息。本發明中電子輔助編輯系統會比較待評價文章和樣本文章的文章結構樹模型來評價文章結構是否合理,可以大大提高文章評價的準確度,提高電子輔助編輯系統的效率。
技術領域
本發明屬于電子文本輔助編輯技術領域,更具體地,涉及一種基于文章結構樹的文章評價方法及系統。
背景技術
電子文本輔助編輯中,智能的文字推薦分為三個階段,編輯前、編輯中和編輯后。專題文章結構整理的主要目的是服務于編輯后的文章核查,即文章完成編輯后系統根據文章結構判斷是否合理。
現有的電子文本輔助編輯系統的文章評價中,一般是將文章的詞頻做統計,根據詞做向量分析,通過文章向量相似度匹配到一組近似的文章上去,根據近似的已知文章的已有評分或評價綜合給出待評價的文章。但是這種方法存在兩個比較顯著的問題,從而導致文章評價的不準確性,進而影響文章輔助編輯的效率。問題一,文章樣本比較少,文章樣本個體間結構差異較大的情況下,這種評價方法會導致很難比較準確地對待評價文章進行評價;問題二,由于文章編輯前、編輯中都會推送與主題相關的近似文章,那么到了編輯后文章評價階段,其評價很可能與其推送的文章結果近似,最后所得到的評價缺乏對編輯文章的文字內容以外的評價建議,從而導致評價不準確,進而導致電子文本輔助編輯系統的效率低下。
發明內容
針對現有技術的至少一個缺陷或改進需求,本發明提供了一種基于文章結構樹的文章評價方法及系統,通過比較待評價文章和樣本文章的文章結構樹來獲取待評價文章的評價信息,可以大大提高文章評價的準確度,提高電子文本輔助編輯系統的效率。
為實現上述目的,按照本發明的第一方面,提供了一種基于文章結構樹的文章評價方法,包括;
讀取用戶輸入的待評價文章,構建待評價文章的文章結構樹;
構建包含多個樣本文章及對應評價信息的樣本庫,構建樣本文章的文章結構樹;
獲取待評價文章的文章結構樹與樣本文章的文章結構樹的相似度,根據該相似度獲取與待評價文章相似的樣本文章;
根據近似的樣本文章的評價信息獲取待評價文章的評價信息。
優選地,所述構建文章結構所述樹具體是:
生成一棵空的文章結構樹,將文章標題作為文章結構樹的根節點,將文章的子標題和/或段落按層級關系添加到根節點下作為子節點,為每個子節點賦值。
優選地,根據以下公式為每個子節點賦值,
其中,P為子節點的賦值,m為該子節點下所有的文字數量,n為該文章的所有文字數量,Cm為該子節點下所有文字與文章標題的近似度。
優選地,從文章結構樹的葉子節點到根節點的路徑上將葉子節點下的所有文字數累加到路徑上所有子節點上,獲取m和n的值,對子節點的文字進行分詞,計算所有分詞與文章標題的近似度,計算平均相似度,即為Cm的值。
優選地,所述獲取待評價文章的文章結構樹與樣本文章的文章結構樹的相似度具體是:逐層計算待評價文章的文章結構樹與樣本文章的文章結構樹的層相似度,根據層相似度獲取待評價文章的文章結構樹與樣本文章的文章結構樹的相似度。
優選地,根據以下公式獲取待評價文章的評價信息,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢烽火信息集成技術有限公司,未經武漢烽火信息集成技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911143150.7/2.html,轉載請聲明來源鉆瓜專利網。





