[發明專利]一種不同領域文檔摘要自動抽取及自動優化方法在審
| 申請號: | 201410845152.1 | 申請日: | 2014-12-31 |
| 公開(公告)號: | CN104636431A | 公開(公告)日: | 2015-05-20 |
| 發明(設計)人: | 張曉東;王玉;傅文斌;殷建琳 | 申請(專利權)人: | 南京新模式軟件集成有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 郭先彬 |
| 地址: | 210061 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 不同 領域 文檔 摘要 自動 抽取 優化 方法 | ||
技術領域
本發明涉及文檔元數據抽取,尤其涉及一種針對不同領域文檔摘要自動抽取及自動優化的方法,屬于自然語言處理領域。
背景技術
隨著信息技術的發展,電子文件已經成為現代工作、生活不可或缺的重要信息載體,人們的工作和生活驅動了電子文件信息的生成和流轉,產生了大量的電子文件。
然而隨著時間的推移,電子文件迅速增加,數量已經不能完全統計。根據國家檔案局2006年的調查,中央機關電子文件數量高達1.5億余份,總量達75TB。2006年我國中央機關及其直屬企事業單位生成的電子文件數量比2005年增長了18.9%,其數量占文件總數的72.7%,如何對我國政府公文類電子文件進行有效的管理和利用成了一個日益嚴峻的問題。使用普通元數據抽取方法抽取領域性非常強的文檔時往往存在抽取速度慢、效果差的問題。
發明內容
本發明公開了一種不同領域文檔摘要自動抽取及自動優化的方法,解決了在使用普通元數據抽取方法抽取領域性非常強的文檔時抽取速度慢、效果差的問題。
為實現上述發明目的,本發明采取的技術方案是:
第一步:針對不同領域人工生成領域摘要模板;
第二步:根據領域摘要模板自動抽取摘要;
第三步:人工干預優化摘要及領域摘要模板。
進一步地,針對不同領域人工生成領域摘要模板包括以下步驟:
A.根據不同領域的非結構化數據設置不同的句子得分項的權重,句子得分項包括句子相似度得分項,句子在文中的位置得分項,基于詞權重的句子詞權重值得分項;
B.?根據不同領域的非結構化數據設定在文中不同位置的句子、段落的權重值;
C.?根據不同領域的非結構化數據收集整理相關的詞庫及對應的詞權重值;
D.根據不同領域設定摘要信息抽取權重的比例。
進一步地,根據領域摘要模板自動抽取摘要包括以下步驟:
A.導入領域摘要模板;
B.?從文檔中抽取文檔正文數據;
C.?使用斷句算法對提取的文檔正文數據進行分段與斷句,切分句子,并記錄句子在文中的位置;
D.使用相似度算法對每個句子計算分值;
E.?對已經切分完成的句子使用中文分詞算法,進行中文分詞;
F.??對分詞得到的詞進行詞頻統計,得到詞的權重值;
G.分詞得到的詞在對應的詞庫中進行匹配,如果匹配到相關的詞,并且在詞庫中對應的權重值大于目前計算的到的詞權重值,則增加該詞的權重值,如果在詞庫中對應的權重值小于目前計算的到的詞權重值,則降低該詞的權重值;
H.根據句子中詞的權重值計算基于詞權重的句子詞權重值;
I.??根據領域摘要模板中設定的在文中不同位置的句子的權重計算句子的位置權重值;
J.??根據領域摘要模板中設定的句子相似度權重值,句子位置權重值,句子詞權重值之間的權重關系計算句子權重值;
K.將得到的句子權重值從高到低排序;
L.?根據領域摘要模板中設定的摘要權重比例輸出摘要信息。
進一步地,人工干預優化摘要及領域摘要模板包括以下步驟:
A.人工對得到的摘要信息與文章進行對比,判斷摘要信息與文章是否匹配;如果摘要不完整,則增加部分摘要,如果摘要過多,則刪除部分摘要;
B.?使用斷句算法,將摘要中被修改的句子或者段落進行斷句,得到句子;
C.?得到句子在文章中的對應位置;
D.根據領域摘要模板中的優化步長,增加或減少步驟B得到的句子在文章中對應位置在模板中的權重值;
E.?使用中文分詞算法對步驟B得到的句子進行分詞處理,得到詞;
F.??將所得到的詞與領域摘要模板的詞庫進行匹配;
G.如果匹配到對應的詞,則根據領域摘要模板中的優化步長相應的增加或者減少摘要模板詞庫中對應的詞權重;
H.重新得到領域摘要模板。
進一步地,對于增加部分摘要的情況,將相應句子對應的詞在領域摘要模板詞庫中的權重增加或者在領域摘要模板詞庫中增加未錄入的新詞,將領域摘要模板中句子在文章中的對應位置的權重增加。
進一步地,對于刪除部分摘要的情況,將相應句子對應的詞在領域摘要模板詞庫中的權重降低,將摘要模板中句子在文章中的對應位置的權重降低。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京新模式軟件集成有限公司;,未經南京新模式軟件集成有限公司;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410845152.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于詞向量的問題路由方法
- 下一篇:一種專利分析及圖形展示的方法





