[發(fā)明專利]一種基于云模型的中文面向查詢的多文檔自動文摘方法無效
| 申請?zhí)枺?/td> | 201110373752.9 | 申請日: | 2011-11-22 |
| 公開(公告)號: | CN102411621A | 公開(公告)日: | 2012-04-11 |
| 發(fā)明(設(shè)計)人: | 陳勁光;何婷婷;胡珀;趙軍民;李芳 | 申請(專利權(quán))人: | 華中師范大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 武漢天力專利事務(wù)所 42208 | 代理人: | 馮衛(wèi)平 |
| 地址: | 430079 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 模型 中文 面向 查詢 文檔 自動 文摘 方法 | ||
1.一種基于云模型的中文面向查詢的多文檔自動文摘方法,其特征在于包括如下步驟:
???1)對查詢和多文檔集合進行句子切分、分詞、去停用詞,將查詢和文檔表示成向量;
???2)利用云模型對得到的向量進行處理,通過建立中文語料庫、修改英文自動文摘評測工具ROUGE的源代碼以實現(xiàn)中文文摘自動評測、參數(shù)訓(xùn)練,找出與查詢相關(guān)的句子,并計算句子在文檔集合中的重要度,綜合考慮兩方面的因素,給句子打分;?
???3)去冗余,生成初始文摘。
2.根據(jù)權(quán)利要求1所述的基于云模型的中文面向查詢的多文檔自動文摘方法,其特征在于所述步驟3)之后還包括一個句子修剪步驟,即制定句子修剪規(guī)則對初始文摘句進行句子修剪,產(chǎn)生多候選句,利用多維云選取修剪句替換原始文摘句,生成精煉文摘。
3.根據(jù)權(quán)利要求2所述的基于云模型的中文面向查詢的多文檔自動文摘方法,最后還包括一個句子排序步驟,即對文檔集合進行聚類,找出包含一個或多個文摘句的子主題,將文檔集合中的所有文檔看成是模板,多個模板的集合構(gòu)成了云,即云模板,利用云模板依次對子主題以及子主題內(nèi)部的文摘句進行排序,最終生成所需摘要。
4.根據(jù)權(quán)利要求2所述的基于云模型的中文面向查詢的多文檔自動文摘方法,其特征在于所述的句子修剪規(guī)則為10條基于依存分析的人工規(guī)則。
5.根據(jù)權(quán)利要求2所述的基于云模型的中文面向查詢的多文檔自動文摘方法,其特征在于所述的利用多維云選取修剪句替換原始文摘句具體是指:將詞語在文檔集合間的分布、在所有句子間的分布、與所有查詢詞之間的相關(guān)度三方面分別看成云滴,分別通過逆向云發(fā)生器得到三種云的數(shù)字特征以得到詞語多維云,通過綜合云運算得到詞語單維云,詞語單維云組成句子多維云,計算候選句重要度得分,再與候選句長度一起計算候選句的信息密度,用信息密度最高的候選句替換原始文摘句。
6.根據(jù)權(quán)利要求5所述的基于云模型的中文面向查詢的多文檔自動文摘方法,其特征在于所述的計算候選句重要度得分是指,通過計算句子多維云與原句多維云的相似度,從而得到候選句的重要度得分,計算句子多維云與原句多維云相似度的方法為:
其中,C1和C2為兩個多維云,Ex1k、Ex2k,En1k、En2k,He1k、He2k分別為概念C1和C2所擁有的第k?個屬性值的數(shù)學(xué)期望、熵、超熵;Vk為屬性k?的權(quán)重,其大小為0?~1。
7.根據(jù)權(quán)利要求5所述的基于云模型的中文面向查詢的多文檔自動文摘方法,其特征在于所述的計算候選句信息密度的方法為:
??????????????????????????
???其中C、O分別表示候選句和原句,函數(shù)Length計算的是句子長度,以字為單位。
8.根據(jù)權(quán)利要求3所述的基于云模型的中文面向查詢的多文檔自動文摘方法,其特征在于所述利用云模板依次對子主題進行排序具體是指:由主題所包含的各個文摘句的單維云構(gòu)成主題相對位置多維云,用綜合云計算得到主題相對位置單維云,通過期望Ex得到主題相對位置得分,以此對主題進行排序。
9.根據(jù)權(quán)利要求3所述的基于云模型的中文面向查詢的多文檔自動文摘方法,其特征在于所述利用云模板依次對子主題內(nèi)部的文摘句進行排序具體是指:在所有文檔中找出哪個句子與前一步中得到的文摘句最為相似,作為該文摘句在該文檔中的相對位置,將每個相對位置看成云滴,進行逆向云計算,得到句子相對位置云的數(shù)字特征,與主題內(nèi)部句子一起通過期望Ex得到句子相對位置得分,以此對主題內(nèi)部句子進行排序。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華中師范大學(xué),未經(jīng)華中師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110373752.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:鋯微合金化的高純高強耐蝕可焊鋁鋅鎂合金及制備方法
- 下一篇:一種洗碗消毒機





