[發(fā)明專利]一種個性化自動文摘算法在審
| 申請?zhí)枺?/td> | 202110497850.7 | 申請日: | 2021-05-08 |
| 公開(公告)號: | CN113420142A | 公開(公告)日: | 2021-09-21 |
| 發(fā)明(設(shè)計)人: | 蔣健 | 申請(專利權(quán))人: | 廣東恒宇信息科技有限公司 |
| 主分類號: | G06F16/34 | 分類號: | G06F16/34;G06F16/35;G06F16/9535;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 516600 廣東省汕尾*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 個性化 自動 文摘 算法 | ||
本發(fā)明涉及自動文摘算法技術(shù)領(lǐng)域,且公開了一種個性化自動文摘算法,基于模糊聚類算法建模用戶興趣;根據(jù)數(shù)據(jù)建模、模糊三元聚類算法對社交標(biāo)簽網(wǎng)絡(luò)中的三類節(jié)點(文檔,用戶和標(biāo)簽)進行協(xié)同聚類;實驗結(jié)果與分析;基于卷積神經(jīng)網(wǎng)絡(luò)為句子打分;對使用卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)進行文本進行摘要抽取;實驗結(jié)果與分析;本發(fā)明通過利用計算機從原文中自動抽取摘要的方法可以使讀者在最短的時間內(nèi)獲取原文主要思想,使閱讀變得更加高效,從而避免現(xiàn)有的自動摘要系統(tǒng)為不同的用戶生成相同的摘要,而未考慮到讀者的興趣點。這些“千篇一律”的摘要具有通用性,但無法很好地滿足用戶的個人需求。
技術(shù)領(lǐng)域
本發(fā)明涉及自動文摘算法技術(shù)領(lǐng)域,具體為一種個性化自動文摘算法。
背景技術(shù)
隨著互聯(lián)網(wǎng)的迅速發(fā)展,人們被大量的在線信息和文本所淹沒,互聯(lián)網(wǎng)正處于高速發(fā)展時期,網(wǎng)絡(luò)信息出現(xiàn)了爆炸式地增長,網(wǎng)絡(luò)環(huán)境中的信息資源數(shù)量巨大且雜亂無章,如何使得人們更加快速、準(zhǔn)確地從網(wǎng)絡(luò)上獲取有價值的信息,是目前被積極研究的一個熱點領(lǐng)域從大量文本信息中提取重要內(nèi)容已成為我們的一個迫切需求,而自動文本摘要則提供了一個高效的解決方案。這種利用計算機從原文中自動抽取摘要的方法可以使讀者在最短的時間內(nèi)獲取原文主要思想,使閱讀變得更加高效。近年來,自動文摘系統(tǒng)作為一種強大的輔助工具,在網(wǎng)絡(luò)信息檢索、新聞、郵件和會議記錄等各個領(lǐng)域發(fā)揮了重要作用。然而大多數(shù)現(xiàn)有的自動摘要系統(tǒng)為不同的用戶生成相同的摘要,而未考慮到讀者的興趣點。這些“千篇一律”的摘要具有通用性,但無法很好地滿足用戶的個人需求,為此提出一種個性化自動文摘算法,來解決此問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種個性化自動文摘算法,具備利用計算機從原文中自動抽取摘要的方法可以使讀者在最短的時間內(nèi)獲取原文主要思想,使閱讀變得更加高效的優(yōu)點,解決了現(xiàn)有的自動摘要系統(tǒng)為不同的用戶生成相同的摘要,而未考慮到讀者的興趣點。這些“千篇一律”的摘要具有通用性,但無法很好地滿足用戶的個人需求的問題。
為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種個性化自動文摘算法,包括以下步驟:
步驟1:基于模糊聚類算法建模用戶興趣;
步驟2:根據(jù)數(shù)據(jù)建模、模糊三元聚類算法對社交標(biāo)簽網(wǎng)絡(luò)中的三類節(jié)點(文檔,用戶和標(biāo)簽)進行協(xié)同聚類;
步驟3:實驗結(jié)果與分析;
步驟4:基于卷積神經(jīng)網(wǎng)絡(luò)為句子打分;
步驟5:對使用卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)進行文本進行摘要抽取;
步驟6:實驗結(jié)果與分析;
步驟7:獲取用戶興趣點發(fā)現(xiàn);
步驟8:生成個性化自動摘要;
步驟9:實驗結(jié)果與分析。
優(yōu)選的,所述在步驟1中,根據(jù)用戶興趣為目標(biāo)文檔生成摘要,工作研究如何利用社會標(biāo)簽系統(tǒng)的三元網(wǎng)絡(luò)來增強網(wǎng)絡(luò)聚類,從而推斷用戶興趣,能產(chǎn)生包括用戶和標(biāo)簽的聚類結(jié)構(gòu)以及不同實體的聚類之間的關(guān)系等信息。
優(yōu)選的,所述在步驟2中,用戶節(jié)點和標(biāo)簽節(jié)點可以同樣建模,通過這種表示模型,通過任何基于矢量空間模型(VSM)的聚類方法將社交標(biāo)記網(wǎng)絡(luò)的三種類型的節(jié)點分別聚類。分別對這三種類型的節(jié)點進行聚類,可忽略了不同類型的節(jié)點之間的影響。在一個典型的社交標(biāo)簽系統(tǒng)中,語義相關(guān)的標(biāo)簽通常被分配給具有相似主題的文檔以及具有相似興趣的用戶;同樣,具有共同興趣的用戶通常使用語義相關(guān)的標(biāo)簽來標(biāo)注與局部相關(guān)的網(wǎng)頁,利用不同類型節(jié)點的類結(jié)構(gòu)之間的關(guān)系,該算法將聚類的數(shù)量作為輸入,并且隨機初始化模糊分類矩陣。基于每個類的committee計算其質(zhì)心向量,并通過計算每一輪迭代中對象與各類的質(zhì)心間的余弦相似度,更新對象的成員隸屬度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東恒宇信息科技有限公司,未經(jīng)廣東恒宇信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110497850.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





