[發(fā)明專利]基于改進的PageRank算法的文本-音頻自動文摘方法有效
| 申請?zhí)枺?/td> | 201710195609.2 | 申請日: | 2017-03-28 |
| 公開(公告)號: | CN107015966B | 公開(公告)日: | 2019-07-19 |
| 發(fā)明(設(shè)計)人: | 張家俊;李浩然;周玉;宗成慶 | 申請(專利權(quán))人: | 中國科學院自動化研究所 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G10L15/26 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 任巖 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 改進 pagerank 算法 文本 音頻 自動 文摘 方法 | ||
本發(fā)明提供了一種基于改進的PageRank算法的文本?音頻自動文摘方法,包括:將音頻轉(zhuǎn)錄為文本,計算轉(zhuǎn)錄文本和原始文本的相似度;利用改進的PageRank算法根據(jù)相似度計算轉(zhuǎn)錄文本和原始文本中的句子的重要性;以及根據(jù)句子的重要性,生成文本摘要。通過改進PageRank算法,引導排序,修改了跨模態(tài)句子之間的相似度矩陣,使得來自不同模態(tài)的兩個語義相同的句子之間的連接指向從原來的雙向變?yōu)閱蜗?,實現(xiàn)了原始文本句子與轉(zhuǎn)錄文本句子語義相同時,按照原始文本句子進行輸出,在保證獲取較多重要信息量同時,避免了轉(zhuǎn)錄帶來的語法錯誤和不通順的問題,提高了文本?音頻自動文摘的可讀性。
技術(shù)領(lǐng)域
本發(fā)明屬于自然語言處理和語音處理技術(shù)領(lǐng)域,涉及一種基于改進的PageRank算法的文本-音頻自動文摘方法。
背景技術(shù)
隨著網(wǎng)絡(luò)時代到來,多媒體信息包括文本文檔、音頻等信息隨處可見。有效地分析相關(guān)的文本與音頻信息,并盡可能多的獲取其中的重要信息,以文本摘要的形式呈現(xiàn)給用戶,有助于幫助用戶僅通過文本摘要便可獲取關(guān)鍵信息,實現(xiàn)便捷、高效的信息獲取。對于一系列和某一信息事件相關(guān)的文本與音頻,目前常見做法是首先通過自動語音識別系統(tǒng)將音頻轉(zhuǎn)錄為文本,然后將其與原始文本文檔一起,通過傳統(tǒng)的多文檔自動摘要方法,生成文本摘要。上述方法相較單獨從原始文本獲取信息的方式來說,轉(zhuǎn)錄了語音信息中的相關(guān)信息,且這些信息不會被原始文本文檔完全覆蓋,有助于提高獲取的信息量,然而自動語音識別存在很多錯誤,其生成的轉(zhuǎn)錄文本的通順性較差、存在較多語法錯誤,因而可讀性較差。因此在盡可能保證獲取較多重要信息量的同時,改善現(xiàn)有的文本-音頻自動文摘可讀性差的情況,是目前需要解決的技術(shù)問題。
發(fā)明內(nèi)容
(一)要解決的技術(shù)問題
本發(fā)明提供了一種基于改進的PageRank算法的文本-音頻自動文摘方法,以至少部分解決以上所提出的技術(shù)問題。
(二)技術(shù)方案
根據(jù)本發(fā)明的一個方面,提供了一種基于改進的PageRank算法的文本-音頻自動文摘方法,包括:將音頻轉(zhuǎn)錄為文本,計算轉(zhuǎn)錄文本和原始文本的相似度;利用改進的PageRank算法根據(jù)相似度計算轉(zhuǎn)錄文本和原始文本中的句子的重要性;以及根據(jù)句子的重要性,生成文本摘要。
優(yōu)選地,改進的PageRank算法的公式如下:
其中,μ為平滑因子;u(ci)為ci的重要性得分;u(cj)為cj的重要性得分;Mij為ci與cj的相似度;N為句子總數(shù);ci表示轉(zhuǎn)錄文本中的任意一個句子;cj表示原始文本中的任意一個句子;其中,改進的PageRank算法中Mij的定義如下:定義跨模態(tài)句子之間的相似度矩陣為或其中,表示cj傳遞給ci的得分權(quán)重矩陣,表示ci傳遞給cj的得分權(quán)重矩陣;矩陣中每個參數(shù)的取值Mij或Mji為計算出來的ci與cj兩個句子的相似度,對于語義相同的句對,保持不變;對于在原始文本中找不到語義相同的轉(zhuǎn)錄文本句子,其相似度矩陣不變。
優(yōu)選地,利用改進的PageRank算法根據(jù)相似度計算轉(zhuǎn)錄文本和原始文本中的句子的重要性包括:對來自轉(zhuǎn)錄文本和原始文本兩個模態(tài)的句子根據(jù)相似度大于設(shè)定閾值來尋找語義相同的句對;定義改進的PageRank算法中兩個模態(tài)的句子之間相似度矩陣或矩陣中每個值為Mij或Mji,表示ci與cj的相似度;以及利用改進的PageRank算法來計算每個句子的重要性得分,進行迭代遞歸,直到得分穩(wěn)定為止。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學院自動化研究所,未經(jīng)中國科學院自動化研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710195609.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種鼠標線纏繞器
- 下一篇:一種視覺傳達用多功能手繪板





