[發明專利]一種基于圖譜模型的話題探測系統有效
| 申請號: | 201410326508.0 | 申請日: | 2014-07-10 |
| 公開(公告)號: | CN104050302B | 公開(公告)日: | 2017-05-24 |
| 發明(設計)人: | 林欣;趙昂;楊靜;賀樑 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 上海藍迪專利商標事務所(普通合伙)31215 | 代理人: | 徐筱梅,張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 圖譜 模型 話題 探測 系統 | ||
1.一種基于圖譜模型的話題探測系統,其特征在于該系統包括預處理模塊、圖譜結構構造模塊和子圖探測模塊,其中:
預處理模塊:對語料庫的分句、分詞、命名實體識別和依存句法解析的預處理;
圖譜結構構造模塊:用于構造表示原型的圖譜結構,圖譜結構為一個無向圖,其頂點為語料庫的詞項,其邊緣為詞對之間的相關度,根據詞是否為實體詞、詞對之間是否存在依存關系以及詞對之間的距離間隔賦予詞對之間的相關度以不同的權值,構造以實體詞為圖譜中心即話題中心的無向圖;其中,詞對之間的相關度定義如下:
根據詞對(vi,vj)是否有實體詞和詞對之間是否存在依存關系,計算詞對的依存相關度和自然距離相關度:
1)如果詞對(vi,vj)存在依存關系,則其依存相關度值為:
其中maxLen為常數,代表最大句子長度,dis是詞對在句子中的間隔距離,λ是平滑參數;當詞對(vi,vj)中至少有一個是實體詞,λ=λ1;或者λ=λ2,vi,vj都不是實體詞;其中λ1,λ2滿足條件0<λ2<λ1<1,e為自然對數底數常數,λ1,λ2為阻尼系數;
2)當詞對不存在依存關系,定義詞對的自然距離相關度如下:
其中dis是詞對在句子中的間隔距離;
對相同詞對多次出現,則對其求和,作為圖譜中詞對(vi,vj)的最終相關度:
其中
式中表示詞對在語料庫中共現的次數,為依存相關度和自然距離相關度的權重設置參數,N表示語料庫中詞匯集合的大小;
子圖探測模塊:探測圖譜中相似的結點,并將相似的結點聚到相同的簇中,得到話題探測結果;具體包括:
1)對圖譜結構進行子圖劃分,采用譜聚類算法進行子圖探測、劃分,得到每個簇的詞列表;
2)得到詞列表后,根據詞所在行向量的最終相關度值求和作為該詞的權值,再進行排序,取top-M作為話題探測結果,M為正整數;其中,詞vi的權值定義為
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410326508.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:瓶
- 下一篇:金屬板帶剪切焊接一體機





