[發(fā)明專利]面向微博的情感實體搜索系統(tǒng)有效
| 申請?zhí)枺?/td> | 201310461443.6 | 申請日: | 2013-09-29 |
| 公開(公告)號: | CN103544242A | 公開(公告)日: | 2014-01-29 |
| 發(fā)明(設計)人: | 郝志峰;溫雯;蔡瑞初;杜慎芝;陸印章;程杰 | 申請(專利權)人: | 廣東工業(yè)大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510006 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 情感 實體 搜索 系統(tǒng) | ||
技術領域
本發(fā)明涉及文本情感挖掘及信息檢索領域,具體涉及一種面向微博的情感實體搜索系統(tǒng),屬于面向微博的情感實體搜索系統(tǒng)的創(chuàng)新技術。
背景技術
近年來,隨著互聯(lián)網和社交網絡的發(fā)展,包括微博在內的社交網絡數(shù)據(jù)正以指數(shù)形式快速增加。微博的不斷增長使得人們可檢索的信息越來越豐富,但是海量的微博數(shù)據(jù)也使得人們難以迅速、準確地找到所需要的信息。同時,由于微博行文上的自由性,情感信息的抽取相對于傳統(tǒng)文本更為困難,在對輿情監(jiān)控和產品調研行業(yè)具有重要意義的微博情感信息檢索領域,目前還未見成熟的技術和系統(tǒng)。
面向微博的情感實體搜索方法和系統(tǒng)主要涉及三類相關的關鍵背景技術。其一為查詢擴展技術;其二為情感實體抽取技術;其三為情感極性判別技術。以下分別對上述三類背景技術分別加以闡述和分析。
1查詢擴展技術
直接通過關鍵詞進行查詢的傳統(tǒng)檢索系統(tǒng)或搜索引擎可以獲得一些相關的檢索結果,但是這種利用簡單匹配的方式查找的結果較為機械,不能真正理解用戶的查詢意圖,返回的結果也就無法讓人滿意。因此尋找一種方法可以很好的理解用戶的查詢意圖,提高檢索的查準率和查全率成為解決上述問題的熱點。查詢擴展技術正是這樣的一種方法。通過查詢擴展可以更準確的理解用戶查詢需求,幫助用戶更快更準確地獲得需要的信息。經典的查詢擴展方法主要包括基于全局分析、基于局部分析、基于用戶查詢日志和基于關聯(lián)規(guī)則四種。近年,有學者提出基于本體(或領域本體)和語義網的查詢擴展方法。
基于全局分析的查詢擴展方法是通過挖掘全部數(shù)據(jù)集或整個數(shù)據(jù)庫的文檔中的詞語相關度進行擴展的。其優(yōu)點在于可以對整個數(shù)據(jù)集進行充分的分析,能夠了解文檔的方方面面;其缺點是,由于通常的數(shù)據(jù)集都過大,因此對分析的時間和設備的要求都很高,更不可能在線完成。現(xiàn)有的檢索系統(tǒng)都是在離線完成全局詞語的分析,對于需求實時的搜索引擎更是難以采用這種方法。
基于局部分析的方法包括相關反饋與偽相關反饋兩種。相關反饋即是先通過用戶初始查詢,得到檢索結果,然后再由用戶人工判斷結果文檔的相關與不相關,分放于兩個不同的文檔集。這樣就獲得了標記的相關文檔,作查詢擴展前只需要對這些文檔進行詞語分析即可。這樣做的優(yōu)點是只處理相關部分的文檔,使得文檔數(shù)量減少了,而且相關度也會有說提升;其缺點是需要大量的人工反饋,這需要大量的人力,而且仍然需要大量的實驗進行調試處理。這樣現(xiàn)有的檢索系統(tǒng)或搜索引擎少有采用這種方法的。
偽相關反饋方法是利用用戶初次查詢獲得的前n篇結果進行分析,其理論假設是認為結果中與查詢詞相關的文檔會出現(xiàn)在檢索的最前面,也就是認為這些文檔就是相關度最高的文檔,通過分析這些文檔獲得擴展詞并進行查詢擴展。專利申請?zhí)枮镃N20091032193.5,發(fā)明名稱為“查詢擴展方法及查詢擴展系統(tǒng)”就是利用偽相關反饋的專利例子。其主要思想是通過將用戶初次查詢所得結果靠前的部分文檔通過聚類分析并生成簇,對簇進行排序后,再從排名在前一定數(shù)目的簇中提取擴展詞,把所得的擴展詞添加到原查詢中,形成擴展詞結合然后進行二次檢索。這種方法的缺點是在于不能保證初次查詢的靠前的文檔就是相關的,如果是不相關的話,得出的擴展詞可能會使得二次檢索的結果更不相關,檢索性能就會降低。
基于用戶查詢日志的方法是現(xiàn)在搜索引擎通用的一種擴展方法,該方法是通過對用戶的查詢日志進行詞語分析,將共現(xiàn)的詞語作為擴展詞。專利申請?zhí)枮镃N200710097501.6,發(fā)明名稱為“查詢擴展方法和裝置以及相關檢索詞庫”和專利申請?zhí)枮镃N200810115470.7,發(fā)明名稱為“一種擴展查詢的方法、裝置及搜索引擎系統(tǒng)”就是對用戶輸入的查詢詞進行分析得到相關的詞語,然后將這些詞語作為擴展詞。這種擴展方法首先也需要獲得大量的查詢日志,這需要一個積累的過程。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業(yè)大學,未經廣東工業(yè)大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310461443.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:洗衣液組合物
- 下一篇:用于生產具有光反射特性的制品的聚合物組合物





