[發明專利]基于偽種子屬性和隨機漫步排序的語義屬性自動抽取方法及實現該方法的系統有效
| 申請號: | 201210118461.X | 申請日: | 2012-04-20 |
| 公開(公告)號: | CN102663123A | 公開(公告)日: | 2012-09-12 |
| 發明(設計)人: | 楊沐昀;孫叔琦;李生;趙鐵軍 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 哈爾濱市松花江專利商標事務所 23109 | 代理人: | 張宏威 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 種子 屬性 隨機 漫步 排序 語義 自動 抽取 方法 實現 系統 | ||
技術領域
本發明涉及信息檢索技術領域,具體涉及語義檢索技術。本發明旨在從查詢日志中自動識別命名實體的屬性詞,其結果可以作為一種知識庫應用于檢索過程中的查詢推薦、詞義消歧、結果重排序等子任務。
背景技術
語義檢索是一種新興的網頁檢索需求。萬維網的豐富內容中蘊含著大量的語義知識,而深入挖掘這些知識,將使得現有的基于關鍵詞的網頁檢索系統朝著“語義化”的方向轉變。雖然基于現有計算機技術對自然語言充分理解還不現實,現有工作對萬維網語義信息挖掘得并不充分,但是依然有相當數量的網頁檢索應用可以從較易挖掘的語義知識中獲益,語義屬性即為其中一種。
語義屬性描述了給定實體所具備的基本性質,例如“首都”是“中國”的屬性、“價格”是“佳能5D?MarkII”(一種數碼相機)的屬性,等等。嚴格地說,這種語義屬性一般附著于一個更加完整的語義類,而不僅僅是某個單獨個體。所謂語義類是一個名實體的集合,由若干共享共一個上下位關系的名實體構成。例如“國家”這個語義類中包含“中國”、“美國”、“俄羅斯”等。也就是說,語義屬性抽取的研究主要關注一類實體所共有的屬性。例如“國家”的屬性包括“首都”、“人口”、“面積”等等。
在具體技術手段上,語義屬性詞的自動識別(也稱為語義屬性自動抽取,本申請中也常使用這種說法)的現有手段一般是根據事先給定的少量“種子”屬性,對其所處的上下文建立模型。而后,對于處于相似上下文中的詞語,根據其上下文與種子屬性的上下文間的相似度,對這些詞語進行篩選。最后,選取列表中的前N個詞語作為語義屬性詞的輸出結果。研究表明,這種基于上下文相似度的方法具有一定自由度和自適應性,且依賴的指導信息更少。
查詢日志作為語義屬性詞自動識別的一個新知識源,近年來受到較多的關注,例如:文獻[1]:Pasca?M.2007.Organizing?and?searching?the?World?Wide?Web?of?facts-step?two:harnessing?the?wisdom?of?the?crowds.In?Proceedings?ofthe?16th?International?World?Wide?Web?Conference.101-110;文獻[2]:Pasca?M.and?Durme?B.2007.What?you?seek?is?what?you?get:extraction?of?class?attributes?from?query?logs.In?Proceedings?ofthe?20th?International?Joint?Conference?on?Artificial?Intelligence.2832-2837;文獻[5]:Pasca?M.,Alfonseca?E,Robledo-Arnuncio?E,Martin-Brualla?R.,and?Hall?K.2010.The?role?of?query?sessions?in?extracting?instance?attributes?from?Web?search?queries.In?Proceedings?ofthe?32nd?European?Conference?on?Information?Retrieval.62-74;文獻[6]:Alfonseca?E,Pasca?M.,and?Robledo-Arnuncio?E.2010.Acquisition?of?instance?attributes?via?labeled?and?related?instances.In?Proceedings?ofthe?33rd?Annual?International?A?CM?SIGIR?Conference?onResearch?and?Development?in?Information?Retrieval.58-65;文獻[7]:Pasca?M.and?Durme?B.2008.Weakly-supervised?acquisition?of?open-domain?classes?and?class?attributes?from?Web?documents?and?query?logs.In?The?46th?Annual?Meeting?ofthe?Association?for?Computational?Linguistics.19-27等。其中,文獻[1](題名譯文:在WWW網絡中組織與檢索事件-第二步:駕馭群體智能)指出,查詢日志中的查詢文本蘊含著用戶的既有知識。當用戶需要獲取新知識的時候,會利用這些知識來構造查詢。具體到語義屬性抽取工作上,當用戶想要知道某個實體的某項屬性,例如某種疾病的“癥狀”的時候,必然會構造形如“某疾病癥狀”的查詢。如果可以從大量用戶提交的查詢文本中收集這樣的知識,那么就能構造出一個基于搜索用戶群體知識的語義屬性庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210118461.X/2.html,轉載請聲明來源鉆瓜專利網。





