[發(fā)明專利]旅游領域FAQ中文問答系統(tǒng)實現(xiàn)方法無效
| 申請?zhí)枺?/td> | 200810058660.X | 申請日: | 2008-07-10 |
| 公開(公告)號: | CN101373532A | 公開(公告)日: | 2009-02-25 |
| 發(fā)明(設計)人: | 余正濤;毛存禮;韓露;孟祥燕;郭劍毅;車文剛;張志坤 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06Q30/00 | 分類號: | G06Q30/00;G06F17/30 |
| 代理公司: | 昆明正原專利代理有限責任公司 | 代理人: | 徐玲菊 |
| 地址: | 650093云南*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 旅游 領域 faq 中文 問答 系統(tǒng) 實現(xiàn) 方法 | ||
技術領域
本發(fā)明涉及一種旅游領域FAQ中文問答系統(tǒng)實現(xiàn)方法,尤其是一種基于旅游領域常問問題庫(FAQ)的問答系統(tǒng)實現(xiàn)方法,屬于人工智能領域。
背景技術
常問問題FAQ(Frequently-asked?Question)是當前網(wǎng)絡上提供在線幫助的主要手段,通過事先組織好一些可能的常問問答對,發(fā)布在網(wǎng)頁上為用戶提供咨詢服務。FAQ知識組織簡單、維護方便,但是,隨著常問問題集的逐漸積累,問題數(shù)量日益增多,逐頁瀏覽式的知識獲取途徑將越來越難于滿足用戶的實際需求,將會浪費用戶大量的寶貴時間,甚至當用戶訪問了所有鏈接時才發(fā)現(xiàn)根本沒有自己真正需要的信息,耗時費力。
發(fā)明內容
本發(fā)明的目的正是為解決上述問題而提供一種旅游領域FAQ中文問答系統(tǒng)實現(xiàn)方法,以高效,快速、準確地為用戶提供咨詢服務。
本發(fā)明通過下列技術方案完成:一種旅游領域FAQ中文問答系統(tǒng)實現(xiàn)方法,其特征在于包括:
(1)FAQ收集與組織:結合人工或半自動方式從互聯(lián)網(wǎng)上提取旅游問答對,并整理進入旅游問答庫,形成旅游FAQ庫;
(2)旅游領域知識庫構建:構建并維護旅游領域知識結構及關系,形成旅游領域知識庫;
(3)用戶查詢:在互聯(lián)網(wǎng)上,用戶通過自然語言問題進行旅游信息查詢;
(4)問題分析:對用戶輸入的問題進行分析,提取表征問題的關鍵詞、擴展詞、句法依存對、問題類型等信息;
(5)答案提?。焊鶕?jù)問題分析結果,從常問問題庫(FAQ)中提檢索侯選問題,采用領域問題相似度計算方法,計算用戶問題與侯選問題相似度,提取相似度最大的問題答案作為侯選答案,并提供給用戶,返回最終用戶查詢答案;用戶可以提供面向文本的自然語言問題,系統(tǒng)直接返回答案,而不是和問題相關的大量網(wǎng)頁。
所述步驟(1)FAQ收集與組織方法具體為:第一種通過網(wǎng)絡爬蟲從互聯(lián)網(wǎng)上自動爬取,并通過人工篩選進入FAQ庫;第二種是通過人工收集與整理獲得,針對旅游領域,專門收集地方、景點、風土人情、酒店等相關介紹、門票、交通等相關問題,分類整理和組織FAQ問答對并進入FAQ庫;第三種則是由系統(tǒng)自動記錄用戶輸入但在問句庫中不存在的新問句,并把這類問句統(tǒng)一保存到問答歷史庫中,定期由人工審核整理,把對應的答案和問句一起入FAQ庫。
所述FAQ的問答對的存儲通過建立問題(question)和答案(answer)兩個關系表,分別通過主鍵(Questionid,Answerid)進行答案索引;問題表的存儲,為了便于快速檢索,采用倒排索引方式進行存儲,建立詞與問句之間的倒排索引文檔,候選問題集的選擇從索引文檔中提取,而最終答案則根據(jù)問題表中存放的答案answerid從數(shù)據(jù)庫中直接輸出。
所述步驟(2)主要利用了本體論的思想,借助現(xiàn)有的中科院院語言信息中心董振東先生的“知網(wǎng)”進行領域術語的擴展。
所述步驟(2)具體為:借助本體論的思想對云南旅游領域資源的概念進行精確描述,以“知網(wǎng)”為基礎,采用“知網(wǎng)”的概念描述語言KDML規(guī)則,建立了專門的云南旅游領域本體,形成云南旅游領域資源本體庫領域知網(wǎng)體系,并實現(xiàn)了云南旅游知識庫“領域知網(wǎng)”與常識知識庫“知網(wǎng)”的融合。目前共對云南旅游景點介紹、風土民情、旅游交通等旅游相關2012個概念進行了定義和描述,形成了云南旅游領域“知網(wǎng)”。
因為相對于開放域來說,受限域具有一定的領域知識特點,借助于領域知識關系能夠降低自然語言處理的難度。本體論(Ontology)是一種對概念的精確描述,特別是對領域概念的描述,是一種很好的領域知識表示方式。本體通過對概念、術語及其相互關系的規(guī)范化描述,勾畫出某一特定領域的基本知識體系結構?!爸W(wǎng)”HowNet是一部通用常識資源,其描述了漢語和英語的詞語所代表的概念,揭示概念與概念之間以及概念所具有的屬性和屬性之間的關系。借助本體論的思想對旅游領域資源的概念進行精確描述,以“知網(wǎng)”為基礎,采用“知網(wǎng)”的概念描述語言KDML規(guī)則,建立了專門的旅游領域本體,形成旅游領域資源本體庫領域知網(wǎng)體系,并實現(xiàn)了旅游知識庫“領域知網(wǎng)”與常識知識庫“知網(wǎng)”的融合。目前共對云南旅游景點介紹、風土民情、賓館酒店、旅游交通等旅游相關2012個概念進行了定義和描述,形成旅游領域知識庫。
所述步驟(3)具體為:用戶可以通過互聯(lián)網(wǎng)進行相關旅游領域問題查詢,采用自然語言方式進行查詢,并直接得到問題的答案。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經(jīng)昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810058660.X/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





