[發明專利]一種老年健康領域知識問答系統構建方法在審
| 申請號: | 201811325709.3 | 申請日: | 2018-11-08 |
| 公開(公告)號: | CN109471948A | 公開(公告)日: | 2019-03-15 |
| 發明(設計)人: | 初佃輝;高見;李春山;申義;黎陽;王濤 | 申請(專利權)人: | 威海天鑫現代服務技術研究院有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F16/951;G06F16/332;G06F17/27;G16H70/00 |
| 代理公司: | 威海恒譽潤達專利代理事務所(普通合伙) 37260 | 代理人: | 亢會曉 |
| 地址: | 264209 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 老年健康 領域知識 問答系統 構建 自動問答系統 檢索用戶 領域數據 醫療健康 準確度 算法 存儲 融合 健康 | ||
1.一種老年健康領域知識問答系統構建方法,其特征在于:包括以下步驟:
(1)建立老年健康領域數據模型
通過百科網站和醫療健康的網站提取用戶對老年科的疾病所提的問題,根據老年科的疾病所提的問題建立老年健康領域數據模型;
(2)老年健康領域知識的獲取
通過老年健康領域數據模型抽取老年健康領域結構化數據、半結構化數據和非機構化數據的實體與關系;
(3)老年健康領域知識的融合
將從老年健康領域數據模型不同源抽取到的老年健康領域的實體和關系進行融合,所述老年健康領域的實體和關系進行融合的主要原則為選擇來源更可信的知識以及選擇來源更多的知識;
(4)老年健康領域知識的存儲
通過三元組的方式對步驟(3)選取的實體和關系進行存儲以構建老年健康領域知識圖譜;
(5)自動問答系統算法
根據用戶數據輸入問題的類別、用戶歷史問答信息和老年健康領域的知識圖譜提供構建老年健康領域知識問答系統。
2.根據權利要求1所述的老年健康領域知識問答系統構建方法,其特征在于:所述老年健康領域數據模型抽取老年健康領域的半結構化數據實體和關系的方法為:
首先,所述結構化數據通過D2R的映射將表名轉化成對應的實體,其次,所述結構化數據通過D2R的映射將行數據的主鍵轉化成資源的主鍵,最后,所述結構化數據通過D2R的映射將列數據及外鍵數據轉化成對應的屬性形成三元組數據。
3.根據權利要求1所述的老年健康領域知識問答系統構建方法,其特征在于:所述老年健康領域數據模型抽取老年健康領域的半結構化數據實體和關系的方法為:
所述半結構化數據通過包裝器從百科網站數據和老年健康相關網站的頁面進行分析后爬取實體和關系。
4.根據權利要求1所述的老年健康領域知識問答系統構建方法,其特征在于:所述老年健康領域數據模型抽取老年健康領域的非結構化數據實體和關系的方法為:
所述非結構化數據通過斯坦福自然語言處理NLP工具進行分詞并使用實體鏈接技術將文本中候選實體鏈接到本地的知識庫,當不存在斯坦福自然語言處理NLP工具進行分詞的實體時,所述非結構化數據通過命名實體識別進行實體的抽取。
5.根據權利要求4所述的老年健康領域知識問答系統構建方法,其特征在于:所述結構化數據通過命名實體識別進行實體的抽取的方法為:通過基于統計學的方法將老年健康領域數據模型中識別實體間關系的問題轉化為分類問題,以老年健康領域數據模型中實體之間關系作為標簽,以老年健康領域數據模型中兩個實體之間的關系作為訓練樣本,選取合適的特征,放入到分類模型中進行訓練。
6.根據權利要求4所述的老年健康領域知識問答系統構建方法,其特征在于:所述非結構化數據的實體和關系抽取的主要步驟為:
(1)文本數據預處理
對老年健康領域數據模型數據庫中的文章數據通過Standford NLP工具以每個句子為單位進行解析,所述解析結果存放到sentences表中為后續特征抽取做準備;
(2)候選實體抽取
以句為單位抽取老年健康領域數據模型數據庫文本中的候選實體;
(3)候選實體對生成
篩選出在同句中的不同實體,生成候選實體對;
(4)特征抽取
抽取候選實體對的文本特征;
(5)樣本標注
通過人工根據健康領域知識進行實體關系的部分標注;
(6)利用標注好的數據訓練分類模型,進行迭代訓練;
(7)利用訓練好的模型,結合步驟(4)所形成的候選實體對的特征信息進行信息的抽取。
7.根據權利要求1-6任意一項所述的老年健康領域知識問答系統構建方法,其特征在于:所述老年健康領域的實體和關系進行融合的方法為:利用養老服務領域中的實體的余弦相似度進行比較,當其難以準確判別時,利用屬性信息相似度的方法判定異構知識來源中的實體是否可以對齊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于威海天鑫現代服務技術研究院有限公司,未經威海天鑫現代服務技術研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811325709.3/1.html,轉載請聲明來源鉆瓜專利網。





