[發明專利]一種基于圖數據庫的數字人文搜索方法有效
| 申請號: | 202010065328.7 | 申請日: | 2020-01-20 |
| 公開(公告)號: | CN111309944B | 公開(公告)日: | 2023-07-14 |
| 發明(設計)人: | 譚超;段飛虎;吳璟;丁琨;成鑫;馮自強;張宏偉 | 申請(專利權)人: | 同方知網數字出版技術股份有限公司 |
| 主分類號: | G06F16/532 | 分類號: | G06F16/532;G06F16/28 |
| 代理公司: | 北京天奇智新知識產權代理有限公司 11340 | 代理人: | 王澤云 |
| 地址: | 100084 北京市海淀區西小口路66號中關村東升科技園B-2號樓二層B201、*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據庫 數字 人文 搜索 方法 | ||
1.一種基于圖數據庫的數字人文搜索方法,其特征在于,包括:
A將數字人文的數據記錄按照粗細粒度,構建基于數字人文知識圖譜,并存儲在圖數據庫;
B對圖譜進行加權處理;
C意圖識別,將自然語言問句轉換成意圖表達式;
D利用圖搜索算法,在圖數據庫找到對應的實體和關系,并找到和命中實體/關系有關聯的實體及關系,取得分類,作為檢索條件,構造KSQL,查詢關系數據庫中得到檢索的結果集,對結果進行基于相關度排序,得到最終的相關度排序結果集;
E對排序算法進行優化;
F根據相關分類規則構建相關分類輔助檢索,在得到結果集后推出相關分類及下級分類;
G記錄檢索日志及瀏覽收藏歷史,回歸訓練,定時更新ffd值,保持數字人文數據的冷熱程度和權重占比;
所述C中:將文本作為一個實體在圖數據庫中按圖搜索算法,分別以全詞,近義詞,上位詞等順序優先精確匹配;
對問句進行分詞,降噪處理,去除對全文內容沒有影響的詞匯,對現有分詞結果的詞匯向已有的主題詞轉換,將主題詞自由組合,在圖譜里按圖搜索;具體分為單實體、多實體、實體和關系、單關系、多關系,在圖數據庫中優先匹配主題詞有直接相互關系的結果,按照實體的精確、同義詞、模糊、上位詞,先后順序并按照路徑查找算法取最短路徑;
所述E包括:
由于數字人文內容數據豐富,出現了很多同名不同義的主題詞,內容的冷熱程度也大相徑庭,導致對用戶意圖理解的偏差較大,因此可以采用檢索歷史及用戶偏好對已有數據進行歸一化處理;
ffd值的算法通過對一條記錄被檢索到的次數qn,被瀏覽的次數vn,被收藏的次數cn求出本條記錄所對應的權重值x,其算法為:
對ffd按照(0,1)標準化
優化后的排序打分為S=scord*ffd,即可得到數字人文冷熱數據相關度由高到底的排序;
所述F中:
使用圖數據庫NEO4J的深度檢索,其寫法為:
MATCH(n:`數字人文`)-[:TYPE*minHops..maxHops]-(m)return*
本算法每次查詢返回深度3的節點及關系,為用戶提供粗細三層的相關推薦;根據受眾的即時需求選擇性對檢索結果進行篩選,提供可能需要的數字人文信息,進行可視化展示;
相關分類規則:
自然語言問句識別意圖后,在數字人文圖譜中取得對應的分類編碼和屬性,根據節點和關系屬性,分為以下幾種情況:
(1)若實體屬于一個分類;
a判斷有無下位分類,無下位分類則不展示;有下位分類則進行下一步判斷;
b判斷該分類的相關分類狀態,相關分類狀態=0,則不展示該實體所屬分類的所有下位分類;相關分類狀態=1,則進行下一步判斷;
c判斷分類類別屬性是否為空,非空,先展示類別屬性名,再顯示該實體所屬分類的所有下位分類;為空,則直接顯示該實體所屬分類的所有下位分類;
(2)若實體屬于多個分類;
a基于相關分類狀態和分類類別屬性進行判斷,若相關分類狀態=0,則相關分類不展示該實體的下位分類;
b反之,判斷跨分類狀態;若跨分類狀態=1,且分類類別屬性為空,則相關分類顯示該實體的下位分類;
c若跨分類狀態=1,且分類類別屬性不為空,則相關分類先展示類別屬性再展示其下位分類;
d若跨分類狀態=0,且分類類別屬性為空,相關分類顯示本級分類及其下位分類;
e若跨分類狀態=0,且分類類別屬性不為空,則相關分類先展示類別屬性再展示其下位分類;
(3)若實體不屬于分類且含包含關系;
(4)若檢索詞為關系且與其相關的上位實體有多個時,補充關系的上位實體并展示該關系分類所有的下位分類;
(5)若檢索詞為關系,且與其相關的上位實體僅為一個時,若相關分類狀態=0,則隱藏“相關分類”欄目;反之,判斷分類類別屬性是否為空,若是,展示其所有的下位分類,若否,先展示類別屬性再展示其下位分類;
(6)檢索詞為一個類別的情況;
(7)檢索詞為多個實體/關系的情況;
將檢索語句切分成不同的實體和關系,基于分類層級關系顯示相關分類狀態。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同方知網數字出版技術股份有限公司,未經同方知網數字出版技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010065328.7/1.html,轉載請聲明來源鉆瓜專利網。





