[發明專利]一種銀行績效系統問答機器人語料的構建方法、系統在審
| 申請號: | 202110630082.8 | 申請日: | 2021-06-07 |
| 公開(公告)號: | CN113486137A | 公開(公告)日: | 2021-10-08 |
| 發明(設計)人: | 嚴泳鍵;王星;岑藝永;趙宏鑫;鐘璐巒 | 申請(專利權)人: | 廣發銀行股份有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33;G06F16/332;G06F16/36;G06F16/951;G06F40/284 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 陳旭紅;晏靜文 |
| 地址: | 510080 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 銀行 績效 系統 問答 機器人 語料 構建 方法 | ||
本發明提供一種銀行績效系統問答機器人語料的構建方法及系統,所述方法包括:通過網絡爬蟲模型爬取第一服務器的需求文檔;對所述需求文檔進行預處理,生成文本單元;其中,上述預處理包括:小寫字符轉換及標點移除;通過預設規則提取所述文本單元的關鍵詞組;根據所述關鍵詞組構建績效專業知識圖譜。本發明通過通過NLP(自然語言處理)對文檔中的關鍵字進行提取,無需人工介入;通過知識推理來構建知識圖譜,即是生成專業性極強的銀行績效考核相關內容,語法、內容無異于自然語言,質量得到保證;績效專業詞語是通過大量需求文檔內容來抽取生成,而這部分需求文檔則是需求人員通過長期的調研、挖掘而沉淀出來。
技術領域
本發明涉及人工智能技術領域,特別是涉及一種銀行績效系統問答機器人語料的構建方法及系統。
背景技術
隨著人工智能技術的發展,智能問答機器人系統也逐漸興起。智能問答機器人需要大量的語料來訓練,才能提高應答的準確率。目前主流的語料生成工具主要由語料庫實體和語料庫引擎組成,其中語料庫實體的內容主要是詞表,即主謂賓等詞匯,語料庫引擎的功能包括詞頻統計、關鍵詞索引等,其實現方式是語料庫引擎通過對語料庫實體進行計算,進而生成我們所需的語料。
但是,現有的問答機器人所使用的語料庫實體需要人工去收集,人工收集的數量很大程度上決定了最終語料的數量與質量;人工收集的語料庫,并不能實現同義詞、相近詞的聯想,換言之語料某程度上也只是詞庫的排列組合;針對專業性強的語料,詞庫的收集整理需要專業人員耗費大量時間收集整理,而語料庫引擎對這些語料實體進行分詞時可能會跟自然語言不一樣,這樣就導致最終的語料跟預期相差甚遠,需要重新調整引擎的模型和算法,增加了大量的工作量。
發明內容
本發明提供一種銀行績效系統問答機器人語料的構建方法及系統,通過爬蟲技術智能收集語料并進行自動整理,解決現有技術中人工收集語料的弊端。
本發明一個實施例提供一種銀行績效系統問答機器人語料的構建方法,包括:
通過網絡爬蟲模型爬取第一服務器的需求文檔;
對所述需求文檔進行預處理,生成文本單元;其中,上述預處理包括:小寫字符轉換及標點移除;
通過預設規則提取所述文本單元的關鍵詞組;
根據所述關鍵詞組構建績效專業知識圖譜。
進一步地,所述通過預設規則提取所述文本單元中關鍵詞組,包括:
通過自然語言處理技術對上述文本單元進行處理,生成若干詞組及任意兩個詞組間的關系;
將所屬若干詞組及所述詞組間的關系構建成有權無向圖;其中,所述詞組為所述有權無向圖的頂點,所述詞組間的關系為有權無向圖的邊;
通過倒序排序方式對上述頂點進行排序,排名滿足預設規則的詞組標記為關鍵詞組;
提取所述關鍵詞組。
進一步地,所述通過倒序排序方式對上述頂點進行排序,排名滿足預設規則的詞組標記為關鍵詞組,包括:
計算所述頂點的權值;
以遞減的方式對所述權值進行排列,生成權值排列規則;
根據所述權值排列規則對應排列頂點。
進一步地,所述根據所述關鍵詞組構建績效專業知識圖譜之后還包括:
獲取問題語料數據的主題詞;
將所屬主題詞輸入值問題生成模型,輸出的響應數據;
將所述響應數據作為所述問題列表的應答數據,所述應答數據與所述問題列表關聯構成所述主題詞的問答語料數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣發銀行股份有限公司,未經廣發銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110630082.8/2.html,轉載請聲明來源鉆瓜專利網。





