[發明專利]一種用于輔助調查訪談的語料庫積累方法有效
| 申請號: | 202011089200.0 | 申請日: | 2020-10-13 |
| 公開(公告)號: | CN112214586B | 公開(公告)日: | 2022-06-28 |
| 發明(設計)人: | 姚占雷;周謙豪;許鑫 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G10L15/26;G06N20/00;G06F40/194;G06F16/31 |
| 代理公司: | 上海藍迪專利商標事務所(普通合伙) 31215 | 代理人: | 徐筱梅;張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 輔助 調查 訪談 語料庫 積累 方法 | ||
本發明公開了一種用于輔助調查訪談的語料庫積累方法,其特點是采用領域語料向通用語料有條件轉化的積累機制的方法,將頻繁出現新的相似語料的領域語料轉化為通用語料,其情景化的語料庫積累具體包括:接收用戶輸入、通用語料的追加積累、領域情景語料的追加積累和領域語料向通用語料有條件轉化的積累等步驟。本發明與現有技術相比具領域語料庫和通用語料庫分離并存,進一步明確領域專有語料的邊界,降低建立基于專家知識的規則的信息抽取系統的成本,有助于提供包含領域針對性的訓練數據,提高基于機器學習的信息抽取系統的準確率,為實現情景化的調查訪談輔助系統提供數據基礎。
技術領域
本發明涉及自然語言處理技術領域,尤其是一種基于領域情景訪談語料的用于輔助調查訪談的語料庫積累方法。
背景技術
調查訪談資料的后續處理一般依賴于調查人員手工完成。隨著科技發展,訪談資料的記錄和初步整理工作可以交由具備音頻錄制功能的軟硬件和語音識別轉寫程序完成。
目前,相關的調查訪談輔助系統大多采用通用語料庫,基于常見通用語料進行規則定義或機器學習實現,通用語料庫為用于存儲適用于大多數訪談場景的不同問句和對應的答句列表的數據庫或數據表,該訪談輔助技術對一般通用場景下的訪談語音轉換、處理和分析效果較佳。但對特定專有領域的訪談語音處理,由于領域情景語料的匱乏,情景化的訪談資料的轉寫處理難以實現,訪談語音轉換、處理及分析效果一般。領域情景語料庫為用于存儲適用于特定類型的訪談場景的不同問句、其相似次數和對應的答句列表的數據庫或數據表。由于領域情景語料的匱乏,尤其專門的領域訪談語料庫更為匱乏。
現有技術的自然語言處理缺少可以針對性地采集處理領域情景訪談語料,專門的領域訪談語料庫目前較為匱乏。因此,現有的訪談輔助技術對一般通用場景下的訪談語音轉換、處理和分析效果較佳,但對特定專有領域的訪談語音處理效果很差。
發明內容
發明的目的是針對現有技術的不足而設計的一種用于輔助調查訪談的語料庫積累方法,采用領域語料向通用語料有條件轉化的積累機制的方法,實現針對特定訪談場景的領域情景語料的積累,以及結合相似語料的出現頻率和用戶設定閾值將頻繁出現新的相似語料的領域語料轉化為通用語料,使得領域語料庫和通用語料庫分離并存,進一步明確領域專有語料的邊界,降低建立基于專家知識的規則的信息抽取系統的成本,也有助于提供包含領域針對性的訓練數據,提高基于機器學習的信息抽取系統的準確率,為實現情景化的調查訪談輔助系統提供數據基礎。
本發明的目的是這樣實現的:一種用于輔助調查訪談的語料庫積累方法,其特點是采用領域語料向通用語料有條件轉化的積累機制的方法,將頻繁出現新的相似語料的領域語料轉化為通用語料,其情景化的語料庫積累具體包括以下步驟:
步驟1:初始化通用語料庫、領域語料庫。
步驟2:接收用戶輸入的文本相似度閾值和語料庫更新觸發閾值,如果用戶為訪談預先設計了問卷,則接收問卷中的領域專有問句內容,將其寫入領域語料庫,上述問句的相似次數以初始值0寫入,答句列表為空。
步驟3:接收一個由訪談錄音轉換而成的文本片段,所述文本片段是指一特定問句和對應的一答句的組合;該步驟得到的問句,簡稱為“新問句”,其答句,簡稱為“新答句”。
步驟4:將新問句與通用語料庫中已存儲的問句逐一進行文本相似度計算,所述文本相似度可以使用距離函數或相似系數進行計算和表達。
步驟5:比較步驟4的每一個計算結果與步驟2得到的文本相似度閾值大小,
如果步驟4的計算結果均小于文本相似度閾值或通用語料庫為空,那么轉至步驟6;如果步驟4的計算結果至少有一個大于或等于文本相似度閾值,那么則按下述步驟進行:
步驟5-1:查找出通用語料庫中對應最大計算結果的問句,即語料庫中與新問句最相似的問句;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011089200.0/2.html,轉載請聲明來源鉆瓜專利網。





