[發明專利]一種基于用戶反饋的訓練語料收集系統及其方法有效
| 申請號: | 201310159025.1 | 申請日: | 2013-05-03 |
| 公開(公告)號: | CN103268312A | 公開(公告)日: | 2013-08-28 |
| 發明(設計)人: | 蔣昌俊;程久軍;陳閎中;閆春鋼;何良華;侯靜玉 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;H04L29/08 |
| 代理公司: | 上海天協和誠知識產權代理事務所 31216 | 代理人: | 葉鳳 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 用戶 反饋 訓練 語料 收集 系統 及其 方法 | ||
1.一種基于用戶反饋的訓練語料收集系統,其特征在于,該系統包括應用客戶端和服務器端,所述客戶端和服務器之間以HTTP協議傳輸數據;
所述應用客戶端內安裝有應用程序模塊,通過應用程序模塊使用戶輸入信息并對信息分詞識別;應用客戶端將輸入信息以XML文件格式傳輸給服務器;
所述服務器中包括識別系統和數據庫兩部分,所述識別系統是已經訓練好的條件隨機場模型;所述識別系統負責解析XML文件,解析之后得到用戶輸入信息的字符串,將字符串順序送入條件隨機場模型中進行分詞,再根據應用本身的特點對分詞結果進行處理,得到用戶需要的信息,服務器將該信息返回給用戶;
當用戶接收到信息之后,會根據信息結果的不同產生不同的反應:如果返回結果正確,用戶接下來會繼續下一步操作;反之,如果返回結果錯誤,用戶會放棄現有的操作或者重新進行前一步的操作,客戶端根據用戶操作行為判斷此次分詞結果的正確與否并將結果返回給服務器,服務器將根據此結果對用戶輸入的信息分詞決定是否要放入數據庫;所述數據庫采用MySQL數據庫,即用來存儲已經識別好的帶有標注的訓練語料。
2.如權利要求1所述的系統,其特征在于,所述數據庫,對已經標注好的訓練語料有一張表,表中用來存放收集的語料,表中還記錄了相應的用戶,提出時間等信息,方便以后進行檢查和挖掘。
3.表為數據庫此表中的各字段含義:
一種基于用戶反饋的訓練語料收集方法,其特征在于,以分詞為背景,包括如下步驟:
(1、在服務器的識別系統中選擇已經訓練好的隨機場識別模型,將隨機場識別模型放入實際應用當中;
(2、用戶在客戶端通過文字輸入的方式提供信息,客戶端將信息傳輸給服務器識別系統中的隨機場識別模型中進行識別,并將識別結果反饋給用戶;具體實現方式:在客戶端將輸入文字轉化成XML格式的信息并將之傳送到達服務器端,在服務器端首先由服務器程序負責解析XML文件,解析之后得到用戶輸入信息的字符串,將字符串順序送入識別系統的隨機場識別模型中進行分詞,再根據應用本身的特點對分詞結果進行處理,得到用戶需要的信息,服務器將該信息返回給用戶;
(3、采集用戶的行為,來判斷此次識別的結果,根據此結果對此次識別進行標注并將之存入數據庫作為訓練語料;
具體實施方式:當用戶接收到信息之后,會根據信息結果的不同產生不同的反應:如果返回結果正確,用戶接下來會繼續下一步操作;反之,如果返回結果錯誤,用戶會放棄現有的操作或者重新進行前一步的操作,客戶端根據兩種不同的用戶操作行為,從而可以判斷此次分詞結果的正確與否,客戶端將該判斷結果返回給服務器,服務器將根據此判斷結果對用戶輸入的信息分詞決定是否要放入數據庫;
(4、重復步驟(2和步驟(3,結合用戶反饋與訓練算法,逐漸完善數據庫中的訓練語料。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310159025.1/1.html,轉載請聲明來源鉆瓜專利網。





