[發(fā)明專利]語言標注處理方法、系統(tǒng)、電子設備及計算機可讀介質(zhì)在審
| 申請?zhí)枺?/td> | 201711468940.3 | 申請日: | 2017-12-29 |
| 公開(公告)號: | CN109992763A | 公開(公告)日: | 2019-07-09 |
| 發(fā)明(設計)人: | 王穎帥;李曉霞;苗詩雨 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿(mào)易有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/04;G06N3/08 |
| 代理公司: | 北京律智知識產(chǎn)權代理有限公司 11438 | 代理人: | 王衛(wèi)忠;袁禮君 |
| 地址: | 100195 北京市海淀區(qū)杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標注 語料庫 構建 計算機可讀介質(zhì) 電子設備 分類模型 業(yè)務場景 語義識別 語料 語言 人工智能技術 自然語言處理 機器學習 面向機器 準確率 建模 智能 學習 | ||
1.一種語言標注處理方法,其特征在于,包括:
利用經(jīng)過標注的語料構建標注語料庫;
基于所述標注語料庫進行建模,得到業(yè)務場景分類模型和語義識別模型;
獲取未經(jīng)標注的信息;
利用所述業(yè)務場景分類模型和所述語義識別模型對所述未經(jīng)標注的信息進行標注。
2.根據(jù)權利要求1所述的語言標注處理方法,其特征在于,所述經(jīng)過標注的語料和所述未經(jīng)標注的信息均為通過語音助手獲取得到的一段話。
3.根據(jù)權利要求2所述的語言標注處理方法,其特征在于,所述利用經(jīng)過標注的語料構建標注語料庫為:
獲取經(jīng)過標注的語料,其中所述經(jīng)過標注的語料為用戶通過所述語音助手輸入的一段話中的第一句話;
對所述經(jīng)過標注的語料進行數(shù)據(jù)清洗,去除無用信息;
對所述經(jīng)過標注的語料劃分為多個業(yè)務場景,并從所述多個業(yè)務場景選取相同數(shù)目的語料,組成所述標注語料庫。
4.根據(jù)權利要求1所述的語言標注處理方法,其特征在于,所述業(yè)務場景分類模型分類后的標簽包括:特定商品查詢、訂單查詢、售后、特定優(yōu)惠查詢、模糊優(yōu)惠查詢和全站直達。
5.根據(jù)權利要求1所述的語言標注處理方法,其特征在于,所述語義識別模型的標簽包括:產(chǎn)品詞、品牌詞和修飾詞。
6.根據(jù)權利要求1所述的語言標注處理方法,其特征在于,所述基于所述標注語料庫進行建模包括:
根據(jù)標注需求確定特征;
根據(jù)所述特征確定所述業(yè)務場景分類模型和所述語義識別模型的標簽;
根據(jù)所述標注語料庫采用預設算法構建多層深度學習的神經(jīng)網(wǎng)絡進行建模。
7.根據(jù)權利要求1所述的語言標注處理方法,其特征在于,利用所述業(yè)務場景分類模型和所述語義識別模型對所述未經(jīng)標注的信息進行標注之后,還包括:
對所述語義識別模型的標注結果進行統(tǒng)計,得到評估指標;
根據(jù)所述評估指標對所述語義分析模型進行評估,得到評估結果;
根據(jù)所述評估結果對所述語義分析模型采用的所述預設算法進行調(diào)整,重新進行建模。
8.一種語言標注處理系統(tǒng),其特征在于,包括:
語料庫單元,配置為利用經(jīng)過標注的語料構建標注語料庫;
建模單元,配置為基于所述標注語料庫進行建模,得到業(yè)務場景分類模型和語義識別模型;
信息獲取單元,配置為獲取未經(jīng)標注的信息;
標注單元,配置為利用所述業(yè)務場景分類模型和所述語義識別模型對所述未經(jīng)標注的信息進行標注。
9.一種電子設備,包括:存儲器;處理器及存儲在該存儲器上并可在該處理器上運行的計算機程序,其特征在于,該程序被該處理器執(zhí)行時實現(xiàn)權利要求1-8任一項所述的方法的指令。
10.一種計算機可讀介質(zhì),其上存儲有計算機可執(zhí)行指令,其特征在于,所述可執(zhí)行指令被處理器執(zhí)行時實現(xiàn)如權利要求1-8任一項所述的方法步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿(mào)易有限公司,未經(jīng)北京京東尚科信息技術有限公司;北京京東世紀貿(mào)易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711468940.3/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 通過下載證書來控制對計算機可讀內(nèi)容的訪問的系統(tǒng)及方法
- 用于生產(chǎn)組合物的監(jiān)測設備
- 計算機可讀的掩模收縮控制處理器
- 用于動態(tài)授權對被許可內(nèi)容的訪問的方法、系統(tǒng)和產(chǎn)品
- 監(jiān)視和控制計算機可讀介質(zhì)上的數(shù)據(jù)的訪問的裝置和方法
- 光電子模塊和用于操作所述光電子模塊的方法
- 用于將操作系統(tǒng)存儲在計算機可讀介質(zhì)上的BIOS代碼
- 相機組同步曝光控制方法及系統(tǒng)、計算機可讀存儲介質(zhì)、相機組控制系統(tǒng)
- 炒鍋翻炒方法、計算機可讀存儲介質(zhì)及智能炒菜機
- 用于計算機系統(tǒng)啟動操作的系統(tǒng)及方法





