[發明專利]漢語自然語言對話的語義關聯與匹配方法有效
| 申請號: | 201710593854.9 | 申請日: | 2017-07-20 |
| 公開(公告)號: | CN107818078B | 公開(公告)日: | 2021-08-17 |
| 發明(設計)人: | 張寶華 | 申請(專利權)人: | 張寶華 |
| 主分類號: | G06F40/35 | 分類號: | G06F40/35 |
| 代理公司: | 西安志帆知識產權代理事務所(普通合伙) 61258 | 代理人: | 侯峰 |
| 地址: | 710065 陜西省*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 漢語 自然語言 對話 語義 關聯 匹配 方法 | ||
1.一種漢語自然語言對話的語義關聯與匹配方法,其特征在于,該方法為:對一次采集的漢語對話語句進行分詞和分句,將各分句分詞結果以及分詞對應的數據庫詞庫中該分詞的強度聯系數據、激活聯系數據情況構建輸入語句分詞數據結構,在所述輸入語句分詞數據結構中確定各分句的動詞中心詞、前中心詞、后中心詞準確位置,通過所述構建的輸入語句分詞數據結構對公告信息庫中語句記錄進行初步匹配篩選,對通過匹配篩選獲得的若干條語句記錄,確定各語句記錄的語義置信度,對各語句記錄的語義置信度進行比較,選取語義置信度最大的語句記錄作為最佳語義匹配語句并且輸出結果,最后,將輸入語句字符串信息按對應格式存入公告信息庫,作為公告信息庫中一條新的語句記錄;所述輸入語句分詞數據結構是每個分詞構建對應子結構的集合,每個子結構由三組數據組成,第一組用于存放分詞字符串、詞性,第二組用于存放第一至第五強度聯系詞的字符串、詞性、強度聯系類型、強度聯系值,第三組用于存放兩詞間第一激活聯系詞對應字符串變量,若該分詞為分句中前中心詞,則第一激活聯系詞位置存放后中心詞字符串、兩詞間激活聯系類型、動詞中心詞字符串;若該分詞為分句中后中心詞,則第一激活聯系詞位置存放前中心詞字符串、兩詞間激活聯系類型、動詞中心詞字符串;其他情況第一激活聯系詞對應位置均為空,第三組還用于存放兩詞間第二至第五激活聯系詞對應變量,具體為存放兩詞間激活聯系詞字符串、激活聯系類型、激活聯系詞在輸入語句分詞數據結構中坐標位置信息;
所述將各分句分詞結果以及分詞對應的強度聯系數據、激活聯系數據情況構建輸入語句分詞數據結構,在構建輸入語句分詞數據結構過程中,該方法還包括在所述輸入語句分詞數據結構中確定各分句的動詞中心詞、前中心詞、后中心詞在輸入語句分詞數據結構中的準確位置;
所述確定各分句的動詞中心詞在輸入語句分詞數據結構中的準確位置,具體為:若一個分句中無動詞,則該分句的動詞中心詞標記為缺省狀態;若一個分句中僅存在一個動詞,則確定該動詞即為動詞中心詞;若一個分句中存在兩個及以上的動詞詞性的詞,且這些動詞之間未有名詞或代詞出現,則需聯系上下文環境對各分句中動詞詞性進行調整并綜合分析,最終確定動詞中心詞位置;
所述若一個分句中存在兩個及以上的動詞詞性的詞,且這些動詞之間未有名詞或代詞出現,則需聯系上下文環境對各分句中動詞詞性進行調整并綜合分析,最終確定動詞中心詞位置,具體為:根據條件調整輸入語句分詞數據結構中各分詞的詞性,加入在數據處理環節存在的臨時詞性標記,檢查輸入語句各分句數據結構中詞性和分詞字符串信息,若一個分句中第k個分詞在輸入語句分詞數據結構中詞性為及物動詞或不及物動詞,且k-1個分詞字符串為助詞,則將該分句的輸入語句分詞數據結構中第k個分詞詞性調整為20動詞性名詞;若一個分句中第k個分詞在輸入語句分詞數據結構中詞性為及物動詞或不及物動詞,且k+1個分詞字符串為助詞,則將該分句的輸入語句分詞數據結構中第k個分詞詞性調整為24動詞性修飾詞;在對各分詞詞性調整后,若該分句第k個分詞為動詞、及物動詞或不及物動詞,其后第k+t個分詞為動詞,t為自然數,且第k個分詞與k+t個分詞之間無名詞、代詞,確定該分句第k+t個分詞為動詞中心詞;
所述確定各分句的前中心詞、后中心詞在輸入語句分詞數據結構中的準確位置,具體為:以輸入語句各分句的動詞中心詞為界,將分句劃分成前后兩個組塊,在動詞中心詞之前的組塊中確定前中心詞具體位置;在動詞中心詞之后的組塊中確定后中心詞具體位置;對于輸入語句中無動詞中心詞的情況,整個分句做為前組塊,在其中確定前中心詞具體位置,其后中心詞確定為缺省狀態。
2.根據權利要求1所述的漢語自然語言對話的語義關聯與匹配方法,其特征在于,該方法還包括:將動詞中心詞、前中心詞、后中心詞對應的相關兩詞間激活聯系詞及兩詞間激活聯系類型存入輸入語句分詞數據結構對應位置。
3.根據權利要求2所述的漢語自然語言對話的語義關聯與匹配方法,其特征在于,所述對通過匹配篩選獲得的若干條語句記錄并且確定各語句記錄的語義置信度,具體為:依次確定各語句記錄的初步篩選階段語義置信度記f1、詞法語義置信度f2、句法語義置信度f3,之后求和即為各語句記錄的語義置信度F,即通過計算公式計算得到一條語句記錄對于輸入語句的語義置信度F值,其中計算公式中參數是通過樣本語料庫中輸入語句與其后的語義相關語句記錄的排序情況,以有監督的機器學習方法確定。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于張寶華,未經張寶華許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710593854.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種敏感內容識別方法及裝置
- 下一篇:多粒度分詞標注數據自動獲取方法及系統





