[發明專利]漢語自然語言對話的語義關聯與匹配方法有效
| 申請號: | 201710593854.9 | 申請日: | 2017-07-20 |
| 公開(公告)號: | CN107818078B | 公開(公告)日: | 2021-08-17 |
| 發明(設計)人: | 張寶華 | 申請(專利權)人: | 張寶華 |
| 主分類號: | G06F40/35 | 分類號: | G06F40/35 |
| 代理公司: | 西安志帆知識產權代理事務所(普通合伙) 61258 | 代理人: | 侯峰 |
| 地址: | 710065 陜西省*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 漢語 自然語言 對話 語義 關聯 匹配 方法 | ||
本發明公開了一種漢語自然語言對話的語義關聯與匹配方法,對一次采集的漢語對話語句進行分詞和分句,將各分句分詞結果以及分詞對應的數據庫詞庫中該分詞的強度聯系數據、激活聯系數據情況構建輸入語句分詞數據結構,在所述輸入語句分詞數據結構中確定各分句的動詞中心詞、前中心詞、后中心詞準確位置,通過所述構建的輸入語句分詞數據結構對公告信息庫中語句記錄進行初步匹配篩選,對通過匹配篩選獲得的若干條語句記錄,確定各語句記錄的語義置信度,對各語句記錄的語義置信度進行比較,選取語義置信度最大的語句記錄作為最佳語義匹配語句并且輸出結果,最后,將輸入語句字符串信息按對應格式存入公告信息庫,作為公告信息庫中一條新的語句記錄。
技術領域
本發明屬于自然語言處理技術領域,具體涉及一種漢語自然語言對話的語義關聯與匹配方法。
背景技術
現在人們對語言認知和自然語言語義理解總體上仍處于探索階段。當前已經面向實際應用的語義關系信息檢索技術基本只停留在關鍵詞匹配的淺層方法上,且搜索結果范圍相當寬泛,需要人們再次從中尋找對其有用的信息,最具典型性的例子如:互聯網網頁搜索引擎;另一方面,在學術研究領域,當前自然語言理解技術大多在用概率統計的模型對文字進行分析處理,在語句分詞、大型語料庫標注和構建、語音識別方面研究較多,在面向漢語語句語義處理方面的技術多停留在理論研究階段,能解決現實生活中實際問題的應用較少。尤其在細分到解決漢語對話語句語義關聯的具體應用問題方面,能提出面向實際應用的可通過計算機硬件部署實施的技術方案則更少。
發明內容
有鑒于此,本發明的主要目的在于提供一種漢語自然語言對話的語義關聯與匹配方法。
為達到上述目的,本發明的技術方案是這樣實現的:
本發明實施例提供一種漢語自然語言對話的語義關聯與匹配方法,該方法為:對一次采集的漢語對話語句進行分詞和分句,將各分句分詞結果以及分詞對應的數據庫詞庫中該分詞的強度聯系數據、激活聯系數據情況構建輸入語句分詞數據結構,在所述輸入語句分詞數據結構中確定各分句的動詞中心詞、前中心詞、后中心詞準確位置,通過所述構建的輸入語句分詞數據結構對公告信息庫中語句記錄進行初步匹配篩選,對通過匹配篩選獲得的若干條語句記錄,確定各語句記錄的語義置信度,對各語句記錄的語義置信度進行比較,選取語義置信度最大的語句記錄作為最佳語義匹配語句并且輸出結果,最后,將輸入語句字符串信息按對應格式存入公告信息庫,作為公告信息庫中一條新的語句記錄。
上述方案中,所述輸入語句分詞數據結構是每個分詞構建對應子結構的集合,每個子結構由三組數據組成,第一組用于存放分詞字符串、詞性,第二組用于存放第一至第五強度聯系詞的字符串、詞性、強度聯系類型、強度聯系值,第三組用于存放兩詞間第一激活聯系詞對應字符串變量,若該分詞為分句中前中心詞,則第一激活聯系詞位置存放后中心詞字符串、兩詞間激活聯系類型、動詞中心詞字符串;若該分詞為分句中后中心詞,則第一激活聯系詞位置存放前中心詞字符串、兩詞間激活聯系類型、動詞中心詞字符串;其他情況第一激活聯系詞對應位置均為空,第三組還用于存放兩詞間第二至第五激活聯系詞對應變量,具體為存放兩詞間激活聯系詞字符串、激活聯系類型、激活聯系詞在輸入語句分詞數據結構中坐標位置信息。
上述方案中,所述將各分句分詞結果以及分詞對應的強度聯系數據、激活聯系數據情況構建輸入語句分詞數據結構,在構建輸入語句分詞數據結構過程中,該方法還包括在所述輸入語句分詞數據結構中確定各分句的動詞中心詞、前中心詞、后中心詞在輸入語句分詞數據結構中的準確位置。
上述方案中,所述確定各分句的動詞中心詞在輸入語句分詞數據結構中的準確位置,具體為:若一個分句中無動詞,則該分句的動詞中心詞標記為缺省狀態;若一個分句中僅存在一個動詞,則確定該動詞即為動詞中心詞;若一個分句中存在兩個及以上的動詞詞性的詞,且這些動詞之間未有名詞或代詞出現,則需聯系上下文環境對各分句中動詞詞性進行調整并綜合分析,最終確定動詞中心詞位置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于張寶華,未經張寶華許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710593854.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種敏感內容識別方法及裝置
- 下一篇:多粒度分詞標注數據自動獲取方法及系統





