[發明專利]一種漢語動名詞超常搭配的計算機語言處理方法在審
| 申請號: | 201711386776.1 | 申請日: | 2017-12-20 |
| 公開(公告)號: | CN109299455A | 公開(公告)日: | 2019-02-01 |
| 發明(設計)人: | 汪夢翔 | 申請(專利權)人: | 北京聯合大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京馳納智財知識產權代理事務所(普通合伙) 11367 | 代理人: | 謝亮 |
| 地址: | 100101 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 搭配 知識庫 計算機語言 漢語 構建 語義知識庫 框架模型 限制規則 有效分析 語義選擇 省略 詞庫 謂詞 隱含 統一 | ||
1.一種漢語動名詞超常搭配的計算機語言處理方法,包括以下步驟:
步驟1:構建相關語義知識庫;
步驟2:識別動名詞超常搭配;
步驟3:處理所述動名詞超常搭配。
2.如權利要求1所述的漢語動名詞超常搭配的計算機語言處理方法,其特征在于:所述相關語義知識庫包括常規搭配知識庫、隱喻知識庫和謂詞隱含知識庫中至少一種。
3.如權利要求2所述的漢語動名詞超常搭配的計算機語言處理方法,其特征在于:所述隱喻知識庫涉及到語義聚類和上下位語義劃分。
4.如權利要求3所述的漢語動名詞超常搭配的計算機語言處理方法,其特征在于:所述語義聚類是指依托于語義知識庫來確定同義關系。
5.如權利要求4所述的漢語動名詞超常搭配的計算機語言處理方法,其特征在于:所述語義聚類的計算方法是:基本方法是:設兩個屬性對應的詞是wi和wj,其語義相似度表示為sim(wi,wj),于是:
(a)sim(wi,wj)=1,當且僅當wi和wj屬于概念詞典的同義詞;
(b)sim(wi,wj)=0,當且僅當wi和wj屬于概念詞典的不同樹;
(c)其余情況,有0<sim(wi,wj)<1;
其中(c)中的sim(wi,wj)可以直接利用兩個詞在CCD數據中的路徑長度來計算其計算出來的數值表示wi和wj的語義距離,CCD是指北大概念語義詞典。
6.如權利要求1所述的漢語動名詞超常搭配的計算機語言處理方法,其特征在于:所述動名詞超常搭配的識別方法是基于動詞的SR知識進行的,所述SR是指選擇優先度。
7.如權利要求6所述的漢語動名詞超常搭配的計算機語言處理方法,其特征在于:所述SR的獲取是從經過句法分析和語義角色標注的句子中抽取動名搭配,然后再依托語義近似度和語義詞集來擴展論元。
8.如權利要求7所述的漢語動名詞超常搭配的計算機語言處理方法,其特征在于:所述論元的擴展包括對語義概念進行比較細致和合理的分類。
9.如權利要求8所述的漢語動名詞超常搭配的計算機語言處理方法,其特征在于:所述論元的擴展還包括基于語義相似度,通過計算已知論元和未知論元之間的相似度從而實現論元的擴展并得到選擇優先度SR。
10.如權利要求9所述的漢語動名詞超常搭配的計算機語言處理方法,其特征在于:動詞v對論元a的選擇優先度SR看作是所訴論元與基礎搭配庫中該搭配動詞所有已知論元的相似度的加權組合,公式為:SRsim(v,r,a0)=∑a∈Seen(v,r)weight(v,r,a)·sim(a,a0),其中,r表示的是句法關系或者語義角色,a表示論元,一般由名詞充當,它的取值范圍Seen(v,r)表示在語料中所有可見的動詞和搭配論元的出現情況,對權值weight(v,r,a)進行自由設置,相似度sim(a,a0)是基于語料庫的分布和詞語本身的構詞特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京聯合大學,未經北京聯合大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711386776.1/1.html,轉載請聲明來源鉆瓜專利網。





