[發明專利]一種基于句式結構的漢語自動句法分析器有效
| 申請號: | 202110256750.5 | 申請日: | 2021-03-09 |
| 公開(公告)號: | CN112949286B | 公開(公告)日: | 2023-08-04 |
| 發明(設計)人: | 趙敏;彭煒明;宋繼華;王寧;陳晨;管世昱 | 申請(專利權)人: | 北京漢雅天誠教育科技有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/216;G06F40/289;G06F40/253;G06F16/33 |
| 代理公司: | 北京市盛峰律師事務所 11337 | 代理人: | 席小東 |
| 地址: | 100090 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 句式 結構 漢語 自動 句法 分析器 | ||
1.一種基于句式結構的漢語自動句法分析器,其特征在于,包括如下步驟:
S1,擴展正則表達式的語法模式,實現基于多元詞特征序列的擴展正則表達式語法;
S2,使用S1得到的所述擴展正則表達式語法,構建句法規則庫;
S3,構建與S2構建的所述句法規則庫配套的詞匯知識庫和詞法知識庫;
S4,基于S3構建的詞匯知識庫和詞法知識庫,采用詞法、句法一體化分析算法進行句式結構的漢語自動句法分析,具體步驟為:
使用逗號標點“,”將輸入句子切分為多個標點句;
采用S3構建的所述詞匯知識庫和詞法知識庫,對每個標點句進行詞法分析,生成詞特征序列候選集;
采用S2構建的所述句法規則庫,對所述詞特征序列候選集進行句法分析,輸出句式結構表達式,完成句式結構的漢語自動句法分析;
其中,S2中,所述構建句法規則庫的步驟為:
S201,按照句式結構的成分格局,推導單層句式結構的成分序列組合模式,采用形式文法表示如下:
小句句式::=連?狀*定*主連?謂語部分助?
謂語部分::=單核謂語|合成謂語|聯合謂語
|連動謂語|兼語謂語|主謂謂語
單核謂語::=狀*謂定*賓
|狀*謂
|狀*謂定*賓定*賓
|狀*謂補
|狀*謂定*賓補
|狀*謂補定*賓
合成謂語::=狀*謂謂語部分
聯合謂語::=單核謂語連?謂語部分
連動謂語::=單核謂語謂語部分
兼語謂語::=狀*謂(定*賓){1,2}謂語部分
主謂謂語::=小句句式
其中,主、謂、賓、定、狀、補表示六種句子成分,連、助表示句式結構中的連詞位和助詞位;上述推導表示成最終的擴展正則表達式時,句子成分采用“(?xxx)”的命名分組形式,xxx對應編碼為:主語/sbj、謂語/prd、賓語/obj、定語/att、狀語/adv、補語/cmp、獨立語/ind,虛詞位采用“(?xx)”的命名分組形式,xx對應編碼為:連詞位/cc、助詞位/uu、介詞位/pp、方位詞位/ff;
S202,按照句本位語法的成分和詞類對應關系,推導句子成分的詞特征序列組合模式,采用形式文法表示如下:
1)主::=NP
2)賓::=NP
3)NP::=NP(c?NP)*|n|t|r①|m①|.+?的|.+?f
4)謂::=v|a|r②
5)定::=n|a|r③|m|.+的
6)狀::=d|a|t|n①|r③|m②|.+地|.+?f|PP
7)補::=d|a|m②|得.+|PP
8)PP::=p.+?(f|u⑧)?
9)獨::=(e|NP),
上述推導表示成最終的擴展正則表達式時,其中虛詞詞類采用S201中所述的虛詞位形式;
S203,補充S201、S202之外的標點句模式,如下:
句前模式::=連?(狀|獨)+,
謂前模式::=連?(狀|獨)*主,
|連?(狀|獨)*主連?(狀|獨)+,
連名模式::=連NP,
S204,為S201、S202、S203的模式建立句法規則,數據庫字段包括:id、模式名稱、模式表達式、標點句類型、頻次、句法選用概率;其中,標點句類型字段取值為:xj、np、vp、jq、wq、null,與S201、S202的形式文法中產生式的對應關系為:小句句式/xj,謂語部分/vp,NP和連名模式/np,句前模式/jq,謂前模式/wq,其它/null;所述句法選用概率的計算公式為:
其中,句法規則的使用頻次、模式表達式的匹配次數均從句本位語法樹庫中統計得到;
S3中,詞匯知識庫和詞法知識庫具體為:
S301,詞匯知識庫的數據庫字段包括:id、詞形、詞類、子類、釋義、用例、頻次、是否組合歧義;其中,詞類的字母編碼為:名詞/n、時間詞/t、方位詞/f、數詞/m、量詞/q、代詞/r、動詞/v、形容詞/a、副詞/d、介詞/p、連詞/c、助詞/u、嘆詞/e、擬聲詞/o、標點/w;
子類編碼如下:
n①:時空類名詞
n②:中國人名之姓氏
n③:中國人名
v①:不及物動詞
v②:及物動詞
v③:雙賓動詞
v④:引出兼語謂語的動詞v⑤:引出合成謂語的動詞v⑥:由動詞短語或小句充當賓語的動詞v⑦:趨向動詞
v⑧:引出連動謂語的動詞v⑨:可作結果補語的動詞v⑩:可以獨立充當狀語的動詞a①:屬性詞
a②:狀態詞
a⑨:可作結果補語的形容詞m①:數詞與名量詞組合的數量詞m②:數詞與動量詞或時量詞組合的數量詞q①:名量詞
q②:動量詞或時量詞r①:代名詞
r②:代謂詞
r③:代飾詞
c①:連接小句的連詞c②:連接并列NP的連詞c③:連接同位語的連詞c④:連接聯合謂語的連詞
u①:語氣助詞
u②:動態助詞
u③:連接定、狀、補的結構助詞
u④:用于句末的結構助詞
u⑤:用于NP后的結構助詞
u⑥:用于VP前的結構助詞
u⑦:用于句首的結構助詞
u⑧:框式結構中的結構助詞
S302,詞法知識庫存儲句式結構中的動態詞結構模式,其數據庫字段包括:id、模式名、結構屬性、詞法正則表達式、詞類、子類、示例、頻次、詞法選用概率;
其中,結構屬性對應句式結構體系XML中的@mod屬性;詞法正則表達式采用擴展正則表達式形式,用于匹配動態詞內部的詞素特征序列;詞類取值同S301中詞類的字母編碼;子類有兩種取值方式,一種是取S301中子類編碼,另一種是:用“\n”形式,其中n代表一個數字,表示動態詞的子類特征由內部第n個詞素的子類特征決定;
詞法選用概率的計算公式為:
其中,動態詞結構模式的使用頻次、詞法正則表達式的匹配次數均從句本位語法樹庫中統計得到。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京漢雅天誠教育科技有限公司,未經北京漢雅天誠教育科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110256750.5/1.html,轉載請聲明來源鉆瓜專利網。





