[發明專利]一種搜索引擎動態摘要提取方法無效
| 申請號: | 200910076485.1 | 申請日: | 2009-01-05 |
| 公開(公告)號: | CN101458718A | 公開(公告)日: | 2009-06-17 |
| 發明(設計)人: | 閆宏飛;樹柏涵;李曉明 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京路浩知識產權代理有限公司 | 代理人: | 張國良 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 搜索引擎 動態 摘要 提取 方法 | ||
1.一種搜索引擎動態摘要提取方法,其特征在于,所述方法包括以下步驟:
獲取用戶輸入的查詢詞;
根據所述查詢詞,截取摘要候選段落;
獲取所述候選段落的段權值;
選取段權值最高的預先設定個數的候選段落,并將選擇的候選段落合并生成摘要;
其中所述截取摘要候選段落的步驟包括:如果所述查詢詞落在已截取段落之外,從所述查詢詞在文中的位置開始向兩邊延伸;根據向前閾值、終結標點集或上一段的結尾,獲取所述候選段落的起始位置;根據所述起始位置和候選段落長度的設定值,獲取所述候選段落的初始結束位置;在所述查詢詞在文中的位置向后延伸的長度大于向后閾值時、或從所述初始結束位置向前向后調整找到所述終結標點集中的終結標點時的位置為所述候選段落的結束位置,
所述獲取候選段落的段權值的步驟具體包括:當所述查詢詞在候選段落中第一次出現時,其權值為C1,當所述查詢詞在第一次之后在所述候選段落中出現時,其權值為C2;為某候選段落計算其段權值時,所有查詢詞的權值都初始化為C1,所述候選段落的段權值為所述候選段落中所述查詢詞權值之和。
2.如權利要求1所述的搜索引擎動態摘要提取方法,其特征在于,所述獲取候選段落的起始位置的步驟,具體包括:
在所述查詢詞在文中的位置向前延伸的長度大于所述向前閾值時、或找到所述終結標點集中的終結標點時、或達到上一段的結尾時的位置為所述候選段落的起始位置。
3.如權利要求1或2所述的搜索引擎動態摘要提取方法,其特征在于,所述初始結束位置為所述起始位置和候選段落長度的設定值之和。
4.如權利要求1所述的搜索引擎動態摘要提取方法,其特征在于,所述C1為1,所述C2為0.01。
5.如權利要求1所述的搜索引擎動態摘要提取方法,其特征在于,在所述選取段權值最高的預先設定個數的候選段落,并將選擇的候選段落合并生成摘要的步驟中,還包括:
當選擇的候選段落的個數小于所述預先設定個數時,擴展所述選擇的候選段落,使所述選擇的候選段落的長度達到預先設定個數的候選段落的長度。
6.如權利要求1所述的搜索引擎動態摘要提取方法,其特征在于,在所述選取段權值最高的預先設定個數的候選段落,并將選擇的候選段落合并生成摘要的步驟中,還包括:
當選擇的候選段落的個數為0時,以正文的首段話作摘要。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910076485.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于土地監測的電子信息化系統及其方法
- 下一篇:鹵味烤鴨





