[發明專利]預測文本內容中的樣式破壞有效
| 申請號: | 201811084034.8 | 申請日: | 2018-09-17 |
| 公開(公告)號: | CN109783796B | 公開(公告)日: | 2023-06-09 |
| 發明(設計)人: | P·R·馬內里克;A·納塔拉杰;V·格普塔;B·拉吉克 | 申請(專利權)人: | 奧多比公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/232 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 酆迅;彭夢曄 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 預測 文本 內容 中的 樣式 破壞 | ||
1.一種計算機存儲介質,其存儲計算機可用指令,所述計算機可用指令在由一個或多個計算設備使用時引起所述一個或多個計算設備執行包括以下各項的操作:
獲取需要進行樣式破壞預測的目標內容,所述目標內容包括由多個個體創建的內容;
標識與所述目標內容中的特定內容片段相關聯的樣式特征集;
將針對所述特定內容片段的所述樣式特征集輸入樣式破壞預測模型;
基于被輸入所述樣式破壞預測模型的針對所述特定內容片段的所述樣式特征集,獲取與所述特定內容片段相關聯的二進制值,所述二進制值用于指示是否存在所述特定內容片段與先前內容片段之間的樣式破壞;以及
基于確定與所述特定內容片段相關聯的二進制值不同于與所述先前內容片段相關聯的二進制值而預測樣式破壞,所述樣式破壞指示所述特定內容片段與所述先前內容片段之間的文本寫作樣式的變化。
2.根據權利要求1所述的計算機存儲介質,其中所述樣式特征包括詞匯特征。
3.根據權利要求1所述的計算機存儲介質,其中所述樣式特征包括句法特征。
4.根據權利要求2所述的計算機存儲介質,其中所述詞匯特征包括以下中的一項或多項:平均單詞長度、句子長度、單詞長度頻率、Flesh-Kincaid可讀性得分、不在英語詞典中的單詞的頻率、Honore索引值、一次性罕用詞值、二次性罕用詞值、Yule索引值和形符比。
5.根據權利要求3所述的計算機存儲介質,其中所述句法特征包括以下中的一項或多項:功能詞的計數、標點計數、大寫計數和詞性n元語法。
6.根據權利要求1所述的計算機存儲介質,還包括為多個內容片段中的每個內容片段生成樣式向量,每個樣式向量使用與所述內容片段相對應的所述樣式特征而被生成。
7.根據權利要求6所述的計算機存儲介質,還包括使用主成分分析來降低所述樣式特征的維度。
8.根據權利要求1所述的計算機存儲介質,其中所述樣式破壞預測模型包括長短期記憶模型。
9.根據權利要求1所述的計算機存儲介質,還包括在所述目標內容中提供所述樣式破壞的表示。
10.根據權利要求1所述的計算機存儲介質,還包括:
確定用于針對樣式一致性修改所述目標內容的修改建議;以及
提供所述修改建議。
11.一種用于支持樣式破壞預測的計算機化方法,所述方法包括:
收集具有多個內容片段的訓練內容;
標識與所述訓練內容的所述多個內容片段中的每個內容片段相關聯的樣式特征;
獲取與所述訓練內容相關聯的樣式破壞注釋,所述樣式破壞注釋指示所述訓練內容中的樣式被感知為不同的位置;
針對每個內容片段,基于所述樣式破壞注釋和與對應的所述內容片段相關聯的所述樣式特征來生成向量輸出,其中所述向量輸出包括二進制值,所述二進制值在不同于與先前內容片段相關聯的二進制時指示樣式破壞;以及
基于所述樣式特征和針對所述多個內容片段所生成的多個向量輸出,來訓練樣式破壞預測模型,所述樣式破壞預測模型被配置為預測內容中的文本樣式的變化。
12.根據權利要求11所述的方法,其中所述內容包括多作者內容。
13.根據權利要求11所述的方法,還包括:使用所述樣式特征為多個訓練內容片段生成多個樣式向量。
14.根據權利要求13所述的方法,還包括:使用所述多個樣式向量和所述樣式破壞注釋來生成與所述多個樣式向量中的每個樣式向量相關聯的輸出值,所述輸出值指示樣式破壞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于奧多比公司,未經奧多比公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811084034.8/1.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





