[發(fā)明專利]根據(jù)被引導的用戶會話移除和替換圖像中的對象在審
| 申請?zhí)枺?/td> | 201811167294.1 | 申請日: | 2018-10-08 |
| 公開(公告)號: | CN109960453A | 公開(公告)日: | 2019-07-02 |
| 發(fā)明(設(shè)計)人: | S·D·科恩;B·L·普里塞;A·古普塔 | 申請(專利權(quán))人: | 奧多比公司 |
| 主分類號: | G06F3/0484 | 分類號: | G06F3/0484 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 酆迅;張?zhí)?/td> |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 移除 圖像 替換 用戶會話 詢問 復合圖像 替換材料 填充材料 引導的 用戶界面展示 圖像數(shù)據(jù)庫 獲取圖像 人工痕跡 圖像生成 多模式 構(gòu)建 像素 搜索 庫存 協(xié)調(diào) | ||
本文描述了用于引導用戶會話以獲取編輯詢問,并且基于編輯詢問來移除和替換圖像中的對象的系統(tǒng)和技術(shù)。查明與編輯詢問所指示的圖像中的對象相對應的像素。處理編輯詢問以確定其是否包括移除請求或者替換請求。構(gòu)建搜索詢問以獲取圖像(例如從庫存圖像數(shù)據(jù)庫),該圖像包括填充材料或者替換材料,以分別滿足移除請求或者替換請求。從填充材料或者替換材料以及待編輯的圖像生成復合圖像。協(xié)調(diào)復合圖像以移除編輯人工痕跡并且使圖像看起來自然。用戶界面展示圖像,并且在被引導的用戶會話期間接受多模式用戶輸入。
背景技術(shù)
不論是獨立相機(例如,數(shù)碼單反相機)還是集成在計算設(shè)備中的相機(例如,包含在智能電話中),數(shù)碼相機的激增已經(jīng)導致許多用戶圖像的激增。很多時候,圖像并不完美。例如,圖像可能是新手拍攝的,因此構(gòu)圖不佳,或者諸如天氣等環(huán)境可能會影響圖像中的背景(例如,天空的顏色)。因此,用戶可能希望編輯圖像(例如用圖像編輯應用程序)。由于編輯過程的復雜性,為了用圖像編輯應用程序完成編輯任務并且產(chǎn)生外觀自然的圖像(例如,觀察者無法區(qū)分圖像的哪個位置發(fā)生過編輯),需要高超的技能水平以及大量努力。例如,僅僅是根據(jù)用另一個對象(例如來自另一圖像的對象)來替換圖像中的對象的請求,訓練有素的專業(yè)人員(例如使用圖像編輯應用程序的技術(shù)人員)就可能要花費數(shù)小時來產(chǎn)生單個圖像。
由于圖像編輯過程的復雜性,并且用戶可以用各種語言和各種方言說出無限多種單詞,大多數(shù)圖像編輯應用程序要么不包括聲音接口,要么能力有限,只能滿足有限的語音命令。例如,Adobe的PixelTone應用程序可以接收來自用戶的針對待編輯的圖像的語音編輯詢問,例如“讓人更亮”,但PixelTone應用程序沒有圖像的語義知識,并且不參與用戶會話。因此,在該示例中,在請求“讓人更亮”之前,用戶必須首先手動選擇圖像中的“人”,例如,用畫筆工具畫在人上,這大大限制了聲音接口的有用性。因此,圖像編輯應用程序不引導用戶會話,而是僅接收有限的語音命令。
而且,圖像編輯應用程序不接收多模式用戶輸入,包括用戶會話期間的補充用戶輸入以及用戶會話期間的語音輸入。因此,具有聲音接口的圖像編輯應用程序僅限于圖像編輯應用程序處理語音輸入的有效性,而無法獲得在用戶會話期間其它形式的用戶輸入的益處。
發(fā)明內(nèi)容
描述了引導用戶會話的技術(shù)和系統(tǒng),該用戶會話包括針對待編輯的圖像的編輯詢問,并且提供滿足編輯詢問的多個被協(xié)調(diào)的圖像??梢酝ㄟ^向用戶廣播詢問,接收用戶響應并且基于用戶響應回應用戶來引導會話。被引導的用戶會話可以包括多模式輸入。在一個示例中,結(jié)果在被引導的用戶會話期間被展示給用戶,并且多模式輸入作為被引導的用戶會話的一部分被接收(例如,確認對象選擇的語音指令以及來自鼠標的指示符)。以此方式,圖像可以被有效地提供給滿足編輯詢問的用戶,同時在使用用戶的真實數(shù)據(jù)時來指導用戶如何使用編輯應用程序,而非使用利用存儲數(shù)據(jù)的教程。
處理被引導的用戶會話(例如,利用自然語言處理器),以確定被引導的用戶會話指示移除請求還是指示替換請求。此外,從用戶會話中識別對象,例如待移除的對象、待替換的對象、用來替換另一對象的對象,以及其組合等。查明與待移除或待替換對象相對應的待編輯的圖像的像素,例如,利用計算機視覺處理器。在一個示例中,使用特定于對象的視覺模塊,例如使用包括神經(jīng)網(wǎng)絡的天空視覺模塊,該神經(jīng)網(wǎng)絡被訓練為在滿足替換請求“用多云天空替換沉悶天空”時識別天空。從庫存圖像數(shù)據(jù)庫獲取圖像,庫存圖像數(shù)據(jù)庫包括填充材料,以在對象被移除時填充洞,或者包括替換材料,以根據(jù)替換請求替換對象?;谥甘疽瞥埱蠡蛱鎿Q請求的被引導的用戶會話,對象被移除并且在其位置添加填充材料,或者對象被替換材料所替換,以產(chǎn)生被協(xié)調(diào)的多個復合圖像,以使得編輯顯得自然。多個被協(xié)調(diào)的圖像被展示在用戶界面中。因此,基于被引導的用戶會話,向用戶呈現(xiàn)滿足編輯詢問的多個選項(例如,具有不同版本的填充材料或者替換材料的被協(xié)調(diào)的圖像)。在一個示例中,一旦被引導的用戶會話完成并獲取待編輯的圖像,多個圖像將被自動呈現(xiàn)給用戶而無需用戶干預。在另一示例中,將中間結(jié)果展示給用戶,并且在被引導的用戶會話期間接收多模式輸入。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于奧多比公司,未經(jīng)奧多比公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811167294.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字數(shù)據(jù)處理
G06F3-00 用于將所要處理的數(shù)據(jù)轉(zhuǎn)變成為計算機能夠處理的形式的輸入裝置;用于將數(shù)據(jù)從處理機傳送到輸出設(shè)備的輸出裝置,例如,接口裝置
G06F3-01 .用于用戶和計算機之間交互的輸入裝置或輸入和輸出組合裝置
G06F3-05 .在規(guī)定的時間間隔上,利用模擬量取樣的數(shù)字輸入
G06F3-06 .來自記錄載體的數(shù)字輸入,或者到記錄載體上去的數(shù)字輸出
G06F3-09 .到打字機上去的數(shù)字輸出
G06F3-12 .到打印裝置上去的數(shù)字輸出
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





