——習(xí)近平總書記在致中國(guó)科學(xué)院建院70周年賀信中作出的“兩加快一努力”重要指示要求
——中國(guó)科學(xué)院辦院方針
近日,中國(guó)科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所仿生視覺系統(tǒng)實(shí)驗(yàn)室李嘉茂研究員團(tuán)隊(duì)在視覺人體姿態(tài)估計(jì)領(lǐng)域取得了重要進(jìn)展。團(tuán)隊(duì)圍繞2D及3D人體姿態(tài)估計(jì)這兩個(gè)緊密關(guān)聯(lián)的任務(wù),分別提出了創(chuàng)新方法,兩項(xiàng)成果被計(jì)算機(jī)視覺與模式識(shí)別中國(guó)科學(xué)院一區(qū)期刊IEEE Transactions on Circuits and Systems for Video Technology (TCSVT,IF=11.1) 和IEEE Transactions on Multimedia(TMM,IF=9.7)錄用,論文題目分別為“Hierarchical Contrastive Consistency for Human Pose Estimation in Images and Videos”與“MMCPose: Multimodal Condition-Driven 3D Human Pose Estimation via Diffusion Models”。
HICCON: 基于層次化對(duì)比一致性約束的2D人體姿態(tài)估計(jì)方法
2D人體姿態(tài)估計(jì)是一項(xiàng)面向人體對(duì)象的基礎(chǔ)視覺感知任務(wù),旨在通過圖像或視頻精準(zhǔn)定位人體姿態(tài)關(guān)鍵點(diǎn)位置,為理解人體運(yùn)動(dòng)和行為提供結(jié)構(gòu)化數(shù)據(jù)。然而,現(xiàn)有方法在復(fù)雜場(chǎng)景下難以兼顧空間定位準(zhǔn)確性與時(shí)間運(yùn)動(dòng)連貫性,尤其在視頻中如何保持姿態(tài)估計(jì)的穩(wěn)定性是一大挑戰(zhàn)。
為此,團(tuán)隊(duì)提出了一個(gè)高效的層次化對(duì)比一致性約束(HICCON),能夠靈活嵌入多種姿態(tài)估計(jì)模型中,提升2D姿態(tài)估計(jì)性能。該方法在空間域上建模關(guān)鍵點(diǎn)與身體部件之間的關(guān)系,在時(shí)間域上捕捉幀與片段之間的運(yùn)動(dòng)模式。HICCON分別從空間與時(shí)間兩個(gè)維度提取多層次特征——包括關(guān)鍵點(diǎn)級(jí)、部件關(guān)系級(jí)、實(shí)例級(jí)和片段級(jí)等不同粒度,并施加對(duì)比學(xué)習(xí)約束,增強(qiáng)模型對(duì)復(fù)雜姿態(tài)的判別能力。實(shí)驗(yàn)表明,在主流視頻姿態(tài)數(shù)據(jù)集PoseTrack上,結(jié)合HICCON的多個(gè)模型均顯著超過基準(zhǔn)性能。本方法也表明了對(duì)比學(xué)習(xí)機(jī)制在人體視覺表征建模中的應(yīng)用潛力和重要作用。


HICCON在PoseTrack數(shù)據(jù)集上相較于基準(zhǔn)方法實(shí)現(xiàn)顯著提升
MMCPose:多模態(tài)條件驅(qū)動(dòng)擴(kuò)散生成的3D人體姿態(tài)估計(jì)方法
在獲得2D人體關(guān)鍵點(diǎn)基礎(chǔ)上,3D人體姿態(tài)估計(jì)致力于恢復(fù)人體關(guān)鍵點(diǎn)在三維空間中的位置,這一技術(shù)在虛擬現(xiàn)實(shí)、運(yùn)動(dòng)分析、人機(jī)交互等領(lǐng)域有著廣泛應(yīng)用。然而,這一過程面臨“深度模糊”等固有挑戰(zhàn),即同一組2D關(guān)鍵點(diǎn)可能對(duì)應(yīng)多個(gè)合理的3D姿態(tài)。當(dāng)前基于擴(kuò)散生成式框架的方法雖然一定程度上緩解了這一問題,但由于模型缺乏對(duì)人體外觀輪廓、語義理解等方面的認(rèn)識(shí),導(dǎo)致在預(yù)測(cè)中仍會(huì)生成不合理的姿態(tài),這一問題在遮擋嚴(yán)重或人群密集等復(fù)雜場(chǎng)景下尤為突出。
為解決上述問題,團(tuán)隊(duì)提出了MMCPose模型,創(chuàng)新地將多模態(tài)人體先驗(yàn)作為條件信號(hào),引導(dǎo)擴(kuò)散過程生成合理且準(zhǔn)確的3D姿態(tài)。模型融合了三類結(jié)構(gòu)化信息:人體關(guān)節(jié)拓?fù)潢P(guān)系、基于自然語言的部件描述、以及提升姿態(tài)關(guān)注度的人體掩碼。為了更好地發(fā)揮多模態(tài)條件的引導(dǎo)作用,還設(shè)計(jì)了一個(gè)多模態(tài)表征-姿態(tài)交互機(jī)制,實(shí)現(xiàn)引導(dǎo)信號(hào)與生成過程之間的深度交互,從而提升模型在姿態(tài)建模上的感知能力與生成質(zhì)量。在Human3.6M和MPI-INF-3DHP等基準(zhǔn)集上的測(cè)試表明,MMCPose取得了領(lǐng)先性能,特別是在Human3.6M上將平均誤差降至30.8毫米。本方法也說明了多模態(tài)引導(dǎo)以及人體先驗(yàn)知識(shí)對(duì)于解決三維人體視覺感知任務(wù)的關(guān)鍵作用。


在Human3.6M數(shù)據(jù)集上MMCPose達(dá)到了最優(yōu)性能
上述兩項(xiàng)研究成果均得到了科技創(chuàng)新2030重大項(xiàng)目、上海市自然科學(xué)基金、上海市優(yōu)秀學(xué)術(shù)帶頭人項(xiàng)目支持,上海微系統(tǒng)所仿生視覺系統(tǒng)實(shí)驗(yàn)室博士后徐稀俠為論文第一作者,實(shí)驗(yàn)室主任李嘉茂研究員為通訊作者。
主站蜘蛛池模板:
饶阳县|
屏东县|
保德县|
瓮安县|
三明市|
镇赉县|
大余县|
长沙市|
丹江口市|
铁力市|
张家港市|
孙吴县|
兰州市|
明水县|
定安县|
唐山市|
铜梁县|
德兴市|
青铜峡市|
无极县|
新营市|
昌吉市|
四子王旗|
平陆县|
澄城县|
长阳|
和平区|
子长县|
浪卡子县|
西和县|
宁陕县|
广州市|
平阳县|
原平市|
分宜县|
遂溪县|
崇信县|
霞浦县|
永康市|
武川县|
高唐县|