日韩欧美精品三级,激情婷婷亚洲,日韩午夜一区,夜夜夜精品看看

加快打造原始創(chuàng)新策源地,加快突破關(guān)鍵核心技術(shù),努力搶占科技制高點(diǎn),為把我國(guó)建設(shè)成為世界科技強(qiáng)國(guó)作出新的更大的貢獻(xiàn)。

——習(xí)近平總書記在致中國(guó)科學(xué)院建院70周年賀信中作出的“兩加快一努力”重要指示要求

面向世界科技前沿、面向經(jīng)濟(jì)主戰(zhàn)場(chǎng)、面向國(guó)家重大需求、面向人民生命健康,率先實(shí)現(xiàn)科學(xué)技術(shù)跨越發(fā)展,率先建成國(guó)家創(chuàng)新人才高地,率先建成國(guó)家高水平科技智庫,率先建設(shè)國(guó)際一流科研機(jī)構(gòu)。

——中國(guó)科學(xué)院辦院方針

首頁 > 科研動(dòng)態(tài) > 科研進(jìn)展

上海微系統(tǒng)所在視覺人體姿態(tài)估計(jì)研究方面取得進(jìn)展

發(fā)布時(shí)間:2025-11-12 【字體: 】【打印】 【關(guān)閉

近日,中國(guó)科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所仿生視覺系統(tǒng)實(shí)驗(yàn)室李嘉茂研究員團(tuán)隊(duì)在視覺人體姿態(tài)估計(jì)領(lǐng)域取得了重要進(jìn)展。團(tuán)隊(duì)圍繞2D3D人體姿態(tài)估計(jì)這兩個(gè)緊密關(guān)聯(lián)的任務(wù),分別提出了創(chuàng)新方法,兩項(xiàng)成果被計(jì)算機(jī)視覺與模式識(shí)別中國(guó)科學(xué)院一區(qū)期刊IEEE Transactions on Circuits and Systems for Video Technology (TCSVT,IF=11.1) IEEE Transactions on Multimedia(TMM,IF=9.7)錄用,論文題目分別為“Hierarchical Contrastive Consistency for Human Pose Estimation in Images and Videos”與“MMCPose: Multimodal Condition-Driven 3D Human Pose Estimation via Diffusion Models”。

HICCON: 基于層次化對(duì)比一致性約束的2D人體姿態(tài)估計(jì)方法

2D人體姿態(tài)估計(jì)是一項(xiàng)面向人體對(duì)象的基礎(chǔ)視覺感知任務(wù),旨在通過圖像或視頻精準(zhǔn)定位人體姿態(tài)關(guān)鍵點(diǎn)位置,為理解人體運(yùn)動(dòng)和行為提供結(jié)構(gòu)化數(shù)據(jù)。然而,現(xiàn)有方法在復(fù)雜場(chǎng)景下難以兼顧空間定位準(zhǔn)確性與時(shí)間運(yùn)動(dòng)連貫性,尤其在視頻中如何保持姿態(tài)估計(jì)的穩(wěn)定性是一大挑戰(zhàn)。

為此,團(tuán)隊(duì)提出了一個(gè)高效的層次化對(duì)比一致性約束(HICCON),能夠靈活嵌入多種姿態(tài)估計(jì)模型中,提升2D姿態(tài)估計(jì)性能。該方法在空間域上建模關(guān)鍵點(diǎn)與身體部件之間的關(guān)系,在時(shí)間域上捕捉幀與片段之間的運(yùn)動(dòng)模式。HICCON分別從空間與時(shí)間兩個(gè)維度提取多層次特征——包括關(guān)鍵點(diǎn)級(jí)、部件關(guān)系級(jí)、實(shí)例級(jí)和片段級(jí)等不同粒度,并施加對(duì)比學(xué)習(xí)約束,增強(qiáng)模型對(duì)復(fù)雜姿態(tài)的判別能力。實(shí)驗(yàn)表明,在主流視頻姿態(tài)數(shù)據(jù)集PoseTrack上,結(jié)合HICCON的多個(gè)模型均顯著超過基準(zhǔn)性能。本方法也表明了對(duì)比學(xué)習(xí)機(jī)制在人體視覺表征建模中的應(yīng)用潛力和重要作用。

HICCON在PoseTrack數(shù)據(jù)集上相較于基準(zhǔn)方法實(shí)現(xiàn)顯著提升

MMCPose:多模態(tài)條件驅(qū)動(dòng)擴(kuò)散生成的3D人體姿態(tài)估計(jì)方法

在獲得2D人體關(guān)鍵點(diǎn)基礎(chǔ)上,3D人體姿態(tài)估計(jì)致力于恢復(fù)人體關(guān)鍵點(diǎn)在三維空間中的位置,這一技術(shù)在虛擬現(xiàn)實(shí)、運(yùn)動(dòng)分析、人機(jī)交互等領(lǐng)域有著廣泛應(yīng)用。然而,這一過程面臨“深度模糊”等固有挑戰(zhàn),即同一組2D關(guān)鍵點(diǎn)可能對(duì)應(yīng)多個(gè)合理的3D姿態(tài)。當(dāng)前基于擴(kuò)散生成式框架的方法雖然一定程度上緩解了這一問題,但由于模型缺乏對(duì)人體外觀輪廓、語義理解等方面的認(rèn)識(shí),導(dǎo)致在預(yù)測(cè)中仍會(huì)生成不合理的姿態(tài),這一問題在遮擋嚴(yán)重或人群密集等復(fù)雜場(chǎng)景下尤為突出。

為解決上述問題,團(tuán)隊(duì)提出了MMCPose模型,創(chuàng)新地將多模態(tài)人體先驗(yàn)作為條件信號(hào),引導(dǎo)擴(kuò)散過程生成合理且準(zhǔn)確的3D姿態(tài)。模型融合了三類結(jié)構(gòu)化信息:人體關(guān)節(jié)拓?fù)潢P(guān)系、基于自然語言的部件描述、以及提升姿態(tài)關(guān)注度的人體掩碼。為了更好地發(fā)揮多模態(tài)條件的引導(dǎo)作用,還設(shè)計(jì)了一個(gè)多模態(tài)表征-姿態(tài)交互機(jī)制,實(shí)現(xiàn)引導(dǎo)信號(hào)與生成過程之間的深度交互,從而提升模型在姿態(tài)建模上的感知能力與生成質(zhì)量。在Human3.6M和MPI-INF-3DHP等基準(zhǔn)集上的測(cè)試表明,MMCPose取得了領(lǐng)先性能,特別是在Human3.6M上將平均誤差降至30.8毫米。本方法也說明了多模態(tài)引導(dǎo)以及人體先驗(yàn)知識(shí)對(duì)于解決三維人體視覺感知任務(wù)的關(guān)鍵作用。

在Human3.6M數(shù)據(jù)集上MMCPose達(dá)到了最優(yōu)性能

上述兩項(xiàng)研究成果均得到了科技創(chuàng)新2030重大項(xiàng)目、上海市自然科學(xué)基金、上海市優(yōu)秀學(xué)術(shù)帶頭人項(xiàng)目支持,上海微系統(tǒng)所仿生視覺系統(tǒng)實(shí)驗(yàn)室博士后徐稀俠為論文第一作者,實(shí)驗(yàn)室主任李嘉茂研究員為通訊作者。


主站蜘蛛池模板: 饶阳县| 屏东县| 保德县| 瓮安县| 三明市| 镇赉县| 大余县| 长沙市| 丹江口市| 铁力市| 张家港市| 孙吴县| 兰州市| 明水县| 定安县| 唐山市| 铜梁县| 德兴市| 青铜峡市| 无极县| 新营市| 昌吉市| 四子王旗| 平陆县| 澄城县| 长阳| 和平区| 子长县| 浪卡子县| 西和县| 宁陕县| 广州市| 平阳县| 原平市| 分宜县| 遂溪县| 崇信县| 霞浦县| 永康市| 武川县| 高唐县|