摘要:目的基于圖像的人體姿態(tài)估計(jì)是計(jì)算機(jī)視覺領(lǐng)域中一個(gè)非常重要的研究課題,并廣泛應(yīng)用于人機(jī)交互、監(jiān)控以及圖像檢索等方面。但是,由于人體視覺外觀的多樣性、遮擋和混雜背景等因素的影響,導(dǎo)致人體姿態(tài)估計(jì)問題一直是計(jì)算機(jī)視覺領(lǐng)域的難點(diǎn)和熱點(diǎn)。本文主要關(guān)注于初始特征對(duì)關(guān)節(jié)點(diǎn)定位的作用,提出一種跨階段卷積姿態(tài)機(jī)(CSCPM)。方法首先,采用VGG(visual geometry group)網(wǎng)絡(luò)獲得初步的圖像初始特征,該初始特征既是圖像關(guān)節(jié)點(diǎn)定位的基礎(chǔ),同時(shí),也由于受到自遮擋和混雜背景的干擾難以學(xué)習(xí)。其次,在初始特征的基礎(chǔ)上,構(gòu)建多層模型學(xué)習(xí)不同尺度下的結(jié)構(gòu)特征,同時(shí)為了解決深度學(xué)習(xí)中的梯度消失問題,在后續(xù)的各層特征中都串聯(lián)該初始特征。最后,設(shè)計(jì)了多尺度關(guān)節(jié)點(diǎn)定位的聯(lián)合損失,用于學(xué)習(xí)深度網(wǎng)絡(luò)參數(shù)。結(jié)果本文實(shí)驗(yàn)在兩大人體姿態(tài)數(shù)據(jù)集MPII(MPII human pose dataset)和LSP(leeds sport pose)上分別與近3年的人體姿態(tài)估計(jì)方法進(jìn)行了定性與定量比較,在MPII數(shù)據(jù)集中,模型的總檢測(cè)率為89.1%,相比于性能第2的模型高出了0.7%;在口戸數(shù)據(jù)集中,模型的總檢測(cè)率為91.0%,相比于性能第2的模型高出了0.5%。結(jié)論實(shí)驗(yàn)結(jié)果表明,初始特征學(xué)習(xí)能夠有效判斷關(guān)節(jié)點(diǎn)的自遮擋和混雜背景干擾情況,引入跨階段結(jié)構(gòu)的CSCPM姿態(tài)估計(jì)模型能夠勝出現(xiàn)有人體姿態(tài)估計(jì)模型。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社