摘要:為在嵌入式應(yīng)用領(lǐng)域中實(shí)現(xiàn)高性能、低功耗的深度學(xué)習(xí)算法,針對(duì)網(wǎng)絡(luò)的前向傳播過(guò)程,通過(guò)設(shè)計(jì)指令格式和數(shù)據(jù)格式來(lái)傳輸CNNs計(jì)算所需要的參數(shù),采用基于FPGA的軟硬件協(xié)同設(shè)計(jì)的方法,構(gòu)建面向嵌入式應(yīng)用的深度學(xué)習(xí)分類系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,在100MHz的工作頻率下,與GPU實(shí)現(xiàn)相比,該加速器在保證分類精度的情況下,整個(gè)網(wǎng)絡(luò)的平均性能為0.08GOP/s,能耗比為GTX 1070的2.29倍,功耗僅為GPU的2.114%。
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢雜志社