摘要:近年來深度學(xué)習(xí)作為學(xué)術(shù)界與工業(yè)界共同關(guān)注的熱點(diǎn),取得了飛躍式的發(fā)展,在計(jì)算機(jī)視覺、語音識(shí)別等領(lǐng)域取得了令人矚目的成果.深度學(xué)習(xí)分訓(xùn)練與推理兩個(gè)階段,在實(shí)際應(yīng)用中主要關(guān)注的是推理階段.深度學(xué)習(xí)推理過程中伴隨著巨大的計(jì)算量,通過分布式系統(tǒng)提高其計(jì)算速度也得到了越來越多的關(guān)注.然而,構(gòu)建分布式深度學(xué)習(xí)推理系統(tǒng)面臨著深度學(xué)習(xí)加速設(shè)備更新迭代快速、上層應(yīng)用及計(jì)算任務(wù)復(fù)雜多樣等挑戰(zhàn).本文設(shè)計(jì)并實(shí)現(xiàn)的系統(tǒng)信息管理框架,用于收集并處理系統(tǒng)中的各類信息,收集及處理的規(guī)則具有高度的可擴(kuò)展性和靈活性,并提供通用的RESTful API數(shù)據(jù)訪問接口,以支持分布式深度學(xué)習(xí)推理系統(tǒng)對(duì)各類硬件加速器的靈活兼容性以及對(duì)任務(wù)調(diào)度策略的動(dòng)態(tài)調(diào)整能力.最后,本文通過一個(gè)應(yīng)用實(shí)例對(duì)該框架的功能進(jìn)行驗(yàn)證并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析.
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社