野花社区视频在线观看视频,中文字幕人妻在线中字,亚洲另类激情综合偷自拍图片

Waymo無人車啟用DeepMind異步優(yōu)化方法，提高傳感器識別效率

2019-07-29 10:48

自動駕駛車輛采用神經(jīng)網(wǎng)絡(luò)來執(zhí)行許多駕駛?cè)蝿?wù)，從檢測物體和預(yù)測其他人的行為方式，到規(guī)劃汽車的下一步動作。一般情況下，訓(xùn)練單獨(dú)的神經(jīng)網(wǎng)絡(luò)需要數(shù)周的微調(diào)和實(shí)驗(yàn)，以及大量的算力�，F(xiàn)在，Waymo與DeepMind的研究合作，從達(dá)爾文對進(jìn)化論中汲取靈感，使這項(xiàng)訓(xùn)練更加有效和高效。

神經(jīng)網(wǎng)絡(luò)的性能受訓(xùn)練方案的影響非常大，主要思路就是找到最優(yōu)學(xué)習(xí)率、讓神經(jīng)網(wǎng)絡(luò)在每次迭代后變得更好，但性能波動不需要太大。

尋找最佳訓(xùn)練方案（或“超參數(shù)方案”）通常是通過工程師的經(jīng)驗(yàn)和直覺，或通過廣泛的搜索來實(shí)現(xiàn)的。在隨機(jī)搜索中，研究人員在多種類型的超參數(shù)上應(yīng)用了許多隨機(jī)超參數(shù)調(diào)度，以便獨(dú)立地并行地訓(xùn)練不同的網(wǎng)絡(luò) ，然后可以選擇性能最佳的模型。

因?yàn)椴⑿杏?xùn)練大量模型在計(jì)算上是昂貴的，所以研究人員通常通過在訓(xùn)練期間監(jiān)視網(wǎng)絡(luò)，手動調(diào)整隨機(jī)搜索，定期剔除最弱表現(xiàn)的運(yùn)算并釋放資源，以從頭開始用新的隨機(jī)超參數(shù)訓(xùn)練新網(wǎng)絡(luò)。這種類型的手動調(diào)整可以更快地產(chǎn)生更好的結(jié)果，但這是非常耗費(fèi)人力的。

為了提高這一過程的效率，DeepMind 的研究人員設(shè)計(jì)了一種基于進(jìn)化競爭（PBT）自動確定良好超參數(shù)調(diào)度的方法，該方案結(jié)合了手動調(diào)整和隨機(jī)搜索的優(yōu)點(diǎn)。

基于PBT模型如何運(yùn)作：

PBT的工作原理是同時(shí)啟動許多超參數(shù)搜索，并定期進(jìn)行“競爭”以比較模型的性能。從訓(xùn)練池中刪除失敗的模型，并且僅使用獲勝模型繼續(xù)訓(xùn)練，使用稍微突變的超參數(shù)更新。

PBT比研究人員采用的傳統(tǒng)方法更有效，例如隨機(jī)搜索，因?yàn)槊總€(gè)新的神經(jīng)網(wǎng)絡(luò)都繼承了其父網(wǎng)絡(luò)的完整狀態(tài)，并且不需要從一開始就重新開始訓(xùn)練。此外，超參數(shù)不是靜態(tài)的，而是在整個(gè)培訓(xùn)過程中積極更新。與隨機(jī)搜索相比，PBT將更多的資源培訓(xùn)用于成功的超參數(shù)值。

實(shí)驗(yàn)取得了不錯(cuò)的進(jìn)展，PBT算法不僅實(shí)現(xiàn)了更高的精度，并且減少24％的誤報(bào)、保持了較高的召回率。

同時(shí)，PBT還節(jié)省了時(shí)間和資源。通過PBT訓(xùn)練的網(wǎng)絡(luò)，時(shí)間和資源只有原來的一半。24％的誤報(bào)，同時(shí)也能保持較高的召回率。此外，PBT所需的訓(xùn)練時(shí)間和計(jì)算資源僅為原來的一半。

現(xiàn)在，Waymo 已將 PBT 納入了技術(shù)基礎(chǔ)設(shè)施中，研究人員點(diǎn)點(diǎn)按鈕就能應(yīng)用該算法，DeepMind 每隔 15 分鐘就會對模型進(jìn)行一次評估，以讓測試結(jié)果更準(zhǔn)確。

這是Waymo第一次曝光的與DeepMind在網(wǎng)絡(luò)上的合作，然而這種異步優(yōu)化的PBT方法其實(shí)早就出現(xiàn)了。

它在Multi－Agent或者并行訓(xùn)練中被提到過，甚至在DeepMind 星際爭霸II里的AlphaStar中都使用了該方法。主要用來自適應(yīng)調(diào)節(jié)超參數(shù)。打破了通常的深度學(xué)習(xí)，超參數(shù)都是憑經(jīng)驗(yàn)預(yù)先設(shè)計(jì)好的，會花費(fèi)大量精力且不一定有好的效果，特別是在深度強(qiáng)化學(xué)習(xí)這種非靜態(tài)（non－stationary）的環(huán)境中，要想得到SOTA效果，超參數(shù)還應(yīng)隨著環(huán)境變化而自適應(yīng)調(diào)整，比如探索率等等。這種基于種群（population）的進(jìn)化方式，淘汰差的模型，利用（exploit）好的模型并添加隨機(jī)擾動（explore）進(jìn)一步優(yōu)化，最終得到最優(yōu)的模型。

有學(xué)者曾分別從強(qiáng)化學(xué)習(xí)，監(jiān)督學(xué)習(xí)，GAN三個(gè)方面做實(shí)驗(yàn)，論證了這個(gè)簡單但有效的算法。