- +1
RobustART評測模型魯棒性:用Transformer做風格遷移遭質疑
機器之心 & ArXiv Weekly Radiostation
參與:杜偉、楚航、羅若天
本周論文包括南洋理工大學、香港中文大學提出的一個交互式人臉編輯框架 Talk-to-Edit,可以通過用戶和系統之間的對話進行細粒度的屬性操作等研究。
目錄:
Paint Transformer: Feed Forward Neural Painting with Stroke Prediction
RobustART : Benchmarking Robustness on Architecture Design and Training Techniques
Learning to Resize Images for Computer Vision Tasks
TransCenter: Transformers with Dense Queries for Multiple-Object Tracking
Talk-to-Edit: Fine-Grained Facial Editing via Dialog
Certifiable Outlier-Robust Geometric Perception: Exact Semidefinite Relaxations and Scalable Global Optimization
LEARNING TO PROMPT FOR VISION-LANGUAGE MODELS
ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)
論文 1: Paint Transformer: Feed Forward Neural Painting with Stroke Prediction
作者: Songhua Liu 、 Tianwei Lin 、 Dongliang He 等
論文鏈接:https://arxiv.org/pdf/2108.03798.pdf
摘要:在一篇 ICCV 2021 Oral 論文中,來自百度 VIS 團隊和羅格斯大學等機構的研究者將神經繪畫視作一個集合預測問題,提出了全新的、基于 Transformer 的框架——Paint Transformer,從而利用前饋網絡來預測筆畫集合的參數。就其效果而言,研究者提出的模型可以并行地生成一系列筆畫,并幾乎能夠實時地得到尺寸為 512×512 的重建繪畫。
更重要的是,由于訓練 Paint Transformer 沒有可用的數據集,研究者設計了一個自訓練的 pipeline,這樣既可以在不使用任何現成數據集的情況下訓練,又依然能夠實現極好的泛化能力。實驗結果表明,Paint Transformer 在訓練和推理成本更低的情況下,實現了較以往方法更好的性能。
研究者將神經繪畫視作一個漸進的筆畫預測過程。在每一步并行地預測多個筆畫,以前饋的方式最小化當前畫布和目標圖像之間的差異。就其結構而言,Paint Transformer 由兩個模塊組成,分別是筆畫預測器(Stroke Predictor)和筆畫渲染器(Stroke Renderer)。

Paint Transformer 的自訓練 pipeline
該研究主要考慮了直線筆畫,這種筆畫可以通過形狀參數和顏色參數來表征。如下圖 3 所示,一個筆畫的形狀參數包括:中心點坐標 X 和 Y,高度 h,寬度 w 和渲染角θ。

推薦:ICCV 2021 Oral 論文。
論文 2: RobustART : Benchmarking Robustness on Architecture Design and Training Techniques
作者: Shiyu Tang 、 Ruihao Gong 、 Yan Wang 等
論文鏈接:https://arxiv.org/pdf/2109.05211.pdf
摘要:來自北京航空航天大學、商湯科技和京東探索研究院的研究人員聯合加州大學伯克利分校、牛津大學以及約翰斯 · 霍普金斯大學提出了第一個在大規模數據集 ImageNet 上面向模型結構(ARchitecture Design)和訓練技巧(Training Technique)且針對多種噪音類型的模型魯棒性評測基準——RobustART。
該 benchmark 全面評測了 44 種經典的手工設計和 1200 種 NAS 采樣得到的模型架構以及 10 余種模型訓練技巧對于魯棒性(對抗噪音、自然噪音、系統噪音等)的影響 。并通過海量且深入的實驗探究,得出了大量的有價值實驗結果和眾多啟發性的結論:
(1)對于 Transformer 和 MLP-Mixer,對抗訓練可以全面提升其全部噪音魯棒性和任務本身的效果;(2)在模型大小一致的前提下,對于自然噪音和系統噪音魯棒性:CNN>Transformer>MLP-Mixer,對于對抗噪音魯棒性,Transformer>MLP-Mixer>CNN;(3)對于一些輕量化的模型族,增加其模型大小或者增加訓練數據并不能提升其魯棒性等。這些分析和結論將對人們認識模型魯棒性機理并設計安全穩固的模型架構產生重要的意義。
RobustART benchmark(1)提供了一個包含 leaderboard、數據集、源碼等詳實信息在內的開源平臺;(2)開放了 80 余種使用不同模型結構和訓練技巧的預訓練模型,以便于研究人員進行魯棒性評估;(3)貢獻了嶄新的視角和大量的分析結論,讓研究人員更好地理解魯棒模型背后的內在機制。

推薦:CNN、Transformer、MLP-Mixer 誰最魯棒?
論文 3: Learning to Resize Images for Computer Vision Tasks
作者: Hossein Talebi 、Peyman Milanfar
論文鏈接:https://arxiv.org/pdf/2103.09950.pdf
摘要:近年來,卷積神經網絡以各種方式徹底改變了計算機視覺,其中一個重要方面卻很少受到關注:圖像大小對訓練任務準確性的影響。通常,為了提高效率,輸入圖像被調整為相對較小的空間分辨率(例如 224 × 224),并且訓練和推理都在這個分辨率下進行。這種調整大小的機制通常是固定的圖像 resizer(如:雙行線插值),但是這些 resizer 是否限制了訓練網絡的任務性能呢?答案是肯定的。事實上,該研究展示了典型的線性 resizer 可以替換為能夠顯著提高性能的可學習 resizer。雖然經典的 resizer 通常會具備更好的小圖像感知質量(即對人類識別圖片更加友好),本文提出的可學習 resizer 不一定會具備更好的視覺質量,但能夠提高 CV 任務的性能。
該研究中可學習圖像 resizer 與基線視覺模型聯合訓練。這個可學習的基于 CNN 的 resizer 創建了機器友好的視覺操作,導致最終任務指標相對于基線模型的持續改進。具體來說,這里研究者專注于 ImageNet 數據集的分類任務,并嘗試使用四種不同的模型來學習適應每個模型的 resizer。此外,該研究表明所提出的 resizer 也可用于微調其他視覺任務的分類基線。

新型圖像 resizer
推薦:谷歌在 ICCV2021 研究。
論文 4: TransCenter: Transformers with Dense Queries for Multiple-Object Tracking
作者: Yihong Xu 、 Yutong Ban 等
論文鏈接:https://arxiv.org/pdf/2103.15145.pdf
摘要:受近期基于錨點(point-based)MOT 方法的啟發,來自 MIT 等機構的研究提出 TransCenter,這是首個用于預測密集目標點熱力圖 (dense center heatmap)Transformer MOT 架構 。
具體而言,該研究提出利用像素級密集多尺度查詢(dense pixel-level multi-scale queries)配合 Transfromer 強大的全局表示能力,全局且充足地檢測和跟蹤目標中心(center tracking)。相同訓練策略和同等數據下,TransCenter 在兩個標準 MOT 數據集上 (MOT17 以及稠密的 MOT20)均超越了 SOTA 方法。特別地,在 MOT20 上,用更少的訓練數據,該研究甚至超越了基于錨點的 MOT 以前 SOTA 方法。另外,與從 DETR 到 MOT 的簡單推廣相比,實驗研究也證明了所提出的架構表現出明顯的性能和架構優勢。
TransCenter 的整體架構如圖所示,該研究采用經典的 encoder-decoder 結構。由于密集查詢(Dense Queries)的引入,研究者在編碼器(Transformer Decoder)和解碼器 (Transformer Decoder)上均采用更高效的 Deformable Transformer (zhu et al.) 以解決密集查詢帶來的訓練內存和運行效率的限制。

推薦:MIT&INRIA 開源多目標物體跟蹤算法。
論文 5: Talk-to-Edit: Fine-Grained Facial Editing via Dialog
作者: Yuming Jiang 、 Ziqi Huang 等
論文鏈接:https://arxiv.org/abs/2109.04425
摘要:來自南洋理工大學、香港中文大學提出的一個交互式人臉編輯框架 Talk-to-Edit,可以通過用戶和系統之間的對話進行細粒度的屬性操作。此外,該研究還創建了一個視覺語言人臉編輯數據集 CelebA-Dialog,用來促進大規模研究。
該研究提出的 Talk-to-Edit 的 pipeline 如下圖所示:

該研究用 Semantic Field 來實現對人臉特征連續且高細粒度可控的編輯。對話功能則由 Language Encoder 和 Talk 模塊來實現。

推薦:對話實現高細粒度人臉編輯。
論文 6: Certifiable Outlier-Robust Geometric Perception: Exact Semidefinite Relaxations and Scalable Global Optimization
作者: Heng Yang 、 Luca Carlone 等
論文鏈接:https://arxiv.org/pdf/2109.03349.pdf
摘要:清華大學校友、MIT 在讀博士生楊珩與其他研究者合作開發了第一套針對自動駕駛汽車的「可認證的感知」算法,這一算法有助于提高下一代自動駕駛汽車的行駛安全。
該研究的第一個貢獻表明使用常見魯棒成本估計,如 TLS、最大共識、Geman-McClure、Tukey 雙權重等,可以重新表述為多項式優化問題(POP)。通過關注 TLS 成本,他們的第二個貢獻是利用 POP 中的稀疏性,提出了一種比標準 Lasserre 層次結構小得多的稀疏半定規劃 (SDP) 松弛,同時保留了準確性。第三個貢獻是通過提出 STRIDE,以前所未有的規模和精度解決 SDP 松弛問題,這是一種將凸 SDP 中的全局下降與非凸 POP 的快速局部搜索相結合的求解器。第四個貢獻是評估了所提出的針對六個幾何感知問題的框架,包括單次與多次旋轉平均、點云和網格配準、絕對姿態估計以及類別級對象姿態和形狀估計。
實驗表明 (i) 該研究提出的稀疏 SDP 松弛是準確的,應用程序中高達 60%–90% 的異常值;(ii) 雖然離實時還很遠,但 STRIDE 在中等規模問題上比現有 SDP 求解器快 100 倍,并且是唯一可以高精度求解具有數十萬個約束的大規模 SDP 的求解器 ; (iii) STRIDE 為現有的快速啟發式算法(如 RANSAC 或階段非凸)提供了一種保護措施,即如果啟發式估計是最優的,則證明全局最優。

推薦:第一套保護自動駕駛車輛的感知算法。
論文 7: LEARNING TO PROMPT FOR VISION-LANGUAGE MODELS
作者: Kaiyang Zhou、Jingkang Yang、Chen Change Loy、 Ziwei Liu
論文鏈接:https://arxiv.org/abs/2109.01134
摘要:來自新加坡南洋理工大學的研究者提出了一種名為上下文優化 (Context Optimization,英文名:CoOp,中文名:琥珀) 的新方法。
琥珀的主要思想是對提詞器(prompt)中的上下文(context)用連續向量進行建模,而整個訓練過程將僅對這幾個上下文詞向量進行端到端優化,而保持預訓練參數不變。該方法完全自動化了提詞器的設計過程,下圖展示了琥珀的模型結構。

該研究在實驗中使用了 11 個視覺數據集來驗證琥珀的有效性:結果表明琥珀是一個十分高效的小樣本學習方法,平均每個類別只需一到兩張圖片就可以擊敗基于手工提詞器的零樣本識別模型。當每個類別的圖片有 16 張時,琥珀比手工提詞器平均高出了大約 17 個百分點(最高可達 50 個百分點)。不僅如此,琥珀還對領域泛化表現出了極強的魯棒性(見下圖,其中 M 指代琥珀的提詞器長度)。

推薦:提詞優化器「琥珀」帶你用好 CLIP。
ArXiv Weekly Radiostation
機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括NLP、CV、ML領域各10篇精選,并提供音頻形式的論文摘要簡介,詳情如下:
本周 10 篇 NLP 精選論文是:
1. Distantly-Supervised Named Entity Recognition with Noise-Robust Learning and Language Model Augmented Self-Training. (from Jiawei Han)
2. Gradient Imitation Reinforcement Learning for Low Resource Relation Extraction. (from Philip S. Yu)
3. Improved Latent Tree Induction with Distant Supervision via Span Constraints. (from Andrew McCallum)
4. Box Embeddings: An open-source library for representation learning using geometric structures. (from Andrew McCallum)
5. LM-Critic: Language Models for Unsupervised Grammatical Error Correction. (from Jure Leskovec)
6. Improving Neural Machine Translation by Bidirectional Training. (from Dacheng Tao)
7. Post-OCR Document Correction with large Ensembles of Character Sequence Models. (from Evangelos Milios)
8. STraTA: Self-Training with Task Augmentation for Better Few-shot Learning. (from Quoc V. Le)
9. The Emergence of the Shape Bias Results from Communicative Efficiency. (from Dan Jurafsky)
10. Compression, Transduction, and Creation: A Unified Framework for Evaluating Natural Language Generation. (from Eric P. Xing)
本周 10 篇 CV 精選論文是:
1. Anchor DETR: Query Design for Transformer-Based Detector. (from Xiangyu Zhang, Jian Sun)
2. MHFC: Multi-Head Feature Collaboration for Few-Shot Learning. (from Yan-Jiang Wang)
3. Image Synthesis via Semantic Composition. (from Xiangyu Zhang, Jiaya Jia)
4. PnP-DETR: Towards Efficient Visual Analysis with Transformers. (from Shuicheng Yan)
5. Partner-Assisted Learning for Few-Shot Image Classification. (from Shih-Fu Chang)
6. Semi-Supervised Visual Representation Learning for Fashion Compatibility. (from Vijay Kumar)
7. Harnessing Perceptual Adversarial Patches for Crowd Counting. (from Dacheng Tao)
8. MotionHint: Self-Supervised Monocular Visual Odometrywith Motion Constraints. (from Dinesh Manocha)
9. A Self-Supervised Deep Framework for Reference Bony Shape Estimation in Orthognathic Surgical Planning. (from Dinggang Shen)
10. Unsupervised Domain Adaptive Learning via Synthetic Data for Person Re-identification. (from Xuelong Li)
本周 10 篇 ML 精選論文是:
1. Knowledge-guided Self-supervised Learning for estimating River-Basin Characteristics. (from Vipin Kumar)
2. An Empirical Comparison of Off-policy Prediction Learning Algorithms in the Four Rooms Environment. (from Richard S. Sutton)
3. Inverse design of 3d molecular structures with conditional generative neural networks. (from Klaus-Robert Müller)
4. DCUR: Data Curriculum for Teaching via Samples with Reinforcement Learning. (from John Canny)
5. Convergence of a Human-in-the-Loop Policy-Gradient Algorithm With Eligibility Trace Under Reward, Policy, and Advantage Feedback. (from Michael L. Littman)
6. Multi-Task Learning with Sequence-Conditioned Transporter Networks. (from Claire Tomlin, Stefan Schaal)
7. Global and Local Interpretation of black-box Machine Learning models to determine prognostic factors from early COVID-19 data. (from Dimitris Metaxas)
8. Mixing between the Cross Entropy and the Expectation Loss Terms. (from Lior Wolf)
9. ROMAX: Certifiably Robust Deep Multiagent Reinforcement Learning via Convex Relaxation. (from Jonathan P. How)
10. Improved Algorithms for Misspecified Linear Markov Decision Processes. (from R. Srikant)
? THE END
轉載請聯系本公眾號獲得授權
投稿或尋求報道:content@jiqizhixin.com
原標題:《7 Papers & Radios | RobustART評測模型魯棒性;用Transformer做風格遷移遭質疑》
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司