尋找走失多年的兒童，這個算法讓父母看到孩子長大的模樣

2019-12-23 17:51

來源：澎湃新聞·澎湃號·湃客

機器之心

選自arXiv

作者：Debayan Deb等

機器之心編譯

參與：魔王、杜偉

尋找失蹤兒童何其難！小孩失蹤時還很小，找到卻可能已過了數年甚至十幾年。如何判斷找回人員的身份，讓他們回家？這是亟待解決的難題。

近日，密歇根州立大學的研究者提出一個「增齡」模塊，將失蹤兒童原始圖像中的深度人臉特征「老化」（或者說「增齡」），從而幫助匹配原來的圖像和數年后的圖像。

論文鏈接：https://arxiv.org/pdf/1911.07538.pdf

引言

人口販賣是世界各國普遍面臨的一項嚴重社會問題。根據聯合國兒童基金會（UNICEF）和機構間打擊販運人口協調小組（ICAT）的數據，全球被販賣人口中兒童比例高達 28%。據 2012 年《華爾街日報》報道，每年全球范圍內約有 800 萬兒童失蹤。與父母分離的兒童，如難民和移民，最易被販賣。

截至 2018 年，18 歲以下青少年占美國 NCIC 報告中登記在案失蹤人口的 34.8%。而失蹤兒童的實際數量要遠遠高于官方統計數據：出于對人口販賣者的恐懼、缺少信息、對當局缺乏信任等原因，上報的兒童失蹤案件少于實際情況。

人臉識別可能是找回失蹤兒童任務中最有前景的生物識別技術，因為失蹤兒童的父母親屬擁有其人臉照片的概率遠高于其他生物模態，如指紋或虹膜信息。而自動人臉識別（Automated Face Recognition，AFR）系統已經能夠達到很高的識別率，它們可在兒童年齡增長有限的情況下識別兒童。

人臉會隨著時間發生很多變化，如皮膚紋理、重量、面部毛發等（見下圖 1）。

圖 1：Dakota Fanning（第一行）和 David Gallagher（第二行）的不同年齡照片。

多項研究分析了人臉隨時間的變化對 AFR 性能的影響，見下表 2：

這些研究得出了兩個重要結論：

隨著后續圖像與原始圖像的時間間隔變長，系統識別人臉的性能下降；

相較于年齡較大的人，AFR 系統對年齡較小的個體性能下降更加迅速。

下圖 3 展示了，當前最優人臉匹配器在匹配失蹤兒童圖像和較長時間間隔后的圖像時失敗率較高。因此，增強 AFR 系統的縱向性能非常必要，尤其是對于在年齡較小時失蹤的孩童。

圖 3：rank-1 識別準確率（%）熱圖。a 未使用本研究提出的模塊修改 FaceNet 特征，而 b 利用提出模塊修改了 FaceNet 特征（顏色越深表示準確率越高）。圖中橫軸表示兒童年齡時間差，縱軸表示失蹤兒童圖像中的年齡。

定位失蹤兒童類似于人臉識別中的識別（開集或閉集），我們從失蹤兒童照片庫中進行搜索，以確定找回的較大年齡孩童的身份。找回孩童照片與失蹤孩童照片之間時間間隔越長，搜索任務就越難。之前對年齡變化下的人臉識別（包括成年人和孩童）的研究主要探索了生成和判別式模型。但是，當前最優人臉識別系統仍然難以確定在較大年齡找回的孩童的身份。

該研究提出「增齡」模塊，它學習特征空間中的投影，并可作為任意現有人臉匹配器的 wrapper。該模塊還能夠基于個體年齡和指定目標年齡合成增齡后特征所對應的人臉圖像。

對于時間間隔大于 10 年的情況（即失蹤兒童在 10 年或更久之后才被找到），該研究提出的增齡模塊將 FaceNet 在閉集上的識別準確率從 40% 增加到 49.56%，將 CosFace 在童星數據集 ITWCC 上的識別準確率從 56.88% 提升到 61.25%。該方法在公開增齡數據集 FG-NET 上的 rank-1 識別率超越當前最優方法，實現了從 94.91% 到 95.91% 的提升，該方法在 CACD-VS 數據集上同樣超越了 SOTA 方法，將識別率從 99.50% 提升到 99.58%。這些結果表明，使人臉特征「增齡」能夠增強識別找回兒童是否為販賣誘拐受害者的幾率。

使深度人臉特征「增齡」

直接操縱人臉圖像中的像素可能無法在特征空間中保留兒童的身份信息。因此，該研究提出一種增齡模塊，學習低維特征空間中的深度特征投影，從而直接改進人臉識別系統識別較長時間間隔兒童圖像的準確率（見下圖 6）。

圖 6：該研究提出的深度特征增齡方法圖示。該增齡模塊可以將人臉特征向量增加到任意指定年齡。

激活

為了分析「增齡」對兒童人臉匹配性能的影響，我們令 S = {S^t}^T_t=0，T 是數據集中所有可能年齡的集合。這里，其中 S^t 是數據集中年齡為 t 的所有失蹤兒童圖像的集合（共 N_t 張）。使用現有的人臉匹配器（如 FaceNet），我們可以提取出圖像 x^t_i 的深度特征表示 φ(x^t_i )。

研究者首先計算 S 中所有年齡的平均人臉表示。對于年齡 t，其平均人臉特征可表示為：

研究者從 UTKFace 數據集中抽取平均人臉特征。為了分離年齡變化引起的人臉嵌入區別，研究者將一個屬性向量定義為在年齡為 t_1 和 t_2 時，任意兩個平均人臉特征的區別，其中 t_1 << t_2。與深度特征內插類似，研究者將年齡 t_1 的兒童人臉圖像 x^t1_i 映射至特征空間中的點 φ(x^t1_i)，并通過將其沿著屬性向量 ˉδ^t1,t2 線性移動。

下圖 4 展示了 5 歲和 12 歲孩童人臉特征的解碼圖像樣本，它們沿著流形 (α = 1) 線性移動。

這個實驗表明：

人臉嵌入可捕捉到增齡所需的年齡信息；

增齡可以通過在特征空間中執行線性內插來實現。

學習特征增齡

完美的人臉特征空間 Z 應該僅編碼身份顯著特征（identity-salient feature），年齡相關組件應與身份相關特征分離。但事實上，人臉匹配器自然而然地在潛在空間中編碼年齡相關信息，以增強判別能力。該研究旨在開發一種增齡方法，能夠在任意人臉匹配器的特征空間中學習投影（見下圖 5）。

預訓練人臉匹配器將人臉圖像 x 嵌入 d 維歐幾里得空間 φ(x) ∈ R^d 中。假設有圖像對 (x^t_1_i , x^t_2_j ) 組成的訓練集，其中 x_i 和 x_j 分別是同一個人在年齡為 t_1 和 t_2 時的照片。此處，x_i ∈ X，t_a ∈ A，X 是人臉圖像域，A 是所有可能年齡的集合。研究者想要學習一個模型，該模型以人臉特征向量 φ^t_1 為輸入，為期望年齡 t_2 合成人臉嵌入，從而在年齡相關組件與 φ^t_2 類似的條件下，保留個體身份信息。

該研究提出一種編碼器-解碼器架構，可在特征空間中自動學習增齡。編碼器 E : (R^d , A, A) → R^k 是一組全連接線性層的堆疊，它們可將特征向量映射至 k 維潛在表示 E(φ(x^t1), t_1, t_2)。編碼器基于輸入特征 φ(x^t_1)、原始圖像拍攝時的年齡 t_1 和增齡后的期望年齡 t_2。解碼器 D : R^k → R^d 也是一組全連接線性層的堆疊，它們基于原始人臉特征 φ(x^t_1) 的潛在表示 E(φ(x^t_1 ), t_1, t_2) 將其合成為增齡版本。為了確保保存身份顯著特征和年齡增加到期望年齡的合成特征，研究者使用均方差 (MSE) 損失來訓練增齡模塊：