人類高層次的感知任務(wù)(如思考、計劃和靈感等)依賴于人體多個器官的感覺信息的協(xié)同集成與整合。
其中,手勢識別可以看作是一種相對簡單的高層次感知任務(wù),它可以被廣泛地用于機(jī)器人和醫(yī)療保健等領(lǐng)域。
目前,手勢識別主要通過使用機(jī)器學(xué)習(xí)方法對一些視覺信息(如照片、視頻等)進(jìn)行算法的處理來實現(xiàn)。
這類方法主要受限于視覺信息,容易受到一些不可預(yù)期的環(huán)境因素的干擾,例如遮擋或者變化的光線。
為解決這個問題,多模態(tài)識別(融合視覺和其它感覺模態(tài))的方法已被提出。這類方法大多借助于當(dāng)前市場上的一些可穿戴傳感器來獲取其它模態(tài)的一些信息,來提高識別精度,但是它仍然存在兩個關(guān)鍵問題:
1、傳統(tǒng)的可穿戴傳感器大多是塊狀的、堅硬的,不能與人體表面形成緊密的接觸,從而影響了人體運動信息采集的精度,尤其是在動態(tài)的場景下;
2、由于不同模態(tài)數(shù)據(jù)在維度和稀疏度上的嚴(yán)重不匹配,造成多模態(tài)融合的困難。
鑒于此,新加坡南洋理工大學(xué)陳曉東教授團(tuán)隊和澳大利亞悉尼科技大學(xué)路節(jié)教授團(tuán)隊合作,從人腦內(nèi)部的多模態(tài)信息融合的學(xué)習(xí)機(jī)制出發(fā),利用皮膚狀可拉伸應(yīng)變傳感器獲取人體運動信息,開發(fā)了一種新的視覺和體感融合學(xué)習(xí)方法,實現(xiàn)了高精度的手勢識別。
相關(guān)成果發(fā)表在Nature Electronics,題目為“Gesture recognition using a bioinspired learning architecture that integrates visual data with somatosensory data from stretchable sensors”,其共同第一作者為南洋理工大學(xué)博士后王明和澳大利亞悉尼科技大學(xué)閆正。
這種新學(xué)習(xí)方法在定制的視覺-體感數(shù)據(jù)集上實現(xiàn)了100%的識別精度,并在視覺信息有噪音、曝光不足或曝光過度等非理想環(huán)境條件下仍然保持較高識別精度。該體系架構(gòu)可用手勢來進(jìn)行機(jī)器人導(dǎo)航,結(jié)果表明在正常照明下的識別誤差為1.7%,而在黑暗環(huán)境下的識別誤差也僅為3.3%。
1、生物啟發(fā)的視覺和體感融合的學(xué)習(xí)架構(gòu)
受人腦內(nèi)部的多模態(tài)信息融合的學(xué)習(xí)機(jī)制的啟發(fā),該團(tuán)隊開發(fā)了一種新的視覺和體感融合學(xué)習(xí)方法(圖1)。該方法主要包括三個神經(jīng)網(wǎng)絡(luò),第一個是卷積神經(jīng)網(wǎng)絡(luò),用于處理早期的視覺信息;第二個神經(jīng)網(wǎng)絡(luò)用于處理早期的體感信息;第三個稀疏神經(jīng)網(wǎng)絡(luò)用于高效低能耗地融合視覺和體感信息。整體和局部的過程都盡可能地模擬著人腦的多模態(tài)信息融合的機(jī)制。
2、皮膚狀可拉伸應(yīng)變傳感器
設(shè)計并制備了一種透明的、可粘貼的皮膚狀可拉伸應(yīng)變傳感器來獲取手指的體感信息(圖2)。該可拉伸應(yīng)變傳感器呈現(xiàn)層狀的堆疊結(jié)構(gòu),具有良好的透明度,并且可以直接粘貼在皮膚上,保證了在精確采集體感信息的同時使傳感器本身對視覺圖片信息的影響達(dá)到最小化。該傳感器同時具有很好的拉伸性以及穩(wěn)定性。
3、基于定制化的視覺-體感數(shù)據(jù)集的手勢識別
為了驗證生物啟發(fā)的視覺和體感融合的學(xué)習(xí)架構(gòu),文中構(gòu)建了一個新的視覺-體感數(shù)據(jù)集。并用該學(xué)習(xí)架構(gòu)進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練與識別。此外,文中還提出了一種基于弗羅貝尼烏斯(Frobenius)條件數(shù)的新的剪枝策略,用于獲取稀疏神經(jīng)網(wǎng)絡(luò)來實現(xiàn)更加高效地數(shù)據(jù)融合。最終,該生物啟發(fā)的視覺和體感的融合學(xué)習(xí)方法在定制化的視覺-體感數(shù)據(jù)集上實現(xiàn)了100%的識別精度(圖3)。對比于單一模態(tài)識別和其它的多種多模態(tài)識別方式,該生物啟發(fā)的融合學(xué)習(xí)方法可以得到最好的識別精度,并且當(dāng)圖片信息帶有噪音、曝光不足或曝光過度等非理想因素時,仍然可以維持較高的精度。這種學(xué)習(xí)架構(gòu)可以用手勢來實現(xiàn)機(jī)器人導(dǎo)航,即便是在黑暗環(huán)境下(10 lux),識別誤差也僅為3.3%。
文獻(xiàn)鏈接: