一項最新發(fā)表的研究指出,人工智慧(AI)在人機互動(Human-Robot Interaction, HRI)領(lǐng)域正取得關(guān)鍵性進(jìn)展。研究團隊利用電腦視覺與機器學(xué)習(xí)(ML)演算法,成功開發(fā)出一套軟體,能精準(zhǔn)辨識照片和影片中的人類情緒狀態(tài)。
這項研究的核心技術(shù)是運用卷i積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNNs),在特定的標(biāo)準(zhǔn)數(shù)據(jù)集上實現(xiàn)了高達(dá)95%的情緒辨識準(zhǔn)確率,為「情感運算」(Affective Computing)的發(fā)展奠定了重要基礎(chǔ)。
該研究論文指出,人類的溝通模式中,有高達(dá)60%至80%的訊息來自非語言線索,其中面部表情是傳達(dá)情感最重要的方式之一。在「情感運算」這個跨學(xué)科領(lǐng)域中,開發(fā)能理解並分析人類情感的電腦系統(tǒng),已成為提升人機互動品質(zhì)的重點。
報告強調(diào),若要讓機器人具備同理心,使其能夠識別、理解人類情緒並做出適應(yīng)性行為,是推動此領(lǐng)域研究的主要驅(qū)動力。
研究人員表示,具備情緒智能的機器人在社交互動中將更有價值。未來,具備類人觀察、判斷和情感表達(dá)能力的機器人,將可應(yīng)用於輔助、工業(yè)、教育和人際互動等複雜的通訊情境。
傳統(tǒng)上,人臉情緒辨識(Facial Emotion Recognition, FER)系統(tǒng)包含影像偵測、預(yù)處理、特徵擷取與辨識等多個階段。儘管深度學(xué)習(xí)已取得顯著進(jìn)展,但仍常面臨訓(xùn)練週期過長,或在複雜環(huán)境中辨識率低落的挑戰(zhàn)。
為此,本研究提出一個基於CNN的自動化FER系統(tǒng)。研究團隊透過機器學(xué)習(xí)技術(shù)與數(shù)位影像處理流程,開發(fā)出能分析人類面部表情的軟體。其主要目標(biāo)是找出CNN框架在辨識情緒時所倚賴的關(guān)鍵面部特徵。
為了驗證模型效能,研究團隊將其與多個公開數(shù)據(jù)集進(jìn)行了比較分析,包含F(xiàn)ER2013、真實世界情感臉部數(shù)據(jù)庫(RAF-DB)和CK+數(shù)據(jù)集。
實驗結(jié)果顯示,該模型在 CK+ 數(shù)據(jù)集上表現(xiàn)最佳,準(zhǔn)確率高達(dá)約95%;相較之下,在結(jié)構(gòu)較複雜的FER2013數(shù)據(jù)集上的準(zhǔn)確率則約為64%。
研究人員總結(jié),這項成果將有助於增進(jìn)學(xué)界對神經(jīng)網(wǎng)絡(luò)的理解,並提升電腦視覺的整體效率。
未來,這類更精準(zhǔn)的情緒辨識技術(shù),可望廣泛應(yīng)用於監(jiān)控、機器人導(dǎo)航、教育、醫(yī)療照護(hù)、心理諮商、疼痛評估,甚至是自動駕駛(偵測駕駛?cè)司駹顟B(tài))等領(lǐng)域,使人與機器的協(xié)作更加無縫、自然且高效。