Исследование компьютерного зрения для распознавания эмоций по лицу
ДомДом > Блог > Исследование компьютерного зрения для распознавания эмоций по лицу

Исследование компьютерного зрения для распознавания эмоций по лицу

May 22, 2023

Научные отчеты, том 13, Номер статьи: 8425 (2023) Цитировать эту статью

613 Доступов

2 Альтметрика

Подробности о метриках

Искусственный интеллект успешно применяется в различных областях, одна из которых — компьютерное зрение. В этом исследовании для распознавания эмоций по лицу (FER) была использована глубокая нейронная сеть (DNN). Одной из целей этого исследования является определение критических черт лица, на которых фокусируется модель DNN для FER. В частности, для задачи FER мы использовали сверточную нейронную сеть (CNN), комбинацию сети сжатия и возбуждения и остаточной нейронной сети. Мы использовали AffectNet и базу данных реальных аффективных лиц (RAF-DB) в качестве баз данных выражений лиц, которые предоставляют образцы обучения для CNN. Карты объектов были извлечены из остаточных блоков для дальнейшего анализа. Наш анализ показывает, что черты лица вокруг носа и рта являются важными ориентирами лица для нейронных сетей. Между базами данных были проведены межбазовые проверки. Сетевая модель, обученная в AffectNet, достигла точности 77,37% при проверке в RAF-DB, тогда как сетевая модель, предварительно обученная в AffectNet, а затем переданная в RAF-DB, дает точность проверки 83,37%. Результаты этого исследования улучшат понимание нейронных сетей и помогут повысить точность компьютерного зрения.

В человеческом общении выражения лица содержат важную невербальную информацию, которая может дать дополнительные подсказки и значения вербальному общению1. Некоторые исследования показали, что 60–80% общения является невербальным2. Эта невербальная информация включает в себя выражение лица, зрительный контакт, тон голоса, жесты рук и физическое дистанцирование. В частности, популярной темой исследований стал анализ выражения лица3. Распознавание эмоций по лицу (FER) применяется в области взаимодействия человека с компьютером (HCI) в таких областях, как автопилот, образование, медицинское лечение, психологическое лечение4, наблюдение и психологический анализ в компьютерном зрении5,6.

В психологии и компьютерном зрении эмоции классифицируются как категориальные или размерные (валентность и возбуждение) модели7,8,9. В категориальной модели Экман и др.7 определили основные человеческие эмоции как счастье, гнев, отвращение, страх, печаль и удивление. В многомерной модели эмоция оценивается с помощью непрерывных числовых шкал для определения валентности и возбуждения. FER — важная задача в компьютерном зрении, которая имеет множество практических применений, и количество исследований FER в последние годы увеличилось10,11,12,13 благодаря достижениям, предоставляемым глубокими нейронными сетями. В частности, сверточные нейронные сети (CNN) достигли отличных результатов с точки зрения извлечения признаков. Например, Он и др.14 предложили архитектуру остаточной нейронной сети (ResNet) в 2015 году, которая добавила остаточное обучение к CNN для решения проблем исчезновения градиента и снижения точности глубоких сетей.

Несколько авторов применили модели нейронных сетей для классификации эмоций в соответствии с категориальными моделями15,16,17,18,19,20,21,22,23 и размерными моделями15,23,24,25,26. Хуанг27 применил архитектуру остаточных блоков к VGG CNN для распознавания эмоций и получил повышенную точность. Мао и др.28 предложили новую модель FER под названием POSTER V2, целью которой является повышение производительности современной техники и снижение необходимых вычислительных затрат за счет внедрения механизма перекрестного внимания на основе окон и многообразия лицевых ориентиров. особенности масштаба. Чтобы включить больше информации в процесс автоматического распознавания эмоций, некоторые недавние исследования объединили в алгоритм несколько модальностей, таких как временные, аудио- и визуальные10,17,18,23,25. Более того, механизмы внимания были использованы в нескольких исследованиях17,18,19,20,22,25 для задач FER. Чжан и др.19 применили картографирование активации классов для анализа карт внимания, изученных их моделью. Было обнаружено, что модель можно регуляризовать, перевернув ее карту внимания и случайно удалив часть входных изображений. Ван и др.22 представили ветвь внимания для изучения маски для лица, которая выделяет отличительные части FER. Эти исследования показывают, что механизмы внимания играют решающую роль при ФЭР. Некоторые подходы к FER используют механизмы самообслуживания для захвата как локального, так и глобального контекста с помощью набора сверточных слоев для извлечения признаков29,30,31. Извлеченные функции затем используются в качестве входных данных для модуля внимания к отношениям, который использует самовнимание для фиксации отношений между различными патчами и контекстом.