Разработка жестового интерфейса для взаимодействия пользователя с робототехническими средствами

Толстой Иван Михайлович
Санкт-Петербургский государственный университет аэрокос-мического приборостроения (ГУАП), магистрант, 190000, Санкт-Петербург, ул. Большая Морская, д. 67, тел.: +7(812)328-33-37, Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Савельев Антон Игоревич
к.т.н., Санкт-Петербургский институт информатики и автома-тизации РАН (СПИИРАН), с.н.с., 199178, Санкт-Петербург, 14-я линия В.О., д. 39, тел.: +7(812)328-34-11, Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Денисов Александр Вадимович
СПИИРАН, м.н.с., 199178, Санкт-Петербург, 14-я линия В.О., д. 39, тел.: +7(812)328-04-21, Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Материал поступил в редакцию 17 сентября 2018 года.

Аннотация
Представлена разработка программного интерфейса распознавания и классификации жестов для выполнения компьютером пользовательских команд в режиме реального времени. Для его реализации проведено сравнительное исследование трех различных классификаторов: на основе метода Виолы-Джонса и на базе сверточных нейронных сетей MobileNets и Faster R-CNN. Результаты тестирования классификаторов показали, что наиболее предпочтительным для задачи распознавания жестов является классификатор на базе архитектуры Faster R-CNN со средним значением точности 90%, тогда как аналогичная сеть MobileNets имеет 85% точности, а алгоритм Виолы-Джонса – только 31%.

Ключевые слова
Искусственные нейронные сети, сверточные нейронные сети, метод Виолы-Джонса, распознавание жестов, детектирование объектов.

Благодарности
Исследование выполнено при поддержке Федерального агентства научных организаций (№ AAAA-A16-116033110095-0).

DOI
https://doi.org/10.31776/RTCJ.6404

Индекс УДК
004.932.2

Библиографическое описание
Толстой И.М. Разработка жестового интерфейса для взаимодействия пользователя с робототехническими средствами / И.М. Толстой, А.И. Савельев, А.В. Денисов // Робототехника и техническая кибернетика. – №4(21). – Санкт-Петербург : ЦНИИ РТК. – 2018. – С. 24-25.

Литература

Mikhalchenko D. Obtaining depth map from 2D non stereo images using deep neural networks / D. Mikhalchenko, A. Ivin, D. Malov // International Journal of Intelligent Unmanned Systems. – 2018. – Vol. 6(3). – Pp.134-146.
Viola P. Rapid object detection using a boosted cascade of simple features / P. Viola, M. Jones // Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. CVPR. – 2001.
Papageorgiou C.P. A general framework for object detection / C.P. Papageorgiou, M. Oren, T. Poggio // Sixth International Conference on Computer Vision. – 1998. – Pp. 555-562.
Sermanet P. Overfeat: Integrated recognition, localization and detection using convolutional networks / P. Sermanet [et al] // ICLR 2014 conference submission. – 2014.
Krizhevsky A. Imagenet classification with deep convolutional neural networks / A. Krizhevsky, I. Sutskever, G.E. Hinton // Advances in neural information processing systems. – 2012. – Pp. 1097-1105.
Sharif Razavian A. CNN features off-the-shelf: an astounding baseline for recognition / A. Sharif Razavian [et al] // The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) Workshops. – 2014. – Pp. 806-813.
Chen T. Learning to Segment Object Candidates via Recursive Neural Networks / T. Chen [et al] // IEEE Transactions on Image Processing. – 2018. – Vol. 27(12). – Pp. 5827-5839.
Krahenbuhl P. Learning to propose objects / P. Krahenbuhl, V. Koltun // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. – 2015. –Pp. 1574-1582.
Arbelaez P. Multiscale combinatorial grouping / P. Arbelaez [et al] // Proceedings of the IEEE conference on computer vision and pattern recognition. – 2014. – Pp. 328-335.
Fidler S. Bottom-up segmentation for top-down detection / S. Fidler [et al] // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. – 2013. – Pp. 3294-3301.
Dalal N. Histograms of oriented gradients for human detection / N. Dalal, B. Triggs // Computer Vision and Pattern Recognition. CVPR 2005. IEEE Computer Society Conference on. – 2005. – Pp. 886-893.
Borenstein E. Combined top-down/bottom-up segmentation / E. Borenstein, S. Ullman // IEEE Transactions on pattern analysis and machine intelligence. – 2008. – Vol. 30(12). – Pp. 2109-2125.
Cho M. Jean Ponce Unsupervised object discovery and localization in the wild: Part-based matching with bottom-up region proposals / M. Cho, S. Kwak, C. Schmid // Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. – 2015. –Pp. 1201-1210.
Gould S. Region-based segmentation and object detection / S. Gould, T. Gao, D. Koller // Advances in neural information processing systems. – 2009. – Pp. 655-663.
Girshick R. Rich feature hierarchies for accurate object detection and semantic segmentation / R. Girshick [et al] // Proceedings of the IEEE conference on computer vision and pattern recognition. – 2014. – Pp. 580-587.
Uijlings J. R. R. Selective search for object recognition / J. R. R. Uijlings [et al] // International journal of computer vision. – 2013. – Vol. 104(2). – Pp. 154-171.
Cireşan D.C. Mitosis detection in breast cancer histology images with deep neural networks / D.C. Cireşan [et al] // International Conference on Medical Image Computing and Computer-assisted Intervention.Springer. – 2013. – Pp. 411-418.
Milletari F. V-net: Fully convolutional neural networks for volumetric medical image segmentation / F. Milletari, N. Navab, S.A. Ahmadi // 2016 Fourth International Conference on 3D Vision (3DV). – 2016. – Pp. 565-571.
Chen X. Vehicle detection in satellite images by hybrid deep convolutional neural networks / Chen X. [et al] // IEEE Geoscience and Remote Sensing Letters. – 2014. Vol. 11(10). – Pp. 1797-1801.
Lawrence S. Face recognition: A convolutional neural-network approach / S. Lawrence [et al] // IEEE Transactions on Neural. – 1997. – Vol. 8(1). – Pp. 98-113.
Parkhi O.M. Deep face recognition / O.M. Parkhi, A. Vedaldi, A. Zisserman // BMVC. – 2015. Vol. 1(3). – 6 p.
Simard P.Y. Best practices for convolutional neural networks applied to visual document analysis / P.Y. Simard, D. Steinkraus, J. Platt // Seventh International Conference on Document Analysis and Recognition, 2003. Proceedings. – 2003. – 958 p.
Long J. Fully convolutional networks for semantic segmentation / J. Long, E. Shelhamer, T. Darrell // Proceedings of the IEEE conference on computer vision and pattern recognition. – 2015. – Pp. 3431-3440.
Mobilenets: Efficient convolutional neural networks for mobile vision applications / A.G. Howard [et al]. – 2017. – URL: arXiv preprint arXiv:1704.04861 (Дата обращения: 20.07.2018).
Ren S. Faster R-CNN: towards real-time object detection with region proposal networks / S. Ren, K. He, R. Girshick, J. Sun // IEEE Transactions on Pattern Analysis & Machine Intelligence. – 2017. – Vol. 6. – Pp. 1137-1149.
Карпов А.А. Многомодальные интерфейсы в автоматизированных системах управления / А.А. Карпов, А.Л. Ронжин // Известия высших учебных заведений. Приборостроение. – 2005. – Т. 48. – № 7. – С.9-14.
Левоневский Д.К. Многомодальная информационно-навигационная облачная система МИНОС для корпоративного киберфизического интеллектуального пространства / Д.К. Левоневский, И.В. Ватаманюк, А.И. Савельев // Программная инженерия. – 2017. – №3. – С. 120-128.
Левоневский Д.К. Корпоративная информационная система обслуживания пользователей как компонент киберфизического интеллектуального пространства / Д.К. Левоневский [и др.] // Известия ВУЗов. Приборостроение. – 2016. – №11 (59). – С. 906-913.

Полный текст статьи (pdf)