Cover v7 iss3 2019

Распознавание сцены в мобильной робототехнике для замкнутых пространств: современное состояние и тенденции

Орлова Светлана Ринатовна
Санкт-Петербургский Политехнический университет Петра Великого (СПбПУ), инженер-исследователь, 195251, Санкт-Петербург, ул. Политехническая, д. 29, тел.: +7(911)005-31-30, Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Лопота Александр Витальевич
д.т.н., доцент, Центральный научно-исследовательский и опытно-конструкторский институт робототехники и технической кибернетики (ЦНИИ РТК), директор-главный конструктор, 194064, Санкт-Петербург, Тихорецкий пр., д. 21, тел.: +7(812)552-13-25, Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра., ORCID:0000-0001-8095-9905

Материал поступил в редакцию 07 октября 2021 года.

Аннотация
В статье обсуждается задача распознавания сцены в мобильной робототехнике. Рассматриваются подзадачи, которые необходимо решить для реализации высокоуровневого понимания окружающей среды. Основой здесь является понимание геометрии и семантики сцены, которое можно декомпозировать на подзадачи локализации робота, построения карты и семантического анализа. Методы одновременной локализации и построения карты (SLAM) уже успешно применяются и, хотя и имеют некоторые пока не решённые проблемы для динамичного окружения, не представляют проблемы в рассматриваемом вопросе. Фокус работы держится на задаче семантического анализа сцены, предполагающей трёхмерную сегментацию. Область трёхмерной сегментации, подобно области сегментации изображений, была декомпозирована на семантическую и объектную сегментации, вопреки нуждам многих потенциальных приложений. Однако в настоящее время начинает развиваться и направление паноптической сегментации, объединяющее два предыдущих и наиболее полно описывающее сцену. В работе проведён обзор методов трёхмерной паноптической сегментации, выявлены перспективные подходы. Также обсуждаются актуальные проблемы задачи распознавания сцены. Явно прослеживается тенденция к разработке комплексных инкрементальных методов метрико-семантического SLAM, объединяющих сегментацию с SLAM методами, и использование графов сцены, позволяющих описать геометрию, семантику элементов сцены и связи между ними. Графы сцены особенно перспективны для области мобильной робототехники, поскольку обеспечивают переход от низкоуровневых представлений объектов и пространств (например, сегментированные облака точек) к описанию сцены высокого уровня абстракции, близкого человеческому (список объектов в сцене, их свойства и расположение друг относительно друга).

Ключевые слова
Мобильная робототехника, система технического зрения, компьютерное зрение, паноптическая сегментация, SLAM, граф сцены.

Благодарности
Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 20-37-90039.

DOI
10.31776/RTCJ.10102

Индекс УДК
004.896:004.832

Библиографическое описание
Орлова С.Р. Распознавание сцены в мобильной робототехнике для замкнутых пространств: современное состояние и тенденции / С.Р. Орлова, А.В. Лопота // Робототехника и техническая кибернетика. – Т. 10. - № 1. – Санкт-Петербург : ЦНИИ РТК. – 2022. – С. 14-24. – Текст : непосредственный.

Литература

Kimera: an open-source library for real-time metric-semantic localization and mapping / A. Rosinol, M. Abate, Y. Chang, L. Carlone // 2020 IEEE International Conference on Robotics and Automation (ICRA). — 2020. – P. 1689-1696. — URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9196885&tag=1 (accessed 19.01.2022). — Text : electronic.
3d scene graph: A structure for unified semantics, 3d space, and camera / I. Armeni, Z.-Y. He, J. Gwak [et al] // CVF International Conference on Computer Vision (ICCV). — 2019. — P. 5664-5673. — URLP: https://openaccess.thecvf.com/content_ICCV_2019/papers/Armeni_3D_Scene_Graph_A_Structure_for_Unified_Semantics_3D_Space_ICCV_2019_paper.pdf (accessed 19.01.2022). — Text : electronic.
PanopticFusion: Online volumetric semantic mapping at the level of stuff and things / G. Narita, T. Seno, T. Ishikawa, Y. Kaji // IEEE International Workshop on Intelligent Robots and Systems (IROS). — 2019. — P. 4205-4212. — URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8967890 (accessed 19.01.2022). — Text : electronic.
Pyramid scene parsing network / H. Zhao, J. Shi, X. Qi // IEEE Conference on Computer Vision and Pattern Recognition. — 2017. — P. 2881-2890. — URL: https://ieeexplore.ieee.org/stamp/
stamp.jsp?tp=&arnumber=8100143 (accessed 19.01.2022). — Text : electronic.
Mask R-CNN / K. He, G. Gkioxari, P. Dollár, R. Girshick // International Conference on Computer Vision (ICCV). — 2017. – P. 2961-2969. — URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8237584 (accessed 19.01.2022). — Text : electronic.
Lorensen, W. E. Marching cubes: A high resolution 3D surface construction algorithm / W. E. Lorensen, H. E. Cline // Proceedings of the 14th annual conference on Computer graphics and interactive techniques. — 1987. — P. 163-169. — URL: https://doi.org/10.1145/37401.37422 (accessed 19.01.2022). — Text : electronic.
Lafferty, J. Conditional random fields: Probabilistic models for segmenting and labeling sequence data / J. Lafferty, A. McCallum, F. C. Pereira // Proceedings of the Eighteenth International Conference on Machine Learning. — 2001. — P. 282-289. — URL: https://repository.upenn.edu/cgi/viewcontent.cgi?article=1162&context=cis_papers (accessed 19.01.2022). — Text : electronic.
Lidar-based panoptic segmentation via dynamic shifting network / F. Hong, H. Zhou, X. Zhu [et al] // IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 2021. — P. 13090-13099. — URL: https://openaccess.thecvf.com/content/CVPR2021/papers/Hong_LiDAR-Based_Panoptic_Segmentation_via_Dynamic_Shifting_Network_CVPR_2021_paper.pdf (accessed 19.01.2022). — Text : electronic.
Comaniciu, D. Mean shift: A robust approach toward feature space analysis / D. Comaniciu, P. Meer // IEEE Transactions on pattern analysis and machine intelligence. — 2002. — vol. 24. — No. 5. — P. 603-619. — URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=1000236 (accessed 19.01.2022). — Text : electronic.
SceneGraphFusion: Incremental 3D Scene Graph Prediction from RGB-D Sequences / S.-C. Wu, J. Wald, K. Tateno [et al] // IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 2021. — P. 7515-7525. — URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9578559 (accessed 19.01.2022). — Text : electronic.
Learning 3d semantic scene graphs from 3d indoor reconstructions / J. Wald, H. Dhamo, N. Navab, F. Tombari // IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 2020. — P. 3961-3970. — URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9156565 (accessed 19.01.2022). — Text : electronic.
Tateno, K. Real-time and scalable incremental segmentation on dense slam / K. Tateno, F. Tombari, N. Navab // IEEE International Workshop on Intelligent Robots and Systems (IROS). — 2015. — P. 4465-4472. URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7354011 (accessed 19.01.2022). — Text : electronic.
Semantic loop closure detection based on graph matching in multi-objects scenes / C. Qin, Y. Zhang, Y. Liu, G. Lv // Journal of Visual Communication and Image Representation. — 2021. — vol. 76. — No 103072. — URL: https://doi.org/10.1016/j.jvcir.2021.103072 (accessed 19.01.2022). — Text : electronic.
3RScan // GitHub : [сайт]. — URL: https://github.com/WaldJohannaU/3RScan (дата обращения: 26.01.2022). — Текст : электронный.
SceneNN: A Scene Meshes Dataset with aNNotations : [сайт]. — URL: http://103.24.77.34/scenenn/home/ (дата обращения: 26.01.2022). — Текст : электронный.
Matterport3D: Learning from RGB-D Data in Indoor Environments / A. Chang // niessner.github : [сайт]. — URL: https://niessner.github.io/Matterport/ (дата обращения: 26.01.2022). — Текст : электронный.
Replica Dataset // GitHub: [сайт]. — URL: https://github.com/facebookresearch/Replica-Dataset (дата обращения: 26.01.2022). — Текст : электронный.
Real-time 3D reconstruction at scale using voxel hashing / M. Nießner, M. Zollhöfer, S. Izadi, M. Stamminger // ACM Transactions on Graphics. — 2013. — vol. 32. — No 6. — URL: https://doi.org/10.1145/2508363.2508374 (accessed 19.01.2022). — Text : electronic.
Muglikar, M. Voxel map for visual slam / M. Muglikar, Z. Zhang, D. Scaramuzza // IEEE International Conference on Robotics and Automation (ICRA). — 2020. — P. 4181-4187. — URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9197357 (accessed 19.01.2022). — Text : electronic.
Panoptic segmentation / A. Kirillov, K. He, R. Girshick [et al] // IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 2019. — P. 9404-9413. — URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8953237 (accessed 19.01.2022). — Text : electronic.
Action genome: Actions as compositions of spatio-temporal scene graphs / Jingwei Ji, Ranjay Krishna, Li Fei-Fei, Juan Carlos Niebles // IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). — 2020. — P. 10236-10247. — https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9157115 (accessed 19.01.2022). — Text : electronic.
Arase, K. Rethinking task and metrics of instance segmentation on 3D point clouds / K. Arase, Y. Mukuta, T. IEEE/CVF International Conference on Computer Vision Workshop (ICCVW). — 2019. — URL: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9022256 9157115 (accessed 19.01.2022). — Text : electronic.

Полный текст статьи (pdf)