Мультимодальный маскированный автоэнкодер в скрытом пространстве для трехмерного обнаружения объектов

Филатов Николай Сергеевич
Санкт-Петербургский Политехнический университет Петра Великого (СПбПУ), 195251, Санкт-Петербург, ул. Политехническая, д. 29; инженер-программист искусственного интеллекта, Цельс (ООО «Медицинские скрининг системы»), 191014, Санкт-Петербург, ул. Жуковского, д. 63, Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра., ORCID: 0000-0002-0657-1256

Индекс УДК: 004.896

EDN: UUJLHI

Аннотация. В условиях автономного вождения и робототехники трёхмерное обнаружение объектов играет решающую роль, однако при этом важны не только высокие показатели точности, но и скорость предсказаний, а также устойчивость к сбоям сенсоров. Существующие решения, включая методы на основе LiDAR или только на основе камер, зачастую не удовлетворяют всем трём требованиям одновременно. В данной работе предлагается улучшение мультимодального метода трехмерного обнаружения объектов за счет мультимодального маскированного автоэнкодера в скрытом пространстве признаков. Разработаны уникальные, специализированные под задачу, стратегии маскирования и реконструкции. Эксперименты на наборе данных nuScenes демонстрируют, что предложенный подход превосходит предшествующие решения с оптимизированным быстродействием по метрикам точности (mAP, NDS), сохраняет высокую скорость (до 8.23 Гц на видеокарте RTX 3060) и показывает большую устойчивость к различным сценариям отказа датчиков.

Ключевые слова: трехмерное обнаружение объектов, маскированный автоэнкодер, нейронные сети, автономное вождение

Для цитирования: Филатов Н.С. Мультимодальный маскированный автоэнкодер в скрытом пространстве для трехмерного обнаружения объектов / Н.С. Филатов // Робототехника и техническая кибернетика. – Т. 13. – № 4. – Санкт-Петербург : ЦНИИ РТК. – 2025. – С. 301-308. – EDN: UUJLHI.

Список источников

Cross modal transformer: Towards fast and robust 3d object detection / Yan J. [et al.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023. Pp. 18268-18278. ArXiv:2301.01283v3 [cs.CV] 18 Sep 2023.
Filatov N. Continuous Token Partitioning for Real-Time Multi-modal 3d Object Detection / N. Filatov, R. Potekhin // International Conference on Neuroinformatics. – Cham : Springer Nature Switzerland. 2024. Pp. 426-437, 2025. – DOI: 10.1007/978-3-031-80463-2_40. – Text: electronic.
Unitr: A unified and efficient multi-modal transformer for bird’s-eye-view representation / Wang H. [et al.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. Pp. 6792-6802. ArXiv:2308.07732v1 [cs.CV] 15 Aug 2023.
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding / Devlin J. [et al.]. – DOI: 10.48550/arXiv.1810.04805 – Text: electronic.
BEiT: BERT Pre-Training of Image Transformers / Bao H. [et al.]. – DOI: 10.48550/arXiv.2106.08254 – Text: electronic.
Masked autoencoders are scalable vision learners // Proceedings of the IEEE/CVF conference on computer vision and pattern recognition / He K. [et al.]. – 2022. 16000-16009. ArXiv:2111.06377v3 [cs.CV] 19 Dec 2021.
ConvMAE: Masked Convolution Meets Masked Autoencoders / Gao P. [et al.]. – ArXiv:2205.03892. arXiv, 2022.
Masked Autoencoder for Pre-Training on 3D Point Cloud Object Detection / Xie G. [et al.] // Mathematics. MDPI, 2022. Vol. 10, № 19. P. 3549. – DOI:10.3390/math10193549. – Text: electronic.
Pimae: Point cloud and image interactive masked autoencoders for 3d object detection / Chen A. [et al.] // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pp. 5291-5301. ArXiv:2303.08129v1[cs.CV] 14 Mar 2023.
Zhang Y. Cmae-3d: Contrastive masked autoencoders for self-supervised 3d object detection / Zhang Y., Chen J., Huang D. // International Journal of Computer Vision. Springer, 2024. Pp. 1-22. – DOI:10.1007/s11263-024-02313-2. – Text: electronic.
Bevfusion: Multi-task multi-sensor fusion with unified bird’s-eye view representation / Liu Z. [et al.] // 2023 IEEE international conference on robotics and automation (ICRA). IEEE, 2023. Pp. 2774-2781. ArXiv:2205.13542v3 [cs.CV] 1 Sep 2024.
Deepinteraction: 3d object detection via modality interaction / Zeyu Yang [et al.] // Advances in Neural Information Processing Systems. Vol. 35. Pp. 1992-2005. – DOI:10.48550/arXiv.2208.11112. – Text: electronic.
Yan Y. Second: Sparsely embedded convolutional detection / Yan Y., Mao Y., Li B. // Sensors. Multidisciplinary Digital Publishing Institute, 2018. Vol. 18, № 10. P. 3337. DOI: 10.3390/s18103337. – Text: electronic.
Data2vec: A general framework for self-supervised learning in speech, vision and language / Baevski A. [et al.] // International Conference on Machine Learning. PMLR, 2022. Pp. 1298-1312. – DOI: 48550/arXiv.2202.03555. – Text: electronic.
nuscenes: A multimodal dataset for autonomous driving / Caesar H. [et al.] // Cornell University. – DOI: 10.48550/arXiv.1903.11027. 2019. – Text: electronic.
UniTR: A Unified and Efficient Multi-Modal Transformer for Bird’s-Eye-View Representation / Wang H. [et al.] // Proceedings of the IEEE/CVF International Conference on Computer Vision. Pp. 6792-6802. ArXiv:2308.07732v1 [cs.CV] 15 Aug 2023.

Поступила в редакцию 03.03.2025
Поступила после рецензирования 24.04.2025
Принята к публикации 31.08.2025

Полный текст статьи (pdf)