A3NET: БЫСТРЫЙ НЕЙРОСЕТЕВОЙ END-TO-END ДЕТЕКТОР ОБЪЕКТОВ НА ИЗОБРАЖЕНИЯХ ПРОИЗВОЛЬНОГО РАЗМЕРА

А.А. Алексеев
Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики (НИУ ИТМО), аспирант, 197101, Санкт-Петербург, Кронверкский пр., д. 49, Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Ю.Н. Матвеев
Д.т.н., НИУ ИТМО, заведующий кафедрой речевых информационных систем, 197101, Санкт-Петербург, Кронверкский пр., д. 49, Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Г.А. Кухарев
Д.т.н., Западнопоморский Технологический Университет, профессор, 70-310, Польша, Щецин, аллея Пястов, 17, Этот адрес электронной почты защищён от спам-ботов. У вас должен быть включен JavaScript для просмотра.

Материал поступил в редакцию 30 июля 2018 года.

Аннотация
Рассматривается новый детектор объектов с использованием сверточной сети с ядром свертки типа NiN (Network in Network). Под детекцией понимается одновременная локализация объектов на изображении и их распознавание.
Работа детектора возможна на изображениях произвольного размера. Для обучения сети методом supervised learning используются изображения 100х100 пикселей. Предлагаемый метод имеет высокую вычислительную эффективность, так при обработке HD кадра на одном ядре CPU время составляет порядка 300 мс. Как будет видно из работы, высокая степень однотипности операций сети создает условия к потоковой параллельной обработке данных на GPU, с оценочным временем работы менее 10 мс. Наш метод устойчив к небольшим перекрытиям, среднему качеству изображений детектируемых объектов и представляет собою end-to-end обучаемую модель, на выходе которой по всему изображению выдаются ограничивающие рамки и классы объектов. В работе для оценки алгоритма детекции объектов используется открытая российская база изображений, полученных с автомобильных регистраторов. Аналогичный подход может использоваться для детекции и подсчета других типов объектов, например, лиц людей. Данный метод не ограничивается использованием одного типа объектов, возможна одновременная детекция смеси объектов. Проверка алгоритма работы детектора проводилась на собственном фреймворке a3net, без использования сторонних нейросетевых программ.

Ключевые слова
Объект, детектирование, региональное предложение, CNN, NiN.

DOI
https://doi.org/10.31776/RTCJ.6305

Индекс УДК
004

Библиографическое описание
Алексеев А.А. A3Net: быстрый нейросетевой end-to-end детектор объектов на изображениях произвольного размера / А.А. Алексеев, Г.А. Кухарев, Ю.Н. Матвеев // Робототехника и техническая кибернетика. – №3(20). – Санкт-Петербург : ЦНИИ РТК. – 2018. – С. 43-52.

Литература

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks / S. Ren [et al]. – 2015.
You Only Look Once: Unified, Real-Time Object Detection [Electronic resource] / J. Redmon [et al]. – 2015. – URL: http://arxiv.org/abs/1506.02640 (Дата обращения: 18.07.2018).
Long JFully Convolutional Networks for Semantic Segmentation [Electronic resource] / J. Long, E. Shelhamer and T. Darrell. – 2014. – URL: http://arxiv.org/abs/1411.4038 (Дата обращения: 18.07.2018).
Mask R-CNN [Electronic resource] / K. He [et al]. – 2017. – URL: http://arxiv.org/abs/1703.06870 (Дата обращения: 19.07.2018).
Lee H. Simultaneous Traffic Sign Detection and Boundary Estimation using Convolutional Neural Network [Electronic resource] / H. Lee and K. Kim. – 2018. – URL: https://arxiv.org/abs/1802.10019 (Дата обращения: 19.07.2018).
Lin M. Network In Network [Electronic resource] / M. Lin, Q. Chen and S. Yan. – 2013. – URL: http://arxiv.org/abs/1312.4400 (Дата обращения: 19.07.2018).
Convolution in Convolution for Network in Network [Electronic resource] / Y. Pang. – 2016. – URL: http://arxiv.org/abs/1603.06759 (Дата обращения: 20.07.2018).
Chang J. Batch-normalized Maxout Network in Network [Electronic resource] / J. Chang and Y. Chen. – 2015. – URL: http://arxiv.org/abs/1511.02583 (Дата обращения: 20.07.2018).
Gradient-based learning applied to document recognition / Y. Lecun // Proceedings of the IEEE. – 1998. – 86(11). – Pp.2278-2324.
Shakhuro V. Russian traffic sign images dataset / V. Shakhuro, and A. Konushin // Computer Optics. – 2016. – 40(2). – Pp.294-300.
Girshick R. Fast R-CNN [Electronic resource]. – 2015. – URL: http://arxiv.org/abs/1504.08083 (Дата обращения: 18.07.2018).
Nasir Uddin Laskar M. Correspondence of Deep Neural Networks and the Brain for Visual Textures / M. Nasir Uddin Laskar, L. Giraldo, and O. Schwartz. – 2018.
Kingma D. A Method for Stochastic Optimization [Electronic resource] / D. Kingma, and Ba, J. Adam. – 2014. – URL: http://arxiv.org/abs/1412.6980 (Дата обращения: 20.07.2018).
On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima [Electronic resource] / N. Keskar [et al]. – 2016. – URL: http://arxiv.org/abs/1609.04836 (Дата обращения: 19.07.2018).
Perera P. Learning Deep Features for One-Class Classification [Electronic resource] / P. Perera. – 2018: – URL:http://arxiv.org/abs/1801.05365 (Дата обращения: 17.07.2018).
Sabour S. Dynamic Routing Between Capsules [Electronic resource] / S. Sabour, N. Frosst, G. Hinton. – 2017. – URL: http://arxiv.org/abs/1710.09829 (Дата обращения: 16.07.2018).
Hinton G. Matrix capsules with EM routing [Electronic resource] / G. Hinton, S. Sabour, N. Frosst // Openreview.net: [site]. – 2018. – URL: https://openreview.net/forum?id=HJWLfGWRb (Дата обращения: 15.07.2018).
TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems [Electronic resource] / M. Abadi [et al]. – 2016. – URL: http://arxiv.org/abs/1603.04467 (Дата обращения: 17.07.2018).
Eldan R. The Power of Depth for Feedforward Neural Networks [Electronic resource] / R. Eldan, and O. Shamir. – 2015. – URL:http://arxiv.org/abs/1512.03965 (Дата обращения: 16.07.2018).

Полный текст статьи (pdf)