Обработка изображения происходит в три этапа. Сначала кадры видео передаются разработанной в Facebook нейросети FPN, которая использует пирамиды изображений и созданные на их основе пирамиды признаков для эффективного распознавания людей на кадре независимо от их размера и фона. Затем части изображения, на которых система распознала людей, передаются сверточной нейросети, которая определяет на изображении человека 14 точек, из которых составляется упрощенная модель скелета. После этого алгоритм, использующий метод опорных векторов, анализирует вычисленное на предыдущем этапе положение частей тела и сопоставляет его с положениями, соответствующими насильственному поведению.
Для того, чтобы нейросеть научилась определять положение частей тела и понимать, что на кадре происходит насилие, исследователи создали датасет, состоящий из двух тысяч размеченных снимков, снятых с дрона.
На снимках изображены несколько людей, примерно половина из которых вовлечены в насильственные действия: бьют или душат другого человека или направляют на него пистолет или нож. У каждого человека на снимке размечена модель скелета и подписано совершаемое им действие.
Исследователи разбили датасет на три части – 60% снимков использовались для тренировки, и по 20% для проверки и тестирования. В результате средняя точность распознавания насилия оказалась сравнима с наземными аналогами – 88,8%. Кроме того, это значительно превосходит точность, полученную в предыдущей работе авторов, в которой, к тому же, распознавание изображений шло не в реальном времени.