Американский программист Кайл МакДональд (Kyle McDonald) описал кадры прогулки по Амстердаму при помощи нейросети, разработанной исследователями из Стэнфордского университета. Кратко об эксперименте рассказывает The Verge.
Взяв в качестве аппаратной платформы MacBook Pro 2013 года, разработчик запустил на нем программу обработки видеопотока с веб-камеры и вышел на прогулку по Амстердаму, держа перед собой раскрытый ноутбук. Получившиеся в результате видео с комментариями нейросети автор опубликовал на Vimeo.
Для обработки кадров программист использовал программу NeuralTalk, которая способна описывать происходящее на статичных фотографиях связными предложениями. Алгоритм сначала распознает объекты на статичном изображении, а затем описывает естественным языком их взаимоотношение на картинке. Для изначальной тренировки нейросети использовался набор из 150 тысяч снимков, описанных вручную живыми людьми.
Портал The Verge ранее еще обратил внимание на исследование Стэнфордского университета, в рамках которого учёные разработали алгоритм, способный составлять сложные осмысленные предложения на основе фотографий.
Впервые о своей технологии Стэнфордский университет рассказал ещё в 2014 году, однако СМИ обратили внимание на неё после твита аналитика Тима Макнамары, который продемонстрировал возможности последней версии алгоритма. Он опубликовал фото, которое «машина» описала словами «мужчина пользуется ноутбуком, а его кот смотрит на экран».
A computer just captioned this as "man using his laptop while his cat looks at the screen" http://t.co/bfwr1wiiFn pic.twitter.com/1F18NCwVf9
— Tim McNamara (@timClicks) 11 июля 2015
Технология под названием NeuralTalk разработана директором Стэнфордской лаборатории искусственного интеллекта Фей-Фей Ли (Fei-Fei Li) и аспирантом Андреем Карпати (Andrej Karpathy).NeuralTalk построена на базе нейросетей. Она изучает массивы фотографий, опубликованных в интернете, и описания к ним, подобно маленькому ребёнку обучаясь распознавать различные предметы, действия и условия с помощью «компьютерного зрения». Сами исследователи называют этот процесс «построением связи между языком и визуальными данными».
Когда NeuralTalk анализирует фото, она сначала вычленяет на нём различные объекты, а затем на их основе формирует наиболее вероятные описания происходящего. Например, «леди с теннисной ракетой замахивается на подлетающий мяч» или «мужчина в пальто сидит сонный рядом со старым портативным телевизором в комнате с буфетным столиком».
Как отмечает The Verge, система всё ещё далека от совершенства и может описать толпу кричащих людей как «мужчину в зелёной футболке, стоящего рядом со слоном», однако по большей части результаты оказываются на удивление точными и подробными. Оценить качество работы NeuralTalk можно с помощью специальной демо-версии, доступной на сайте Стэнфордского университета.
В отличие от всех предыдущих попыток создать описывающий фотографии алгоритм, включая эксперимент Google 2012 года, проект Фей-Фей Ли учитывает не только объекты в кадре, но и их действия. По словам учёного, картинки и видео годами оставались «тёмной материей интернета»: автоматика не могла увидеть их содержание, поэтому компаниям вроде Google приходилось полагаться на не всегда надёжные описания от самих пользователей.
Конечная цель NeuralTalk — создать максимально точный поиск по визуальному контенту, с помощью которого пользователи смогут в одно мгновение находить в залежи семейных фотографий «моё селфи на Таймс-сквер», а также открывать на YouTube нужный фрагмент — «гномы ужинают у Бильбо дома».
Нейронные сети — алгоритмы, анализирующие информацию «слоями» подобно нервным клеткам живого организма, в последнее время часто привлекают внимание СМИ. Особую популярность конце июня получил проект Google Deep Dream, в рамках которого инженеры компании «вывернули наизнанку» технологию распознавания объектов на фото, научив нейросети «рисовать».
Источник