В MIT научили нейросеть искать объекты по речевому описанию

Инженеры Массачусетского техноуниверситета (MIT) разработали алгоритм, распознающий изображенные объекты лишь на основе голосового описания. При этом искусственному интеллекту (ИИ) не требуются дополнительные пояснения, сообщает EnGadget.

Действующим система распознавания речи для эффективного выполнения задач необходимо множество аннотаций и транскрипций. Созданная специалистами из MIT система функционирует намного проще: достаточно сказать ей «синяя футболка» и она тут же отыщет нужный объект на изображении.

В систему входят две нейросети, выполняющие определенные действия:

• первая делит картинку на сетку из мелких ячеек;
• вторая делит аудиодорожку на 1-2-секундные отрезки.

В дальнейшем ИИ проверяет точность соответствия звуковой дорожки изображению в сетке. Исследователи считают, что их разработка в дальнейшем может быть использована для создания качественных переводчиков, распознающих и производящих перевод со 100-процентной точностью.

Ранее в Лаборатории компьютерных наук MIT был создан ИИ, определяющий структуру и назначение незнакомого объекта. Предполагается, что этот алгоритм позволит усовершенствовать роботов, которые станут действительно эффективными помощниками человеку.

Источник: cio-world.ru