Источник: BYTEmag.ru
|
Просмотров: 2376 |
Исследовательская группа Microsoft Research представила генеративно-состязательную нейросеть, которая способна генерировать изображения с несколькими объектами на основе текстового описания. В отличие от более ранних подобных алгоритмов text-to-image, которые были способны воспроизводить изображения только базовых объектов, эта нейросеть может более качественно справляться со сложными описаниями.
Сложность создания алгоритма в том, что ранее бот был не способен в хорошем качестве воссоздавать все базовые объекты по их описаниям и, кроме того, не мог проанализировать то, как несколько объектов относятся друг к другу в рамках одной композиции. К примеру, чтобы создать изображение по описанию «Женщина в шлеме сидит на лошади», нейросеть должна была семантически «понять», как каждый из объектов относится друг к другу. Эти проблемы удалось решить, обучив нейросеть на основе открытого дата-сета COCO, содержащего разметку и данные сегментации для более чем 1,5 млн объектов.
Читать всю статью
Источник: BYTEmag.ru
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|
|