Рубрика:
Наука и технологии
|
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|
|
ФИЛИППОВИЧ Ю.Н., к.т.н., доцент, Московский государственный технический университет им. Н.Э. Баумана, y_philippovich@it-claim.ru, |
|
ТУКАЕВ К.А., студент, Московский государственный технический университет им. Н.Э. Баумана, Москва, kirilltukaev@mail.ru, |
|
|
|
АДЕЙКИН С.А., аспирант, Московский государственный технический университет им. Н.Э. Баумана, adeykin90@gmail.com, |
|
ГАЛАКТИОНОВА Д.С., аспирант, Московский государственный университет печати им. Ивана Фёдорова, design-for-you@mail.ru |
Технология параметризированного синтеза жестов и их последовательностей на основе анимированных 3D-моделей
В статье рассматриваются вопросы разработки компонент автоматизированных систем распознания жестов — автоматизированных систем сурдоперевода. Приводится классификация и параметризация жестовых языков. Рассматриваются подходы к моделированию руки, ее структурные и кинематические характеристики. Предлагается технология параметризированного синтеза жестов и их последовательностей на основе анимированных 3D-моделей. Описывается приложение визуализации трехмерной модели руки с использованием средств библиотеки OpenGL
В настоящее время динамично развивается область инфокогнитивных технологий, направленных на повышение интерактивности взаимодействия человека с виртуальной средой (3D-визуализация, естественно-языковые интерфейсы, голосовое общение и т.д.). Одним из направлений в этой области является разработка жестомимических интерфейсов поддержки коммуникативного взаимодействия людей с ограниченными слуховыми и речевыми возможностями (инвалидов) как между собой, так и в ситуациях инклюзии в деятельность людей, не имеющих таких ограничений [5].
В России проживают миллионы глухих и плохо слышащих людей, использующих в процессе коммуникации жестовую речь. При этом большинство нормально слышащих людей не знают языка жестов, что создает большие трудности для их общения с людьми, имеющими ограничения по слуху.
В декабре 2012 года Федеральным законом № 296-ФЗ «О внесении изменений в статьи 14 и 19 Федерального закона «О социальной защите инвалидов в Российской Федерации»» произошло официальное признание русского жестового языка: «РЖЯ признается языком общения при наличии нарушений слуха и (или) речи, в том числе в сферах устного использования государственного языка Российской Федерации» (http://graph.document.kremlin.ru/page.aspx?1;1646983 – электронная копия на официальном сайте.).
Фактически эти законодательные изменения приводят к возникновению проблемы в необходимых случаях обязательного обеспечения возможности общения на РЖЯ, т.е. обеспечение сурдоперевода, в различных государственных органах и организациях. Анализ показывает, что такая возможность не может быть реализована вне современных средств коммуникативного взаимодействия людей и автоматизированных систем обслуживания населения в государственных учреждениях.
В связи с этим важным направлением обеспечения действия упомянутого Федерального Закона и вообще более широкого включения людей с инвалидностью по слуху в профессиональную и социальную сферы является создание систем автоматического сурдоперевода на основе технологии оптического распознавания динамических жестов человека [6].
Сурдоперевод двунаправленен, вследствие чего и системы его автоматизированной поддержки являются двухкомпонентными. Они содержат две подсистемы – распознавания и синтеза жестов. Основу обеих подсистем составляет словарь жестов, который реализуется как видеографическая база жестовых образов, как множество наборов жестовых последовательностей.
Создание видеографической базы жестовых образов представляется весьма трудоемкой задачей вследствие большого разнообразия и номенклатуры самих жестов, а также форм и способов их исполнения носителями жестового языка.
Предлагается технология параметризированного синтеза жестов и их последовательностей на основе анимированных 3D-моделей.
Параметры классификации жестов
В мировой практике изучения жестовых языков выделяют три открытых класса жестов, опираясь на морфологические изменения исходной формы жеста:
- неизменяемые жесты;
- жесты, меняющие место выполнения;
- жесты, траектория движения которых представляет направленное движение между двумя точками пространства.
Также существует несколько закрытых классов, куда входят, например, класс указательных жестов и класс мимических жестов [10].
Впервые морфологию жестового языка в 1960 году описал У. Стокоу в книге «Структура жестового языка» [11]. Каждый жест складывается из хирем (от греч. χείρ – рука), делящихся на три класса:
- табы, указывающие место исполнения жеста. Внутри данного параметра можно выделить три группы значений: жест может выполняться
- в нейтральном жестовом пространстве;
- на уровне какой-либо части тела, но при этом рука, выполняющая жест, не касается тела;
- в контакте с какой-либо частью тела (рука, выполняющая жест, касается тела говорящего);
- дезы, указывающие на положение кисти руки;
- сиги, описывающие траекторию движения руки. При этом учитывается как перемещение руки из одной точки пространства в другую, так и «мелкие» движения пальцев или кисти руки, в то время как положение руки в пространстве остается неизменным.
Впоследствии был введен четвертый параметр структуры жеста – относительная ориентация рук в пространстве – друг к другу и корпусу говорящего (подробно он был описан в работе Баттисона [12]).
Хиремы функционально эквивалентны фонемам, но в отличие от фонем, выстраивающихся в морфеме в линейную последовательность, в жесте-морфеме одновременно присутствует хирема каждого из трех классов.
Общее количество хирем сопоставимо с числом фонем в звуковых языках – в ASL (американском жестовом языке) имеется 12 табов, 19 дезов и 24 сига, в шведском жестовом языке соответственно 18, 22 и 24, в языке глухих южной Франции – 16, 17 и 20 и т.д. Стокоу разработал для ASL систему записи жестов как последовательности таба, деза и сига.
Рисунок 1. Письменное обозначение жестов с использованием нотации У. Стокоу
Нотация легла в основу принципа организации первого словаря американского жестового языка, в котором место жеста определялось по собственной форме жеста (отраженной в транскрипции), а не, как до этого, по переводу жеста на английский язык [1]. Но нотация Стокоу позволяет записать только те значения параметров жеста, которые Стокоу считал смыслоразличительными для американского жестового языка. Поэтому данная нотация не позволяет описать такие параметры выполнения жеста, как, например, резкость/плавность и амплитуда движения, напряженность/расслабленность руки, которые, как показали дальнейшие исследования жестовых языков, вносят существенный вклад в смысл жеста.
Первые основополагающие исследования лингвистических, психолингвистических и психопедагогических особенностей языка глухих в России провела Г.Л. Зайцева, которая также ввела термин «жестовый язык». Результаты ее многолетней работы излагаются в книге «Жестовая речь. Дактилология» [2]. Эта книга содержит на сегодняшний день единственное изданное в нашей стране грамматическое описание русского жестового языка, причем в большей степени обзорное и упрощенное.
Другой широко известной системой транскрипции жестовых языков является Гамбургская система нотации (Hamburg Notation System, сокращенно HamNoSys). Транскрипция изначально разрабатывалась таким образом, чтобы применяться для записи как можно большего числа жестовых языков: все параметры формы жеста отображаются в ней с помощью иконических значков (в отличие от транскрипции Стокоу, где символы для формы руки не были иконическими).
HamNoSys ориентирована на очень подробное описание жеста. В ней используется около двухсот символов, обозначаются не только место выполнения жеста, форма и траектория движения руки, но и ориентация руки, немануальные жесты (мимика говорящего). При записи жеста сначала записывается форма руки (рук), далее ориентация, место выполнения жеста и характер движения. Жесты в транскрипции HamNoSys довольно сложны для визуального восприятия, однако эта система записи отлично подходит для компьютерной обработки.
Если проводить аналогии с записью звучащей речи, нотацию Стокоу можно сравнить с фонематической транскрипцией, HamNoSys – с фонетической. По иному принципу строится транскрипционная система Беркли (BTS).
В основе ВТS лежит принцип выделения в жесте «значимых элементов», ее можно сопоставить с глоссированием. Одни и те же элементы жестовой структуры могут в зависимости от смысла жеста получать разное содержательное наполнение. Значение компонента жестовой структуры указывается с помощью специального индекса.
Так, например, движение руки при выполнении жеста по прямолинейной траектории передается символом L (Linear). Индекс -src'X обозначает удаление от фиксированной точки пространства: индекс -gol'X – приближение к определенной точке пространства. Соответственно в зависимости от того, какой индекс будет предшествовать символу L, движение руки будет интерпретироваться как обозначающее удаление (-src'-L) или приближение (-gol'L ) некоторого объекта к чему-либо.
Жест в транскрипции представляет собой последовательность элементов, снабженных индексами: сначала записывается форма пассивной руки, потом форма активной руки, движение руки, ориентация руки. BTS была разработана для транскрибирования жестового дискурса, поэтому нотация включает в себя символы для обозначения дискурсивного поведения говорящего – различных выражений лица, интенсивности выполнения жестов, пауз, ошибок в выполнении жестов и т.п.
Описанные выше системы записи жестов нашли применение в лингвистических научных исследованиях [3]. В повседневном применении получила развитие транскрипция Sign writing. Созданная специалистом по записи движений человеческого тела профессиональной танцовщицей, она из исследовательского инструмента быстро превратилась в форму записи жестовой речи.
В Sign writing жест не записывается как линейная последовательность символов, а изображается пиктограммой, включающей иконические изображения рук, их движений (с помощью разнообразных стрелок), их расположения относительно друг друга и говорящего, при необходимости передается выражение лица или направление взгляда, сопутствующие жесту (http://www.signbank.org – online-словарь жестов Сайнрайтинг). Цепочка жестов записывается сверху вниз. Транскрипция позволяет точно и наглядно отображать жесты, при этом остается простой для восприятия.
Все большее число носителей жестовых языков пользуются системой Sign writing, считая ее письменной формой своего родного языка. На основе Sign writing каждый язык вырабатывает собственную орфографию:
- в датском жестовом языке перестали использовать символ для соприкосновения двух рук;
- в жестовом языке Никарагуа начали подчеркивать имена собственные.
Растет число книг, переведенных с помощью Sign writing на жестовые языки. Но Sign writing продолжает использоваться и как система нотации в лингвистических исследованиях (например, в институте Солка, штат Калифорния, применяется для создания словарей жестовых языков).
Для формального описания технологии построения жеста введем шесть параметров:
- характер руки,
- форма руки,
- место исполнения жеста,
- движение,
- взаимодействие руки с окружающими предметами,
- наличие немануального компонента.
Отличие хотя бы в одном параметре может полностью поменять смысл жеста.
Каждый из этих параметров дополнен определенными характеристиками:
- «Характер руки». Значения: одноручный жест, двуручный жест (дополнительные значения: активная, пассивная рука).
- «Форма руки». Значения: пальцы разогнуты, пальцы согнуты (дополнительные значения: порядок согнутых и разогнутых пальцев).
- «Место исполнения жеста». Значения: нейтральное жестовое пространство, над головой, на уровне лица (дополнительные значения: на уровне лба, глаз, носа, рта, подбородка), на уровне шеи, на уровне груди, на уровне живота, ниже талии.
- «Движение». Значения: вверх, вниз, вправо, влево, от себя, к себе, под углом, круговое движение, резкое, плавное.
- «Взаимодействие руки с окружающими предметами». Значения: без взаимодействия, локальное взаимодействие (например, прикосновение к подбородку), внешнее взаимодействие (указание на предмет внешней среды).
- Немануальный компонент: движение губ, глаз, бровей, наклоны головы.
Способы синтеза жестовых последовательностей
Выделим следующие способы создания выборки изображений жестов:
- фотографирование каждого жеста при всех вариациях условий;
- фотографирование жестов в нейтральных условиях, с последующим программным синтезом вариаций;
- полностью программный синтез жеста по модели.
Первый способ обеспечивает наибольшую приближенность к генеральной совокупности реально распознаваемых жестов, но требует больших затрат на их подготовку и не позволяет точно измерить различные параметры вариации жестов для исследования их влияния на эффективность распознания различными методами.
Во втором способе изначально осуществляется съемка малого числа жестов, после чего из представленных фотографий вручную средствами графического редактора осуществляется сегментация, изъятие фона, нормализация по положению, ориентации, размеру и яркости. Представленная заготовка жеста далее поступает на вход программы, осуществляющей над жестом такие преобразования, как наложение на различный фон, перемещение, поворот, масштабирование, наложение шума, размытие и т.д.
Третий способ предполагает создание параметрической 3D-модели жеста. К параметрам могут относиться:
- Общие параметры (фон).
- Параметры положения (положение, ориентация, масштаб).
- Параметры освещения (координаты и прочие характеристики источников света).
- Параметры руки (геометрические параметры руки и ее элементов).
- Параметры жеста (параметры положения и руки).
Данный способ требует больших затрат на разработку модели. Модели трудно приблизиться к генеральной совокупности реально распознаваемых жестов. Но при этом удается обеспечить наиболее точную параметризацию жеста. Это делает способ наиболее удобным прежде всего для исследовательских целей.
Моделирование руки
Для моделирования жестов используются полигональные и скелетные модели рук.
Полигональная модель представляет собой образ объекта, состоящий из множества многоугольников (полигонов), при этом моделируется не столько объект, сколько покрывающая его поверхность. Визуализированная полигональную модель руки хранит большое количество параметров, описывающих движение каждого полигона.
Скелетная модель представляет собой соединенный между собой набор костей-фаланг, пальцев и запястья. При этом каждая последующая кость привязана к предыдущей с учетом иерархии в скелете. В данной модели нужно реализовать движение ключевых вершин, а также функцию отображения скелетной модели на полигональную.
Полученную скелетную модель можно визуализировать непосредственно в виде линий либо отобразить в полигональную модель, что позволит достичь высокой вариативности визуализации, сохранив малое число параметров, которое необходимо задавать пользователю при моделировании жеста.
Существует несколько способов отобразить множество вершин из скелетной модели в визуализируемую поверхность, представленную в виде множества полигонов.
В качестве примеров отображения можно привести отображение на основе геометрических примитивов, в которых вершины скелетной модели принимаются за опорные вершины различных геометрических примитивов, таких как эллипсоиды, цилиндры, тетраэдры и другие. Пример такого отображения приведен в [8], где модель состоит из цилиндров, осями которых являются ребра скелетной модели, и сфер с центрами в вершинах.
Выбор этой модели осуществлен из-за большого потенциала к параллелизму при рендеринге сфер и цилиндров, что позволяло визуализировать большое количество жестов в реальном времени. Помимо отображения на основе геометрических примитивов, можно представить более сложные виды отображения, в которых положение каждого полигона представляет собой сложную функцию от нескольких вершин скелетной модели.
Пример подобного отображения реализован в программном комплексе 3D Studio Max и позволяет избежать острых краев на изгибах поверхности кожи, реализовать более детальную и реалистичную модель. Недостатком подобных отображений являются существенно более высокие требования к вычислительным ресурса.
Выбор функции отображения осуществляется относительно нескольких критериев. Первый из них – потребность в вычислительных ресурсах. При этом критерии выбор осуществляется на основе данных о комплексе аппаратного обеспечения, на котором предположительно будет работать комплекс ПО, а также исходя из требования к скорости визуализации.
Вторым критерием является сложность программной реализации, которая связана с ограниченными ресурсами разработчиков системы.
Третьим критерием является эффективность отображения с точки зрения конечного применения модели жеста, которое можно разделить на две группы: для использования в составе мультимедийной системы визуализации жестов для восприятия людьми или для использования в составе систем распознавания жестов (для синтеза эталонных паттернов или обучающих и тестовых изображений). В первом случае оценка производится исходя из эргономических критериев (скорость восприятия с точек зрения распознавания и воспроизведения, запоминаемость, влияние на утомляемость и др.). Во втором случае оценка эффективности зависит от конкретного метода распознавания. Модель должна содержать характерные детали, по которым исходя из принятых признаков метод распознавания строит решающее правило в процессе обучения, и исключать «излишние» детали, которые могли бы привести к ее «переобучению».
Исходя из этих критериев, в данной технологии реализуется отображение на основе геометрических примитивов с цилиндрами на ребрах и сферах в вершинах скелетной модели. Данное отображение эффективно с точки зрения вычислительных ресурсов и может работать на мобильных устройствах в реальном времени. Отображение просто в реализации, а также обладает высокой визуальной схожестью с реальным изображением руки, что предположительно позволит эффективно использовать модель в составе систем синтеза жестов.
Такая модель лишена множества деталей характерных конкретных экземпляров рук или общих для всех рук, но не влияющих на значение жеста, что позволяет использовать ее при генерации обучающих и тестовых выборок для машинного обучения с низкой вероятностью возникновения переобучения.
Структура и кинематическое описание модели руки
Рука состоит из ладони, пяти пальцев и пястной кости. Мизинец, безымянный, средний и указательный пальцы имеют одинаковую структуру (три фаланги), в отличие от большого пальца (две фаланги). Первая пястная кость участвует в движении большого пальца, следовательно, можно рассматривать большой палец как состоящий из трех суставов.
В соответствии с анатомическим строением руки человека если четыре пястные кости можно рассматривать как единое целое, то рука может быть описана движением, состоящим из 16 частей. Количество степеней свободы суставов проиллюстрировано в таблице 1. Сумма степеней свободы равна 23. Поэтому состояние движения руки можно контролировать путем ввода 23 параметров.
Таблица 1. Таблица характеристик движения
Название |
Степень свободы |
Количество |
Межфаланговый сустав |
1 |
10 |
Пястно-фаланговый сустав |
2 |
5 |
Ладонь |
3 |
1 |
Упрощенная модель движения руки показана на рис.2. Мировая система координат (Т0) имеет ту же ориентацию, что и запястье. Локальные системы координат определены в середине сустава каждого пальца (Т2, Т3, Т4) и в начале ладони (Т1). Ось Х направлена вправо, ось Y – вверх, причем она совпадает у Т1, Т2, Т3, ось Z – на зрителя. Вращение фаланг пальца осуществляется на основе систем координат Т1, Т2, Т3. При вращении фаланг локальная система координат будет выполнять соответствующие действия с помощью матриц преобразования.
Рисунок 2. Модель движения руки
Матрица преобразований имеет вид:
а) для системы координат Т0,Т1: A1=MS*MX(θ)*MZ(α) =
=* *
б) для системы координат Т2: A2=A1*MT*MX1(ω)*MZ1(φ) =
=A1* * *
в) для системы координат Т3: A3=A2*MT*MX2(β) =
=A2**
г) для системы координат Т4: A4=A3*MT*MX3(ϒ) =
=A2**
Визуализация модели
Трехмерная модель руки (см. рис. 3) создана в OpenGl с использованием примитивов gluSphere и gluCylinder. Все преобразования над рукой (вращение и перемещение) выполняются с помощью функций glTranslatef(), glScalef() и glRotatef().
- glTranslatef() – умножает текущую матрицу на матрицу, перемещающую объект на расстояние (x, y, z), переданное в качестве аргументов функции, по соответствующим осям.
- glRotatef() – умножает текущую матрицу на матрицу, которая поворачивает объект (или локальную систему координат).
- glScalef() – умножает текущую матрицу на матрицу, которая масштабирует систему координат.
Рисунок 3. Трехмерная модель руки
Результатом является приложение, созданное в кроссплатформенной среде разработки Qt Creator на языке программирования C++ с использованием спецификации OpenGl. Программа позволяет создавать выборки возможных изображений распознаваемых жестов.
Рисунок 4. Скриншот приложения
Вкладки приложения позволяют редактировать: углы поворота руки и ладони; цвет фона и модели руки, который представлен в виде цветовой модели RGB; параметры ладони и каждого пальца (положение в пространстве, высота, ширина). Существует возможность сохранения настроек. Настройки сохраняются в два файла: gesture.ini и hand.ini. и settings2.ini.
В файл gesture.ini сохраняются углы поворота для каждого пальца и ладони.
В файл hand.ini сохраняются настройки руки и сцены (цвет модели руки и фона, координаты в пространстве каждого пальца и ладони, длина и ширина каждого пальца и ладони).
Заключение
Предложенная технология позволяет путем параметризации модели руки сформировать видеографические обучающие последовательности жестов, на основе которых будет построен распознающий процессор жестомимического интерфейса автоматизированной системы сурдоперевода [4].
Другим направлением использования данной технологии является синтез жестов и жестовых выражений для поддержки перевода естественно-языковых сообщений в процессе коммуникации нормально и плохо слышащими людьми. Здесь возможно построение систем <письменная речь (текст)> – <жестовая речь> или <звучащая речь> – <письменная речь (текст)> – <жестовая речь> [5].
Еще одним возможным применением данной технологии является генерация анимированной капчи с использованием жестов рук [7].
- Жестовые языки. // Энциклопедия «Кругосвет». – Central European University Regents, 2001. – www.rol.ru.
- Зайцева Г.Л. Дактилология. Жестовая речь: Учебное пособие для вузов. – М.: «Просвещение», 1991.
- Прозорова Е.В. Российский жестовый язык как предмет лингвистического исследования. // «Вопросы языкознания», № 1, 2007 г. – С. 44-61.
- Суслов А.Ю., Филиппович Ю.Н. Алгоритм выделения рук в кадре видеофрагмента при распознавании жестовой речи.// «Новые информационные технологии в автоматизированных системах», №17, 2014 г. – С. 205-215.
- Филиппович Ю.Н. Компьютерные средства поддержки коммуникативного взаимодействия людей с ограниченными слуховыми возможностями. // Proceedings of 10-th International Congress of the international society of applied Psycholinguistics «Challenges of information Society and applied psycholinguistics». RUDN-Institute of Linguistics RAN-MIL. – М.: 2013. – С. 254.
- Филиппович Ю.Н., Суслов А.Ю. Распознавание жестовых образов системы общения глухих. // Научно-техническая международная молодежная конференция «Системы, методы, техника и технологии обработки медиаконтента». Сборник тезисов. Россия, Москва, МГУП им. Ивана Федорова, 25-27 октября 2011 г. – С.108-109.
- Шумилов А., Филиппович А. Анимированная капча с использованием жестов рук. // «Системный администратор, №4, 2014 г. – С. 82-84.
- Ali Erol, George Bebis, Mircea Nicolescu, Richard D. Boyle, Xander Twobly. Vision – based hand pose estimation: A review. Computer Vision and Image understanding. 108(2007), 52 – 73.
- Xu Chao, Li Yunlong, Zhou Dongxiang, Cai Xuanping. Display of Virtual Hand and Establishment of Behavior Databases Based on 3dsMax and OpenGl. 2011 International Conference on Signal Processing Systems (ICSPS 2011).
- Zeshan U. Towards a notion of 'Word' in sign languages // R. Dixon. A. Aikhenwald (eds.). Word: A cross-linguistic typology. Cambridge, 2002.
- Stokoe W. Sign language structure: An outline of the visual communication systems of the American deaf// Studies in linguistics 21: Occasional papers 8, I960.
- Battison R. Lexical borrowing in American sign language. Silver Spring. 1978.
Ключевые слова: автоматизированные системы сурдоперевода, распознавание жестов, 3D модель руки, скелетная модель руки, OpenGL.
The technology of parameterized synthesis of gestures and their sequences based on animated 3D-models
Yuriy Philippovich, PHD, prof., Bauman Moscow State Technical, y_philippovich@it-claim.ru,
Kirill Tukaev., student, Bauman Moscow State Technical University, kirilltukaev@mail.ru,
Sergey Adeykin, graduate student, Bauman Moscow State Technical, Moscow, adeykin90@gmail.com,
Daria Galaktionova, graduate student, Moscow State University of Printing Arts, Moscow, design-for-you@mail.ru
Annotation. The article considers the questions of development of automated systems for gestures recognition - the computer translation system for sign language. A classification and parameterization of sign languages is presented. The approaches to modeling arms, its structural and kinematic characteristics are considered. New technology for synthesizing of gestures and sequences based on animated 3D-models is proposed. The experimental application of visualization of three-dimensional model of the hand with the use of the library OpenGL is presented.
Кеуwords: Computer translation system for sign language, gestures recognition, 3D-models of arms, OpenGL, gesture visualization.
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|