ПРИКЛАДНОЙ ДИЗАЙН В РЕШЕНИИ ЗАДАЧ ОЗВУЧЕННОЙ ВЕРБАЛИЗАЦИИ ИЗОБРАЖЕНИЯ ДЛЯ ЛЮДЕЙ С ОГРАНИЧЕНИЯМИ ПО ЗРЕНИЮ
К. ф. н. Мордань В. И. *, Мордань Б. А. **
* Днепропетровский национальный университет им. Олеся Гончара, ** ООО Фирма «МоКо»
Издавна предпринимаются попытки, например, посредством применения «письма по-брайлю», звукового интерпретатора языка Брайля, рельефных шрифтов, «узелкового письма», рельефных графических изданий и т.п., приобщить людей с ограничениями по зрению к огромному культурному богатству в виде текстов и изображений, веками накапливающемуся на разного рода носителях, предназначенных для визуального восприятия. Но все это было и остается решениями крайне узкого применения и трудоемкими в реализации. Последние же достижения компьютерных технологий, выйдя из лабораторий в сферу широкого применения, начинают менять ситуацию. Достаточно иметь компьютер, планшет, электронную книгу или другое мобильное приспособление подобного рода. К этому, правда, еще необходима соответствующая компьютерная программа (например, такая как популярная Balabolka ), и может быть озвучен любой предварительно оцифрованный текст. Но во всех случаях текст должен быть предварительно тем или иным способом, например, посредством сканирования, кем-то введен в компьютерное устройство и специально подготовлен. Впрочем, эта технология достаточно отработана, более того, в настоящее время оцифровываются целые библиотеки.
Однако, пока остается проблемной интеграция незрячих непосредственно в повседневную жизнь, а это – прочитать не подготовленный заранее тот или иной документ, объявление, газету, наконец, книгу. Проблемным на сегодня является распознавание рукописного текста. Кроме того, печатные визуально воспринимаемые тексты, состоящие из одиночных или из комбинации графем, содержат массу элементов, выраженных различными изобразительными средствами, которые текст организовывают, делают более выразительным и более воспринимаемым. Есть и такие элементы, которые берут на себя часть выражаемую текстом, и иногда часть, более весомую. Это самые разнообразные и разнохарактерные изобразительные элементы: рисунки, фотографии и украшательства с акцентирующей функцией, вроде буквицы, колонтитулы с наполнением и без, шрифты разного начертания, размера, окраски и выделения, наконец, сама топология текста относительно поля носителя и его окраска. Фон – также серьезный фактор в деле восприятия написанного. Особую роль указанные элементы играют в таких коммуникативных областях как СМИ, реклама, дизайн-проектирование и им подобных. Это области, где порой трудно определить, что содержательно важнее – вербальная или изобразительная составляющая [3]. Т.е., даже при чтении текстовой информации встает вопрос о распознавании изображения и представления его в форму, доступную для незрячих. Кстати, рукописный текст – это тоже, по сути, рисунок. Правда, есть сообщения о создании специальных, достаточно дорогих, дисплеев-планшетов с игольчатой структурой, которые способны формировать образ рисунка в виде рельефа [7]. Но далеко не все передаваемо рельефом, даже очень подробным (цвет, например). Очевидно, реальнее говорить о развитии технологии распознавании изображения, его вербализации и последующем озвучивании.
В связи с названными проблемами нами поставлены такие задачи:
- поиск решения вопросов сканирования обозреваемого объекта самим незрячим;
- обеспечение единого подхода к распознаванию любых графических объектов и расчленению их на составляющие;
- создание единой универсальной базы для оригиналов графических компонентов, включающей не только алфавитные знаки, но и знаки, определяющие содержание того или иного сложного изображения во взаимосвязи с их вербальным отображением;
- решение проблемы актуализации структур и данных, а также поиска содержимого;
- решение проблемы формирования связного текста из отдельных слов, описывающих содержание изображения.
Как видим, основной состав и содержание поставленных задач относится к области прикладного дизайна , как одного из разделов науки о прикладной изобразительной (иконической) коммуникации . Именно прикладного, – поскольку все чаще наблюдаем как в изобразительном искусстве эстетические функции постепенно перетекают в прикладные, – так диктует время. И когда сегодня иконические представления выходят далеко за рамки коммуникативных или эстетических потребностей, проникая, например, в такие области как химия, биология, кристаллография или нанотехнология (здесь мы встречаем выражения «молекулярный дизайн » , « дизайн кристаллообразования», « дизайн клетки», «а томно-силовая микроскопия ( дизайн , новые приложения, <…>) и т.п. [2] ), в нашей ситуации использование дизайнерских наработок более, чем уместно.
Из названных задач первой решается задача формирования единой базы. Содержательно и идеологически – это открытый тезаурус, в котором знания отображаются вербальными и изобразительными средствами разного уровня: от элементарных единиц до уровня, подобного текстовому, как в статическом представление, так и представлении анимированном, как в 2D-, так и в 3D-виде. На очереди отображение фонетической составляющей (тембр, интонация и т.п.), что необходимо для полноценного озвучивания [4]. В качестве стартового объект для моделировании принято лицо человека, его составляющие и поведенческое окружение (прическа, головной убор, кисти рук и т.п.). В связи с этим формируется коллекция поведенческих состояний в вербальном представлении (наподобие приведенного в [6]) и в представлении изобразительном. Конструктивно база представляет собой систему реляционных таблиц-отношений. Такой подход позволяет неограниченно пополнять не только содержание, но и модифицировать структуру с минимальными изменениями структуры, уже существующей. Но, что еще более важно, появляется возможность под конкретные приложения формировать ограниченные по объему множества отношений, поскольку тезаурус в полном объеме достаточно ресурсоемкий объект, и чаще всего не всегда есть потребность в реализации всех его возможностей. На начальном этапе создаются таблицы-отношения со ссылками на элементы стартового объекта и таблицами с описанием поведенческих состояний. Текст пока представляется в т.н. «телеграфном стиле», в дальнейшем это будет текст связный. Взаимодействие с базой осуществляется: н а нижнем уровне с использованием языка SQL, а на верхнем с помощью осовремененного языка ЯПИС [5]. Обращение к базе производится как на стадии распознавания графических образов, так и на стадии формирования текста. В зависимости от цели поиска как ключ может использоваться фрагмент изображения или отрезок текста.
Для нормального функционирования информационной базы остро стоит не простая задача ее актуализации. Здесь достаточно четко различим стартовый этап и текущие корректировки по мере возникновения соответствующих событий. На первом этапе разыскиваются любые графические представления тех или иных материальных объектов, состояний, процессов, событий и т.п. Очень продуктивным на этот счет является, сбор, анализ (причем анализ совместно с антецедентом) и препарирование разного рода объектов графической стилизации. Это логотипы, где естественным образом пересекаются графическая и вербальная составляющие; это разного рода пиктограммы и геральдические знаки, где достаточно прозрачно пресуппонируется содержательный уровень, а иногда и весьма четко проглядывает упомянутый антецедент, т.е. то, что заменяется стилизованным изображением. В этом плане особый интерес представляют комиксы и портретная графика, выраженная в такой ее разновидности как шарж , в котором, следуя Википедии «при определённом внешнем сходстве гипертрофированно обособлены самые характерные черты модели». Таким способом отображается множество абстрактных понятий, не имеющих предметного аналога, скажем, таких как ласковый, злой, холодный и т.п.
Касаясь проблемы «подлаживания» под пользователя и обеспечения условий наилучшего, удобного пользования системой. Здесь, прежде всего, имеется ввиду формирование не просто связного текста, но и включение в него эмотивных компонентов (интонации, темп и т.п.). Поэтому технология ведения тезауруса предполагает такие этапы как предюзабилити-анкетирование и постюзабилити-тестирование , т.е. вначале с помощью специального анкетирования опрашивается пользователь и его окружение, а затем уже при функционировании системы анализируются впечатления от пользования ею. Результаты первого из этапов (отдельные, часто употребляемые слова и выражения, интонации и т.п.) в том или ином виде включаются в тезаурус как персонифицированные данные (например, как парадигма типа «канал восприятия»). Имеется опыт подобного анкетирования при создании и ведении т.н. ассоциативных тезаурусов [1; 8].
В конструктивном плане оконечным устройством системы является WEB -камера, закрепляемая между пальцами руки с возможностью визирования на поверхность под ладонью (на данном этапе за этим положением закреплен режим сканирования текста) или вдоль руки (режим захвата изображения). Так обеспечивается сканирование информационного носителя и внешний обзор с последующей вербализацией и озвучиванием через наушники. В режиме обзора озвучиваемый объект представлен, как отмечалось, в «телеграфном стиле», а распознаваемые объекты это лицо человека. Информационные и программные компоненты ориентированы на доступный микропроцессор, располагаемый в компактном носимом устройстве. Программное обеспечение соответственно реализуется на языке С-уровня.
Список использованных источников:
1. Автоматизированная система научных исследований ассоциативных экспериментов (АСНИ АЭ) [Электронный ресурс]. – Режим доступа: http://philippovich.ru/Projects/ASIS
2. Молекулярный дизайн и экологически безопасные технологии [Электронный ресурс]. – Режим доступа: http://srd.nsu.ru/structure/labs/lab13/index.htm или http://www.ngpedia.ru/id3629p3.html или http://www.dissercat.com/content/matematicheskie-modeli-prognoza-i-molekulyarnyi-dizain-biologicheski-aktivnykh-analogov-pros
3. Мордань В. И. Метаязыковые проблемы вербально-иконической коммуникации / В. И. Мордань // Вісник Дніпропетровського університету . Серія “Мовознавство”. – № 11. –2009. – Вип . 15, т. 2. – С. 95–102.
4. Мордань В. И. Открытый тезаурус как инструмент анализа метаязыковых вербально-иконических параллелей / В. И. Мордань // Вісник ДНУ (№ 11, т.19, 2011). Сер." Мовознавство ". – 2011. – Вип. 17, т.3. – С. 124–129
5. О реализации документального контура многоцелевой информационно-справочной системы / Мордань В. И., Кожурин Ф. Д., Грунский Н. Н., Карпенко В. И. // Журн.УСиМ . – 1984 . – №1 . – С. 93–98.
6. Невербальные элементы в общении [Электронный ресурс]. – Режим доступа: http://tipolog.narod.ru/Concept/Metodika_tipirovaniya/neverbalny_element_v_obschenii.htm
7. Создан новый дисплей для слепых [Электронный ресурс]. – Режим доступа: http://www.374.ru/index.php?x=2007-11-14-22
8. Филиппович А. Ю. Автоматизированная система научных исследований ассоциативных экспериментов (АСНИ АЭ) / А. Ю. Филиппович // Вопросы психолингвистики . – М., 2008 . – 6, 2007 . – С. 142–152.