ДИНАМИЧЕСКИЕ МОДЕЛИ КОНСТАНТНОГО СТЕРЕОВОСПРИЯТИЯ Проективные инварианты и зрительная память

а Исходная постановка задачи. Зрительная система реализует одну из главнейших (нелингвистических) функций интеллекта — функцию дистантного отображения предметного мира с его твердо установ-

i ленными свойствами целостности и константности. В когнитивной, а в еще большей мере в гештальт-психологии разработаны принципы организации зрительного процесса. Современная нейрофизиология описала некоторые частные его механизмы, тем не менее ситуация в целом остается весьма неудовлетворительной: отсутствие сколь-нибудь полных концептуальных моделей восприятия является, по мнению ряда исследователей [27], самым основным препятствием на пути познания в этой области.

Не имея возможности охватить даже главные из поставленных сегодняшней наукой вопросов и сознательно смирившись с издерж ками фрагментарного и модельно-абстрактного подхода, ограничимся рассмотрением группы смежных проблем пространственного восприя тия, с необходимостью объединяющей такие аспекты деятельност! зрительного интеллекта, как константность, стереопсис, иконическа! память и восприятие движения. Не претендуя на новизну трактовк» каждого из перечисленных аспектов в их независимом проявлении попытаемся выявить общую картину их взаимосвязи в рамках неко торой целевой гипотезы, состоящей из нескольких тезисов, которун сформулируем так:

а)         механизмы инвариантного восприятия объекта и непредметные механизмы константности зрительного поля родственны по форм<представления обрабатываемой в них информации;

б)         эта форма — результат использования группы инварианто1оптического преобразования изображения в задаче установлени)пространственной структуры объекта (и сцены в целом) по относительному движению наблюдателя и объектов;

в)         структура объекта (или видимого поля) и его константное™актуализируются одновременно трехмерной сенсорной моделью видимого;

* г) движение объекта регистрируется дискретно (по тактам) ико нической. памятью, обеспечивая возможность изоморфного отображе ния наблюдаемого.

Оставив до заключительного раздела рассмотрение пп. а) и г) займемся разработкой языка инвариантов (п.б), Сдающих возмож­ность решить задачу "структура объекта по его движению" [26] (час­тично в п.в)) и сформулируем саму эту задачу. Под объектом, есл? это не оговорено особо, будем далее подразумевать совокупное™ контрастных точек поверхности некоторого твердого тела. Входное изображение оптическая часть системы формирует как плоскук центральную проекцию объекта. И поскольку относительное движение объекта складывается (согласно п.г)) из ряда мгновенных его пространст­венных положений, система благодаря наличию памяти располагает набором двумерных координат точек за несколько тактов времен? (включая текущий момент).

Первый из алгоритмов пространственной интерпретации движу­щегося объекта ориентирован на выяснение принципиальных возмож­ностей вводимого нами аппарата проективных инвариантов. Отсюдг простота этого алгоритма как результат ограничения допустимых видов движения объектов, задания извне характера корреспонденции (соответствия) точек и исключения окклюзии. Разбор второго алго­ритма нацелен на обсуждение более сложных движений (непрозрач­ного) объекта и экстраполяции карты контрастных точек следующегс такта.

Нас будет интересовать решение следующей задачи: для объек­та неизвестной формы, совершающего заданный тип движения с неиз­вестными параметрами, вычислить с точностью до масштабного коэффициента трехмерные координаты всех точек данного объекта и определить характеристики движения (например, пространственной ориентации оси вращения и угловой его скорости в единицах такта), если система располагает координатами точек на центральной проек­ции объекта за ряд тактов.

Установление соответствия, инварианты и ассоциация. Установ­лением соответствия называют процедуру идентификации одноименных элементов объекта в группе его проекций, осуществленных в разные моменты времени (или одновременно с разных позиций, если речь идет о многоокулярном стереосинтезе). Стереопсис человека исследо­ван весьма подробно как в динамическом (параллакс движения), так и в статическом (бинокулярный синтез) его аспектах.

Из всего обширного эмпирического и концептуального материа­ла, относящегося к этой сложнейшей психофизиологической проблеме, мы выберем два тезиса, доказанных весьма скрупулезно и убеди­тельно [26]:

установление соответствия — операция нижнего уровня, не зави­сящая от трехмерной интерпретации сцены и оперирующая только опорными элементами (контрастными точками);

в рамках процесса установления соответствия нет фундаменталь­ных отличий между действительным (гладким) и кажущимся (орга­низуемым серией дискретных предъявлений) движениями.

Первое из этих положений разрывает порочный круг причинных зависимостей в цепи корреспонденция—интерпретация в пользу пер­вичной и жестко детерминированной природы установления соответст­вия. Второе важно в том методическом отношении, что дискретная (потактная) регистрация движения, исключая использование дифферен­циальных процедур типа прослеживания траектории точки или создания карты их скоростей, подчеркивает ассоциативный характер процесса установления соответствия (тем более монопольный, чем ббльшие сме­щения объекта на центральной проекции совершаются за такт). Идею потактной обработки динамической проекции сцены в биологичес­ких системах содержательно подтверждает и феномен скачкообраз­ного движения глаз с фазами саккадического подавления.

Итак, ближайшая наша цель — наметить пути конструктивного использования инвариантных геометрических свойств объекта, совер­шающего некое регулярное движение относительно системы наблюде­ния при условии, что она располагает механизмом иконической памяти и способностью к зрительной ассоциации.

Будем именовать двойное отношение четырех точек на прямой (являющееся фундаментальным проективным инвариантом) вурфом, уточняя порождающую его процедуру подразделением на пространст­венный 5-вурф (случай разных точек на проекции данного такта) и временнбй f-вурф (из позиций одноименной точки в разные такты).

Вурф на плоскости можно строить по пяти неколлинеарным ее точкам а, Ъ, с, d, е таким, например, образом: прямая bd пере­секается прямыми ас и ее в точках а' и е', которые вместе с b и d образуют четверку вурфа w(ba'e'd). Число w присваиваем точке с. Любой замкнутый плоский контур с более чем четырьмя точками на нем (например, вершинами многоугольника) можно охарактеризовать циклической последовательностью s-вурфов, вычис­ляемых при последовательном переборе точек контура (в качестве рассмотренной выше точки с и ее двух левых и двух правых соседних точек контура), т.е. описать его циклическим набором чисел инвариантно относительно группы проективных преобразований плоскости.

Аналогичным образом для объекта, вращающегося равномерно вокруг неподвижной оси, по любой его точке за ряд тактов можно вычислить цепочку совпадающих '-вурфов. Если на проекции коор­динаты точек задаются с некоторой погрешностью, установление соответствия между двумя цепочками j-вурфов, принадлежащими смежным тактам, вырастает в задачу "мягкой ассоциации" [28] числовых последовательностей (в случае полиэдрального объекта — ассоциации вурфов в вершинах каждой видимой его грани).

Итак, в дополнение к теоретическому методу минимального отображения в задаче установления соответствия [26] (как нетрудно показать, приводящему к ложной корреспонденции при больших смещениях объекта за такт) можно предложить идею метода ассо­циации упорядоченных наборов s-вурфов, безразличного к сдвигам, вращениям, перспективным искажениям и другим проективным преоб­разованиям, совершающимся с центральной проекцией сцены за такт, и устанавливающего поименованное соответствие сразу для всех пар точек в наборе. Примеры того, как выглядит переход от плоских контуров к их двумерному проективно инвариантному описанию, приведены на рис. 3. Пары проективно-инвариантных шести- и восьмиугольников (нижний ряд) отображаются в вурф-квадрат (верхний ряд). Вершины многоугольников мечены через одну. Штриховыми линиями изображены локальные изменения формы фигур и их новое инвариантное представление.

Редукция задачи. Если система располагает набором полевых периферических детекторов движения, задающих начальную класте­ризацию точек разных объектов и классификацию направлений и типов их движения, то наличие гипотетических вурф-детекторов могло бы послужить основой для организации итеративно функционирующей структуры, согласовывающей гипотезы о динамике объектов и собст­венных смещениях и поворотах системы.

Эта надежда основывается на формальных возможностях (пока в полной мере не изученных) использования аппарата s- и '-вурфов для группы задач, именуемых задачами препарирования изображения динамической сцены (выявление типа движения каждого объекта: вращается, движется прямолинейно, совмещает оба типа и т.п.); оценка параметров их движения (трехмерный вектор мгновенной скорости, угловая скорость и пространственная ориентация оси вращения и пр.), и для задач автоориентирования системы. Например, для объекта, движущегося прямолинейно с постоянной скоростью, '-вурф любой его точки (за любые четыре такта) равен 4/3, а для равномерно вращающегося объекта легко построить <-вурф (связанный с любой точкой объекта и положением центра ее вращения на проекции), числен­ное значение которого выразит угловую скорость объекта.

Движение проекции изолированного объекта можно приближенно

охарактеризовать двумерными глобальными параметрами усреднен­ного смещения всех его точек на центральной проекции, аппрок­симирующими проекцию траектории центра масс объекта. К числу глобальных параметров движения объекта отнесем пространственную ориентацию оси R его вращения, которую* удается оценить с помощью вычисленного набора вурфов. Знание глобальных парамет­ров позволяет найти углы переориентирования оптической оси систе­мы (пусть она совпадает с осью Z системы) в положение простран­ственного пересечения с осью R. Когда ось Z заняла новое положение, остается повернуть координатную сетку XY на проекции до совмещения образа R с X или Y, после чего объект займет в системе координат XYZ каноническое положение, в котором наиболее просты все дальнейшие процедуры вычисления его формы.

Итак, если повороты оси Z возможны (а прецессия и бифур­кации объекта маловероятны), процедуру решения поставленной нами задачи предлагается разбить на два этапа:

оценив для данного объекта его глобальные параметры, перейти в каноническую систему координат;

вычислить в этой системе координат по локальным параметрам движения его точек относительную их глубину (алгоритмически здесь возможен размен числа совместно обрабатываемых точек на число необходимых для этого тактов; алгоритм при этом упрощается, однако требования к глубине памяти возрастают).

Экстраполируемость движения объекта и привлечение цветовых данных. К ранее сделанному ограничению на жесткость объекта (объект — твердое тело) добавим требование инерциальности его дви­жения. Точнее, желательным свойством является постоянство матрицы линейного преобразования пространственных координат объекта, связывающей два смежных такта (или какое-то простое и регулярное ее из­менение). Если динамические характеристики комплекса система — объект удовлетворяют такому свойству матрицы, то на центральной проекции оказывается достаточно просто реализуемой экстраполяция карты точек объекта для следующего за текущим такта, а срав­нение экстраполированной и входной карт дает возможность уточнить матрицу или даже экстраполировать регулярные ее изменения (что и делает программа ГЕКС, когда обрабатываемый ею объект совершает равноускоренное вращение).

Жесткость и инерциальность — характеристики физические. Не­выполнение первого из этих условий усложняет процедуру установле­ния соответствия: для кооперативных алгоритмов оценки глубины (работающих в некотором проективном базисе, связанном с группой точек самого объекта) делает процедуру решения неустойчивой, расходящейся, вынуждая предусмотреть эффективное разбиение проек­ции объекта на жесткие подобъекты, сочлененные пластично. Не­выполнение второго — затрудняет экстраполяцию координат точек, вовлеченных в окклюзию (исчезновение и появление точек непрозрач­ного объекта при смене ракурса).

Непрозрачность объекта — еще одно влияющее на процедуру обработки физическое свойство среды. К прозрачным (в смысле окклюзии) объектам следует отнести решетчатые конструкции, прово­лочные модели многогранников, динамическая интерпретация которых хорошо изучена у человека. И поскольку трехмерная структура предъявляемых монокулярно объектов такого рода (например, теневая проекция объекта с обилием прямолинейных пересекающихся эле­ментов) человеком оценивается более точно в сравнении с глад­кими криволинейными фигурами, а теоретически для константного восприятия формы таких объектов нет необходимости в едином трехмерном проективном базисе — достаточно вурфов на прямой (по четыре точки) и плоскости (по пять точек), то качественная эта корреляция может рассматриваться как довод в пользу активной роли аппарата инвариантов в процессах зрительного восприятия [29].

Завершая беглый обзор идей и гипотез, связанных с различиями в использовании статической и динамической зрительной инфор­мации, особенно для задачи установления соответствия, сформули­

 

руем несколько предположений о возможной роли цветовых меха­низмов в упрощении и ускорении процессов стереосинтеза:

наличие у объекта плоских граней, выявляемых простейшими из алгоритмов цветоразличения (ранг грани равен единице), исполь­зуется в системе для автоматической кластеризации контрастных точек границы каждой грани с последующим вычислением для нее циклической цепочки вурфов;

установление соответствия граней (входной и хранящейся) прово­дится на линейных ассоциативных структурах [29] после преобразо­вания цепочки активной полевой процедурой в набор коэффициентов разложения его как дискретной периодической по полярному углу функции (с периодом 2я);

граница тени на гладком теле, а также сетка линий "изоориента-ции", сформированная цветовыми модулями, в пересечении с глад­кими границами областей разной окраски образуют мозаику не­посредственно не обнаруживаемых "меток", которую система исполь­зует для динамического восстановления формы (если это быстрее в сравнении со статической процедурой интегрирования поля g(x))2;

индивидуальные цветовые характеристики точек и линий объекта помогают системе начать процедуру установления соответствия (а динамический режим прослеживания объекта дает возможность уточнить его индикатрису рассеяния).

 

Алгоритмы вычисления формы объекта по его движению

Программа ВУРФ и результаты ее работы. Форма оптического преобразования в системе выбрана нами не случайно. Центральная плоская проекция сцены существенно более точно отражает свойст­ва входного изображения (для глаза позвоночных) в сравнении с ортогональной, чаще всего используемой в алгоритмических раз­работках по обсуждаемой проблеме [26]. То, что при одном подходе выглядит как пренебрежение несущественными перспектив­ными искажениями, при другом — непосредственно используется для решения задачи. Когда угловые размеры объекта велики, велики и отклонения ортогонального его образа от центрального. Зрительный анализатор не может не использовать способа, дающего оценки формы в соответствии с проекционной схемой органа зрения и по единому алгоритму практически для всех мыслимых вариантов динамики наблюдения (лишь бы необходимая точность представления координат не превышала разрешающей способности системы). В то же время в схеме параллельной проекции в принципе неразрешима задача оценки глубины точек для объекта, совершающего отно­сительно системы: произвольную трансляцию; вращение вокруг оси, параллельной оптической оси системы.

Отсылая читателя, интересующегося проблемой моделирования стереосинтеза (в биологическом и техническом ее аспектах), к обзору

[30] и упомянув в качестве ориентиров теоретической и практи­ческой ее реализации работы [31] и [32] (в обоих этих подходах — соответственно непрерывном и дискретном — не преследовались цели психофизиологического характера), перейдем к описанию имита­ционной программы ВУРФ, разработанной автором для уяснения возможностей языка вурфов. Задача, предписываемая абстрактной системе, формулируется следующим образом. Единственный объект сцены представляет собой трехмерную группу точек, совершающую как жесткое целое инерциальные движения, описываемые в координат­ной системе оси R своего вращения: расстояниями г, до оси R, расстояниями плоскостей вращения от точки пересечения осей Z и R и фазовыми углами е,.

Программа вычисляла пространственные и временные вурфы для определения межтактного угла поворота е и других угловых параметров, а также координат г, s, е и ошибок в них для всех точек объекта, вращаемого равномерно или транслируемого в заданном направлении прямолинейно с постоянной скоростью, ис­пользуя соотношения, связывающие вурфы и параметры уравнений движения. Например,

где 5 — разность фазовых углов е двух точек, а вурф w& смешанного типа вычисляется по координатам двух точек за два такта. Уста­новление соответствия и экстраполяция движения программой не проводились. Глубина памяти не превышала трех тактов (т.е. обрабатывалось одновременно не более четырех карт точек). Фиксиро­ванная группа точек образовывала трехгранный угол, три плоских угла ф которого вычислялись на каждом такте. Для среднего (по тактам и углам <р) отклонения в 1° при оценке <р потребовалась точность вычисления координат, не меньшая 0,0005 (т.е. для объекта с угловой апертурой в 100° координаты его точек необходимо задавать с погрешностью, меньшей 3')-

Эксперименты с программой, а также дополнительный анализ проблемы в целом можно резюмировать в следующих основных выводах:

аппарат вурфов позволяет, "разменивая время на пространство", строить смешанные по типу J- и f-инварианты (следствие жесткости и инерциальности объекта), тем самым снижая предел глубины памяти (для ?-вурфов) и громоздкость пространственного базиса (для i-вурфов), что обеспечивает сравнительную простоту решения;

ясные перспективы использования языка вурфов в задаче уста­новления соответствия не сочетаются пока со столь же оптими­стичными прогнозами его эксплуатации при вычислении формы объекта по его неинерциальным движениям;

требует изучения вопрос о реализуемости процедур формирования инвариантов и еще шире — самого процесса решения поставлен­ной задачи не вычислительными ("арифметика" в координатах), а аналоговыми построительно-измерительными процедурами ("силовая геометрия" на специализированных носителях), т.е. забытые ныне

 

идеи синтетической геометрии следует обдумать в их новом соот­несении с идеями гештальтистов [33, 34].

Трансляция и вращение многогранника. Первая часть статьи была посвящена статической интерпретации сцены. Введенное во второй части движение комплекса система—объект как суперпозиция мгновен­ных статических проекций сцены может показаться не вносящим ничего принципиально нового, если допустить, что любая стати­ческая фаза движения независимым и исчерпывающим образом характеризует форму объекта. С этим выводом нельзя согласиться по нескольким причинам. В рамках проблемы константности зри­тельного поля (компенсация относительного движения система—объ­ект) система решает задачу "3-D (трехмерное) движение по 2-D (двумерной) структуре", где данные о форме объекта не могут помочь ее решению.

Выполняемая совместно с первой задача динамической интер­претации формы объекта "3-D структура по 2-D движению" рассмат­ривается именно как независимая, дополняющая возможности стати­ческой задача. Алгоритмы ее решения выводятся из кооперативного по­ведения точек объекта во времени, т.е. основываются на анализе обяза­тельно нескольких тактов, когда любая наугад взятая проекция может вообще не содержать интерпретируемой информации о форме (например, при демонстрации "кинетического эффекта глубины" с теневыми проекциями фигур или точечными цилиндрами [26]). Отсюда и разница в описаниях объектов в статике и динамике. Непрерывность поверхности объекта в статических задачах — основной поставщик сведений о его окраске и форме.

Пространственно-временное описание объекта в динамике, опре­деляемое нами как дискретное описание лишь особых (контрастных) его точек, целесообразно, по причине создания условий, достаточных для решения задачи установления соответствия (неуспех в которой лишает необходимых предпосылок решения главной задачи). Только "особые" (уникальные по своей заметности независимо от ракурса) точки или линии, имеющие реальный шанс оказаться регулярно (от такта к такту) выделяемыми детерминированной однородной проце­дурой, и образуют адекватный базис для корреспонденции точек.

При таком подходе, структурирующем описание объекта с вре­менной утерей его непрерывности, методически полезно (по крайней мере на начальных этапах разработки проблемы в целом) ограничить­ся теми типами форм объекта, которые позволяли бы промоделиро­вать поэтапно все блоки зрительной обработки (статической и динамической с их связью). Многогранники — класс объектов, удов­летворяющих этому условию, так как статическая (цветовая) обработка проекции полиэдра "без дополнительных затрат" формирует карту его видимых ребер, концевые точки которых и есть входные точки нашей динамической задачи. Класс полиэдров был нами выбран и в связи с простотой реализации на ЭВМ идей об использовани 2-D (по точкам контура грани) и 3-D вурфов (по шесть точек из двух граней) на этапе установления соответствия.

При разработке "сценического варианта" к программе ГЕКС (как

и ВУРФ, она должна быть отнесена к "отладочным для идей"), преследо­валась цель по возможности простыми средствами реализовать ряд новых моментов: включение в алгоритм этапов установления соответ­ствия, переориентирования системы и экстраполяции с учетом окклю­зии и более сложных форм движения объекта. Отказ от обязатель­ной равномерности вращения объекта (введение ускоренного вращения), допустимость совмещения трансляционного (по прямой) и вращатель­ного движений и переход к другой системе координат для выход­ных характеристик формы радикально изменили алгоритмическую часть, особенно в отношении использования /-вурфов.

Реализованная программно версия алгоритма имела объектом общего вида гексаэдр, задаваемый с пульта точками вершин и триада­ми точек (случайного положения) в каждой грани, совершающий вращение и трансляцию вдоль оптической оси Z.

Программа ГЕКС. На этапе переориентирования системы опреде­лялось направление проекции R на плоскость проекции XY и совершался переход в новую систему координат (ось R в плоскости YZ), для чего при одновременном вращении и трансляции объекта обрабатывались координаты точек за четыре такта. При этом исполь­зовались инвариантные свойства точки пересечения некоторой грани объекта с осью R (в базисе вершин грани) и уравнение, связывающее полярные радиусы р, проекции этой точки за три такта /:

Блок программы, формировавший карту входных точек в зави­симости от формы и положения объекта, задавал на проекции коор­динаты тех точек, проецирующие лучи которых не пересекали по­верхности гексаэдра, т.е. "были видимы" для системы (смена ракурса могла изменять их число от 7 до 23).

На этапе установления соответствия сначала вычисляли вурфы двугранного угла (если аЪ — общее двум граням ребро, cd и е/ — ребра, противолежащие ab, а в точках с' и Г прямую аЬ пере­секают прямые cd и ef соответственно, то искомым вурфом бу­дет w(c'abf), каждый из которых позволял установить поименное соответствие для шести вершин объекта. Затем выявляли корреспон­денцию внутренних точек грани (видимой два такта) по трем па­рам пятиточечных вурфов (столь же прост в принципе вариант со­поставления однородных координат внутренних точек грани в проектив­ном базисе ее вершин). Для однозначного соответствия (если объект не куб) погрешность оценки значений w составляла 1%.

Конструктор алгоритмов для задачи "структура по движению" мало ограничен в возможностях комбинирования тех или иных упрощений и допущений (связанных с выбором разрешенных типов движения, глубиной памяти, степени итеративности процедуры или кооперативности обработки точек объекта и пр.) при достижении цели за счет интуитивно оптимальных алгоритмических затрат. В принципе можно использовать то, что ребра вращающегося объекта в трехмерном пространстве задают семейство соосных однополостных гиперболоидов, или то, что любая его точка в поступательно-вращатель-

 

ном движении принадлежит некоторому эллиптическому ци­линдру. Если в оценке относительной глубины точек объекта не ограничивать зрительную обработку анализом только двух изображе­ний (по аналогии с бинокулярным статическим стереопсисом), а мыслить ее как итеративно-экстраполяционную процедуру, то желаемую схему вычислений (осуществленную в программе ГЕКС) можно описать следующим образом:

по завершении предварительного динамического анализа (четыре такта) система переходит в канонический координатный базис;

обрабатываются карты трех смежных тактов при параллельно идущем установлении соответствия, что обеспечивает потактное фор­мирование (или уточнение) матрицы преобразования объекта и оценок глубины его точек;

экстраполируется карта точек следующего такта;

пополняется описание формы объекта новыми точками;

предсказывается уход за пределы видимости некоторых точек (а по прошествии достаточного числа тактов — и их появление).

Если движение регулярно, подобная схема позволяет использо­вать эту регулярность: в режиме упреждающего слежения сопостав­ляются три изображения — запомненное, текущее, экстраполированное. Расхождение входной и экстраполированной карт должно возвращать систему к режиму формирования новой матрицы движения с мобили­зацией большей глубины иконической памяти (реализация подобного случая не вносит ничего принципиально нового в схему, так как сводима к повторному запуску программы с новыми параметрами движения).

Имея в перспективе переход к методологии "построения решения" (в отличие от его "вычисления"), не будем останавливаться на раз­боре вычислительных особенностей разработанного алгоритма в срав­нении с известными по другим публикациям на ту же тему (см., на­пример, [32, 26]), а отметим принципиальный характер пока нере­шенных вопросов использования зрительной системой человека в дина­мическом восприятии перспективных искажений, аппарата вурфов и данных статического анализа.

 

Сенсорная модель константного зрительного пространства в параллельном 3-D макропроцессоре, сопряженном с памятью

Пространственное  восприятие  и   непредметная инвариантность.

Дальнейшее изложение можно рассматривать как попытку описания гипотетических структур и механизмов, взаимосвязь которых опреде­ляется рядом концептуальных положений и общей функцией ин­вариантного отображения "стимула в ощущение" или объективного в перцептивное с его качествами предметности, целостности и т.п. В основу предлагаемого подхода положены следующие концеп­ции:

продуктом деятельности зрительного интеллекта является трех­мерный перцептивный образ видимого, "объекты" которого (в плане информационном) порождены и поддерживаются активным распре­деленным процессом, 3-D локализация которого изоморфна объектам сцены, и доступны для механизмов:

пространственного сенсорного анализа (3-D детекторы свойств объекта),

управления анализом (выбор объекта для блоков предметной инвариантности),

ассоциативной A-D памяти; стереометрический анализ объекта (например, через локальную кривизну его поверхности) на сенсорном уровне возможен лишь благодаря деятельности механизмов инвариантности:

непредметной (функционирующих в течение всего времени наблюдения),

предметной (в результате целевого акта переключения внима­ния);

отображение пространства сцены и ее объектов в перцептивной модели, опосредованно вводившееся ранее через идеи "циклопи­ческой сетчатки" или "константного экрана" [35], уточняется нами как процедура, реализующаяся на специализированных 3-D структурах (типа 3-D нейронной сети или ансамбля автоматов в коммута­ционной среде), ведущих скорее построительно-измерительный, чем вычислительный аналоговый процесс формирования выходного пер­цептивного продукта;

именно в перцептивной модели функционально сходным образом

объединяются:

бинокулярные и монокулярные методы интерпретации формы объекта;

интерокулярные и интермодальные (проприоцептивные и вести­булярные) механизмы, ответственные за организацию стабильности зрительного поля,

образы объектов, формирующиеся благодаря наличию в пер­цептивной модели собственной кратковременной памяти и ассо­циируемые с ними образы долговременной образной памяти.

Эти декларации не только и не столько постулаты некой незавершенной теории. Они и экскурс в круг подлежащих рас­смотрению проблем, и первые определения к частям и функциям создаваемого умозрительно "аппарата восприятия". Выделив самое главное в заявленном — образы объектов и всего наблюдаемого пространства в перцептивной модели стабильны и изоморфны локализацией активного информационного процесса своим физи­ческим прообразам, — перейдем к обсуждению отдельных функцио­нальных аспектов интегративной работы зрительной системы. Упрощая сложившуюся в психологии типологию видов константности, сведем ее к двууровневой. Выделим в проблеме пространственной константно­сти восприятия две независимые части — стабильность зрительного поля и константное восприятие объекта — и рассмотрим первую.

Подвижность наблюдателя, его глаз, головы и тела — источник постоянных изменений сетчаточной картины, тем не менее не пред­ставленных в восприятии, и есть причина той компенсаторной дея­тельности системы, которая обеспечивает стабильность зрительного поля. Саккады и торзионный дрейф глазных яблок, повороты и сдвиги эгоцентра (средней точки межглазного отрезка) — все эти разнообразные движения непрерывно и радикальным образом меняют входной паттерн, однако содружественные механизмы обоих глаз обеспечивают пространственную инвариантность видимого, называе­мую непредметной [27].

В ситуации, когда все объекты сцены неподвижны и единствен­ной причиной смещений сетчаточной картины является сам наблю­датель, закономерности этих смещений на каждой из проекций единообразны, а потому в принципе могут быть скомпенсированы неким глобальным преобразованием, "обратным оптическому" (для каждого глаза своим). Задача, решение которой попытаемся наметить, существенно сложнее введения в процесс зрительной обработки компенсирующего преобразования, ибо должна совмещать стабили­зацию входной картины с пространственным синтезом сцены или объекта. И поскольку основным операциональным элементом в даль­нейшем изложении будут разного рода сферические проекционные схемы, начнем с самой простой, продемонстрировав с ее помощью возможность бинокулярного синтеза объектов.

Сферическая модель бинокулярного синтеза. Воспользуемся стерео­графической проекцией для перехода от плоской центральной проек­ции к сферической, приблизив тем самым к реальной геометрии сетчатки ее модельное представление. Полюс проекции S при этом отождествим с оптическим центром системы (с центром хрусталика). В моделирующей глаз проекции пучок проходящих через S лучей свяжет точки наблюдаемого объекта с их изображениями (на сферическом дне глаза).

Рассмотрим случай конвергенции оптических осей в медиальной плоскости, проходящей через эгоцентр перпендикулярно линии, соединяющей сферические центры глаз. Представив бинокулярную систему как ориентированную в пространстве пару сферических центральных проекции СЦПЛ и СЦПП, построим с их помощью "циклопическую" СЦПЦ. Ею в нашем случае могла бы стать касающаяся полюсов Sn и S„ сфера с центром в точке пересе­чения оптических осей системы. Точки любого объекта, оказавшегося внутри сферы СЦПц, проецируются на СЦПЛ и СЦПП через S„ и 5П и тем же пучком прямых — на СЦПЦ, где оказы­вается двойной набор изображений точек объекта. Каждый набор с точностью до коэффициента (подобие и инверсия) повторяет монокулярные изображения точек, а угловое разнесение наборов определяет дуга между Sn и S„. Если перейти от вспомогательной сферы, заключающей в себя объекты и связанной с пространством сцены и геометрией вергенции, к специализированному сферическому процессору, входящему отдельным блоком в гипотетическую систему, то вышеперечисленные особенности СЦПЦ можно использовать в следующей схеме синтеза объекта:

СЦПц является "запоминающей поверхностью", на которую с СЦПЛ и СЦПП передаются (инвертированные относительно 5Л и 5П сферические карты изображений точек, ориентированные с учетом угла конвергенции (задаваемого как центральный угол между 5Л и Sn), а также сами точки S„ и Sn, однозначно связанные каждая со своим набором изображений (т.е. объект, включающий и биноку-лярно видимых точек, представлен двумя наборами изображений по л+1 каждый);

внутренняя часть шара-процессора заполнена автоматами в пас­сивном состоянии, переходящими в состояние "предвозбуждения", если они находятся на луче, соединяющем одну из точек S с любым изображением точки того же набора, или возбуждения, если предвозбуждены дважды.

Расставаясь с бинокулярной системой (а была изложена лишь идея линейного метода для евклидовой метрики моделируемого пространства), заметим следующее:

создана альтернатива для реализации функций автомата — он может вычислять свое возбуждение по координатам изображений точек, поступившим по общей "шине данных" (и тогда размещение точек на СЦПЦ не нужно), а может реагировать на геометрию фронтов волн, распространяющихся в среде от их активных источников в позициях изображений точек объекта на СЦПЦ;

конфигурация возбужденных автоматов с точностью до масштабного коэффициента должна воспроизвести 3-D расположение точек объекта, а сам коэффициент может быть найден из расстояния между S„ и S„ (в единицах бинокулярной базы системы);

эта схема не решила проблем стабильности зрительного поля и дает точное решение только для медиальной плоскости вергенции (хотя легко преобразуема в монокулярную динамическую схему синтеза—стабилизации для чистого вращения объекта), откуда следует, что для целей моделирования стабильного зрительного поля рас­смотренную схему придется несколько видоизменить.

Неевклидова модель зрительного пространства. Дополним кон­фигурацию стереографической проекции сферой удвоенного (по отношению к сферической центральной проекции (СЦП)) радиуса с центром в полюсе S. Однозначное соответствие точек на плоской и сферической центральных проекциях будет распространено и на новую сферу — на СЦПо. Детерминированная связь между сетчаточ-ными координатами на СЦП (отсчитываемыми от начала координат в точке касания СЦП и СЦП0 и на одном диаметре с S) и сферическими координатами на СЦПо в этом случае легко может быть установлена. Вся плоскость проекции (и вся сфера СЦП за вычетом полюса) отобразится на полусферу СЦПо, которую и станем доопределять до удобного в качестве модели пространства для моно­кулярной динамической системы.

Если сервисные блоки установления соответствия выполняют необходимые двупараметрические движения подаваемых на СЦП0 полусферических карт изображений точек (пересчитанных с полносфе­рических входных карт) и сканирование оптической осью системы видимого пространства не сопровождается в отсутствие сдвигов СЦП смещениями по СЦПо изображений удаленных точек, а при пренебре­жении параллаксом, связанным с несовпадением центров вращения

 

и оптического, — и любых изображений точек, то получившуюся систему можно охарактеризовать как инвариантную к вращениям оптической оси системы 2-D сферическую модель мира. В этом виде она лишена способности наделить полярный луч (выходящий из центра СЦПо, моделирующего положение эгоцентра) качеством протяженности, т.е. не может оценить расстояния от точки сцены, а вычисляет только два сферических угла этой точки (в эгоцентри­ческих координатах).

Потребуем, чтобы полярный радиус ро модели отображал в диапазоне длин от 0 до г, где г — радиус "устройства" СЦПо, все возможные длины полярного луча р в сцене. Это можно сделать, определяя р0, например, следующим образом:

Такая форма не обязательна для превращения бесконечного р в конечный ро, но в связи с поведением центральных поверхностей второго порядка при отображении это обещает ряд аналитических удобств в работе с полученным пространством.

Если система сумеет оценить ро по всем направлениям (благодаря кратковременной иконической памяти, присущей поверхности СЦП0 и выражающейся в "послесвечении" изображений точек, уже вышедших за входную полусферу), то всем точкам обозреваемого наблюдателем бесконечного пространства найдутся соответствующие позиции внутри сферы СЦПо. Используем собственные движения системы среди ближайших к ней объектов сцены для организации стереосинтеза группы таких объектов, а также инвариантности зрительного поля относительно сдвигов и вращений эгоцентра.

Идея о среде автоматов, реагирующих на координатную инфор­мацию предвозбуждением (а также учитывающих свое положение относительно эгоцентра и обладающих еще рядом свойств и качеств), перенесена из бинокулярной статики в монокулярную динамику для реализации следующих этапов и уровней перцептивной обработки:

начальный  этап,   когда  вырабатывается  гипотеза  о дальности системы до объектов интерьера;

этап динамического слежения, когда в направлении, противопо­ложном сдвигу системы, как целое переадресуется пространственное распределение возбуждений, моделирующее 3-d геометрию интерьера, и уточняются оценки ро;

уровень перцептивного анализа сцены, когда на "каркас" модели интерьера в точечном представлении с полных (непрерывных, полуто­новых) изображений на поверхности СЦП0 передаются с пространст­венной интерполяцией остальные детали изображения (и, если это необходимо, проводится его стереометрический анализ, а также оценка параметров движения объектов сцены).

Сдвнгн системы и константность положения в перцептивной модели. В проведенной детализации процесса появились новые черты принци­пиального характера, которые следует подчеркнуть особо.

1. Модель интерьера (ближнего предметного окружения) на этапе динамического слежения ведет себя как почти жесткое целое (тем

более жесткое, чем меньший разброс значений р характеризует комплекс эгоцентр—интерьер и чем меньшие сдвиги в масштабе Ро задают движения системы). Эта целостность может не только поддерживаться с помощью разрозненных адресных привязок к автоматам в состоянии возбуждения, но и претерпеть качественную эволюцию, если допустить возможность накопления в возбужденных автоматах геометрических цветовых описаний для некоторой окрест­ности наблюдаемой поверхности, формирующихся перцептивной моделью (окрестности, простирающейся до такого же рода областей соседних возбужденных автоматов). Таким образом, в перцептивной модели были бы функционально объединены задачи трехмерного анализа и восстановления непрерывности и "поверхностности" (свойств рассеяния объектов) видимого.

Преобразование информации, топически связанной с рецепторной поверхностью, к виду, необходимому для организации стабильности поля, включает два уровня: локального пересчета входных коор­динат в полусферические и общей их динамической переадреса­ции, компенсирующей вращение оптической оси системы. Оба уровня меняют координатную "разметку" оптического потока, никак не трансформируя его двумерную связность. Сам смысл преобразова­ния подсказывает для СЦПо введение той же обрабатывающей структуры, что и для трехмерной перцептивной модели: поверхность СЦПо также должна мыслиться как активный 2-d комплекс автоматов (сферический слой), для успешной работы которого необходимы предварительный анализ глобальных параметров движения и этап установления соответствия, формирующий сигналы управления пе­реадресациями входного двумерного массива (как необходимыми движениями карт входных изображений точек). На уровне СЦПо создается непрерывный сферический экран стабилизированной опти­ческой информации, структурно прорабатывающий области лучшего видения в данный такт, накапливающий и хранящий облик видимого по всем направлениям сферы СЦПо. Радиальное проецирование оптического массива внутрь сферы на оболочку точечной пер­цептивной модели интерьера превращает 2-d экран в 3-d модель. Она и является тем интегративным уровнем отображения, осуществ­ляющим связь с долговременной образной памятью, механизмами переключения внимания и согласования бинокулярной и монокулярной информации в задаче инвариантного анализа того или другого объекта сцены и т.п.

Этап динамического слежения, когда перцептивная модель ин­терьера уже создана и должна только поддерживаться, пополняясь появляющимися деталями объекта, алгоритмически проще начального этапа оценки поля р0 (проверить согласованность 2-d и 3-d представле­ний несравненно легче, чем создать само 3-d представление). Именно на начальном этапе должны проявить себя вводимые нами проекционные методы оценки глубины. Так же как и в случае бинокулярного восприятия, для осуществления обсуждаемого этапа можно предложить несколько методов — от чисто вычислительных до преимущественно силовых (активно-динамических).

 

Выразив интуитивную убежденность в технической реализуемости высказанных здесь идей вычислительного плана (трехмерная среда параллельных микропроцессоров) и содержательности аналогий изме­рительно-силового подхода в попытках осмысления механизмов восприятия, обрисуем два таких способа.

Итак, система, совершающая прямолинейное движение, решает задачу вычисления ро по каждой из цепочек предвозбужденных (на первом такте) автоматов, лежащих на луче, связывающем эго-центр с изображением точки. На втором такте стабилизированная карта изображений точек изменится со сменой точки наблюдения, при этом появятся новые "предвозбужденные" цепочки автоматов, тем более уклонившиеся от соответствующих им направлений на первом такте, чем ближе к прямому угол между пространственным на­правлением сдвига и полярным радиусом данного изображения точки объекта. И поскольку мы зафиксировали эгоцентр в центре СЦПо, относительно него в противоположном направлении осущест­вит сдвиг весь интерьер.

Оценив сдвиг (в масштабе СЦПо) и его направление, что система может сделать и без интермодальных подсказок из блоков вести-буляции и моторики в результате установления соответствия двух тактов на СЦПо, 3-D процессор может решить следующую парал­лельную локальную задачу: перевести на втором такте в состояние возбуждения тот автомат на луче изображения точки, от которого по вектору сдвига можно попасть на луч изображения соответст­вующей точки на первом такте. В результате этой процедуры (с погрешностями, связанными с неевклидовостью сенсорного пространства) появляется 3-D "каркас" перцептивной модели интерьера, а вектор сдвига становится первым звеном пространственной ломаной, интегрирующей траекторию системы относительно интерьера в одном с ним масштабе.

Идея силовой процедуры состоит в целенаправленном изменении кривизны сенсорного пространства при переходе от центрально-симметричной метрики на первом такте к специальным образом асимметричной (сфера со смещенным центром) на втором такте, при которой "волна" или "луч", посланные нормалью с поверхности внутрь СЦПо, окажутся проходящими мимо предвозбужденного (по правилу предыдущего метода) на первом такте автомата в направ­лении, задаваемом "номограммно" вектором сдвига и позицией автомата в искривленном пространстве. Подобная номограмма могла бы формироваться в результате зрительного обучения и переопределять­ся в случае так называемой оптической трансформации изображений, вносимой искусственно в зрительный процесс экспериментатором (об экспериментах с трансформацией см. в книге [1]).

Принцип наивного изоморфизма и преимущества трехмерной пер­цептивной модели. Рамки статьи не позволяют обсудить идею реализации бинокулярной модели интерьера. Заметим, что это рас­ширение не потребует введения новых "сущностей" в процессор, создающий перцептивную модель, и в процедуры его функциони­рования (как показал предварительный анализ, бинокулярной перцеп­тивной модели такого рода присущи и. диплопия, и выделение особой зоны оптимального синтеза, аналогичной зоне Панума, и пр.). Введение бинокулярности в некотором смысле удваивает сложность представления и обработки информации, добавляя преиму­щества эффективности и точности этапу синтеза перцептивной модели, особенно в ситуациях, когда сдвиги системы малы или их нет. То же относится к идеям реализации инвариантного отображения отдельных движущихся объектов. Важнейшие из необсуждавшихся аспектов проблемы пространственной константности восприятия отразим в краткой сводке потенциальных преимуществ развитого подхода:

идеи наивного изоморфизма как концептуальное ядро принципа гештальта [34, 33] в предлагаемом проекционно-полевом подходе получают начальное конструктивное разрешение, сводя в один функциональный узел механизмы перцептивной инвариантности, статики и динамики, монокулярного и бинокулярного синтеза;

хранение в памяти копий перцептивной модели сцены или объекта как однослойного 3-D комплекса, упрощая способ записи, дает ввиду обратимости проекционной схемы возможность операциональ­ного воплощения процессов конструирования 3-D образов (механизм воображения) и ассоциативной зрительной памяти (одна 3-D запись может продуцировать необходимые 2-D ракурсные копии эталонного объекта);

перенесение с плоской проекции и развитие для сферической центральной проекции аппарата вурфов должно упростить процедуру установления соответствия и сделать ее более однородной с другими этапами зрительной обработки, если формирование и использование проективных инвариантов проводить на активных 2-D структурах (нейронных сетях, слое локально взаимодействующих автоматов).

 

ЗАКЛЮЧЕНИЕ

Задержимся у истоков двойственности восприятия цвета и формы, рассмотрев ее как следствие естественной оппозиции категорий "свет", "материя", "идея". Дуальный характер задачи видения и тел, и лучей, когда первые должны восприниматься несамосветящимися и вопреки "шуму", вносимому в стимул собственным цветом луча, осветившего тело, а вторые — не восприниматься как пассивно рассеявшие свет поверхности, раскрывает недопустимую в ощущении ущербность решения в пользу только одной из сторон:

монопольно предметное восприятие потребует оценки источника освещения как пигмента, отразившего лучи несуществующего "пра-источника";

полностью аконстантное, локально-цветовое восприятие "не заметит" тела, сочтя его созвездием источников.

Этим непростыми, но все-таки поддающимися осмыслению отно­шениями "света" и "материи" осложнена ситуация в современной науке о цвете, с хаотичностью ее аксиом и методик, с ее вряд ли достижениями, когда измеряется "белизна" луча источника, когда в тесные пределы трехмерного колориметрического пространства пытаются вместить "все натуральные цветовые ощущения трихро­мата", когда предметное восприятие трактуют в терминах "иррадиации и ассимиляции цвета", "адаптации к фону" [36] или объясняют "памятью на цвета".

Другой дуалитет — "материи" и "идеи", а проще — окраски и формы — не станем подвергать столь же пристальному разбору. Ситуация в чем-то аналогичная. Источник возможных недоразумений в носителе информации и несимметричности антагонизма: форма как геометрическая идея не нуждается в материи, в окраске, а окраска, лишенная предметной локализации, уже неотличима от цветового потока. Отсюда — беспокоящая неполнота подмены перцептивно целостной формы координатами избранных точек или линий изобра­жения. Ведь мы не видим координат, как не видим и ансамбля контрастных точек, когда наблюдаем тело. Оно воспринимается, во-первых, как непрерывная окрашенная поверхность и уже вслед за этим (если внимание ставит такую цель) как обладающее определенной формой. Налицо трудности представления разноуров­невой перцептивной информации, дополнительно осложняемые неяс­ностью принципиального характера в вопросе о способах представле­ния, хранения и обработки сигналов о форме (т.е. в вопросе о языке перцептивных моделей) в структурах зрительной ассоциативной памяти.

Однако наибольшую неудовлетворенность в плане идей вызывает состояние теории зрительного интеллекта — отсутствие конструк­тивных моделей константности зрительного поля, положения и направления как механизмов стабильного целостного восприятия. До сих пор, несмотря на убедительные доводы оппонентов "универ­сальных теорий", таковые, часто никак не согласованные друг с другом, сосуществуют, совершенствуются, признаются. Ни Фурье-анализ изображения, ни предельно развитая детекторная концепция, ни голограммные аналогии иконической памяти, ни какой-либо другой метод, потерявший из виду сенсорную модель мира, не могут решить проблем константного экрана, гештальт-синтеза объектов, формирования иерархических представлений от стереометрического к лингвистическому в ассоциативной памяти как узловых проблем психофизиологии зрения.

Но сам факт нарастающей поляризации представлений, поиск и уточнение границ нашего сегодняшнего незнания, заметный всплеск новых идей и разработок в области искусственного интеллекта — все это позволяет автору кончить разговор с читателем на опти­мистической ноте.