8.3.4. Другие подходы и тенденции

і

В заключение настоящего параграфа необходимо, хотя бы в общих чертах, рассмотреть усилия World Wide Web Consortium (W3C) по созданию и внедрению средств маркировки Интернет-ресурсов.

До недавнего времени в распоряжении Интернет-авторов для этого почти исключительно использовался уже обсуждавшийся выше язык HTML. Однако с точки

зрения семантической разметки Интернет-документов этот язык обладает рядом недостатков, основными среди которых являются следующие [Johnson, 1999]:

•    жесткая ориентация на визуализацию;

•    единственная «точка зрения» на данные;

•    нерасширяемость;

•    весьма ограниченные средства спецификации семантической структуры документов.

Справедливости ради следует заметить, что еще в конце 60-х годов в рамках исследований по представлению документов компанией IBM был разработан язык SGML (Standard Generalized Markup Language), который лишен многих из перечисленных недостатков. К середине 80-х годов этот язык стал стандартом для многих промышленных компаний и правительственных учреждений США, но, по мнению специалистов рабочей группы SGML W3C [Bosak, 1997], он слишком сложен для широкого использования Интернет-авторами. Вот почему в рамках W3C, начиная с 1996 года, предпринимаются усилия по разработке средств разметки документов, сравнимых по мощности с SGML, а по простоте использования — с HTML. И среди работ данного направления в первую очередь следует отметить язык XML (extensible Markup Language) [XML, 1998].

В языке XML «сняты» многие ограничения HTML, язык разметки стал существенно мощнее. И одновременно XML-тексты остаются понятными для всех, кто работал с языком HTML. Отличительные свойства XML и в том, что здесь фиксируется стандарт на определение синтаксиса и единообразные средства введения в языки разметки (Markup Language) новых тегов. А это, в свою очередь, позволяет конструировать на основе XML новые языки маркировки Web-документов и, кроме того, обеспечивает возможность различным приложениям (и, в частности, программным агентам) «понимать» и обрабатывать XML-документы.

Каждый XML-документ обладает определенной логической и физической структурой. Физически это композиция элементов, называемых единицами (entities), которые могут быть связаны взаимными ссылками. Логически документ состоит из деклараций, единиц, комментариев, собственно текстов и инструкций обработки, причем каждая конструкция XML маркируется специальными тегами явным образом. Все теги XML — парные, а конструкции могут быть вложены друг в друга, образуя правильно построенное дерево. Так, например, конструкция <ltem Attribute1=«Value1»> </ltem> определяет единицу с именем Item и списком пар атрибут-значение, который в нашем случае представлен единственным атрибутом с именем Attribute"!, имеющим значение «Ѵаіиеі».

Для иллюстрации возможностей этого языка рассмотрим содержательный пример XML-документа, описывающего домашнюю страницу исследователя Иванова.

Этот XML-документ структурирован существенно лучше, чем был бы аналогичный ему HTML-текст, но пока не имеет «смысла», так как из него не следует, как интерпретируются единицы типа Person, publications, book и т. п. Для решения этого вопроса используется специальная спецификация определения типа документа DTD (document type definition). По сути дела, это грамматика языка разметки, в рамках которой определяются, какие элементы могут присутствовать в документе, какие атрибуты они имеют и как элементы соотносятся друг с другом. Понятно, что для стандарта XML такие спецификации уже разработаны самими авторами языка, но в нашем случае используется специальный его диалект, и потому именно мы должны специфицировать DTD нашего документа. Такая спецификация может быть следующей:

Как следует из приведенного описания, в DTD специфицировано «сведение» конструкций нашего XML-документа к стандартным XML-конструкциям, понимаемым броузерами нового поколения.

В настоящее время уже разработаны DTD для различных предметных областей, и каждая такая спецификация, по сути дела, определяет новый язык разметки. Известным примером развития DTD для спецификации общих ресурсов является RDF (Resource Description Framework) [RDF, 1999], разрабатываемый W3C. Этот формат может использоваться для добавления в документы метаинформации, которая, в частности, может быть представлением семантики документа.

Использование собственных диалектов XML является важным шагом на пути формирования пространств знаний в сети Интернет. Но, по сути дела, это лишь первый шаг в этом направлении. Действительно, какие средства дает язык XML для представления знаний? Очевидно, что это, в первую очередь, средства спецификации декларативной компоненты развитых систем представления знаний. И то в ограниченном объеме. Каким же образом авторы этого языка и его расширений предполагают подключение процедур обработки XML-конструкций? На сегодняшний день в предложениях W3C яйно прослеживается лишь одна идея: поскольку XML-документы не что иное, как портабельные данные, а язык Java имеет портабельный код, следует их использовать совместно. Для этого предлагаются специальные интерфейсы, например SAX (Simple API for XML), которые уже сейчас могут поддерживать многие Java-анализаторы. Основная идея здесь достаточно проста — анализатор просматривает узлы дерева документа из XML- файла и вызывает соответствующие методы, определенные пользователем. Для того чтобы этот механизм работал, программист должен создать класс, реализующий соответствующий интерфейс. Методы этого класса будут вызываться всякий раз, когда на входе распознавателя появляется нужная конструкция (тег, входная строка и т. п.). Собственно обработка информации при этом целиком в руках программиста, а среда лишь поддерживает общее функционирование и обработку исключительных ситуаций.

Такой подход имеет много общего и с подходом Ontobroker, и с подходом SHOE. Авторы обоих этих проектов активно приветствуют усилия W3C, но вместе с тем отмечают, что в предложениях соответствующих рабочих групп еще много недостатков. В первую очередь — это отсутствие стандартов на интеллектуальную обработку XML-конструкций, сравнительно небольшой практический опыт семантической разметки Интернет-документов и достаточно ограниченные средства логической обработки, используемые при этом.

Вот почему, как показывает анализ литературы и Интернет-ресурсов по данной тематике, в настоящее время:

•    эффективная обработка информации на Web связывается, в первую очередь, с использованием ИИ-технологий;

•    основные подходы в этой области ориентированы на решение проблемы извлечения из Web-pecypcoB эксплицитных знаний на основе семантического маркирования таких ресурсов;

•    во всех исследовательских и многих коммерческих проектах данного направления активно используются (или, по крайней мере, декларируется использование) агентно-ориентированные вычисления и технологии.

Учитывая вышесказанное, в следующей главе обсуждаются мультиагентные системы и системы интеллектуальных агентов.

Интеллектуальные Интернет- технологии

□    Программные агенты и мультиагентные системы

□    Проектирование и реализация агентов и мультиагентных систем

□    Информационный поиск в среде Интернет