Представление абстрактных объектов в базе знаний

Курбатов С.С., к.т.н., НИЦЭВТ,  726-59-59, kul@gol.ru

 

Аннотация

В статье предлагается общая логика представления произвольных абстрактных объектов в базе знаний, формируемой в автоматизированном режиме в основном путем сканирования естественно-языковых текстов энциклопедического характера. Иерархия абстрактных объектов вычленяется автоматически путем выделения основного понятия в именной группе, описывающей вход в статью,  и последующего поиска этого понятия как нового входа в статью энциклопедии. Выбраны специальные абстрактные объекты (математические формулы), для которых разработана логика их обработки и связи с материальными объектами. Автоматизированный режим предполагает ряд итераций, прерываемых анализом автоматически сформированных представлений и дополнением/модификацией эвристик, используемых при сканировании    текстов. 

 

Введение

 

В настоящее время центр тяжести в автоматической обработке естественного языка (ЕЯ) ощутимо сместился от задач машинного перевода и систем общения с ЭВМ (в частности ЕЯ-интерфейсы к базам данных) к задачам структуризации больших объемов текстовой информации.  Практической целью такой структуризации является в основном высокоточный поиск информации в глобальной сети Интернета ([7], [8]), одна из наиболее продвинутых разработок - Fact Extractor ([6]). Развиваемый в данной работе подход предполагает автоматизацию процесса формирования и сопровождения баз знаний по произвольным предметным областям путем сканирования  соответствующих текстов на естественном языке. Позиционирование подхода в общей схеме обработки текстов в системах принятия решений отражено на [4].

Предлагаемая логика ориентирована на автоматическое построение иерархиии произвольных абстрактных объектов с возможностью последующего диалога на ограниченном естественном языке(ОЕЯ) по тематике этих объектов. Ариорно задается минимальная иерархия, дающая самое общее (фундаментальное) разбиение абстрактных объектов на множества (не обязательно непересекающиеся). В процессе сканирования с помощью первоначальных базисных эвристик вычленяются абстрактные объекты и их иерархия. Логика вычленения в целом аналогична общей логике автоматизированного построения иерахии и выделения материальных объектов [1]. В экспериментальном варианте выполнена программная реализаций предлагаемых решений.

 

Общая логика

 

Автоматическое построение иерархии предполагает (в первом приближении) продвижение по цепочке входов в статью энциклопедии до появления повтора входа и в этом случае повтор рассматривается как вероятное понятие высокого уровня. Примеры автоматически извлекаемых цепочек  входов в статьи Большой Советской Энциклопедии (БСЭ),  позволяющих в первом приближении выделить в качестве кандидатов на верхние уровни иерархии понятия “совокупность” (точнее множество) и “форма” (точнее содержание и форма).

 

А  --> буква --> алфавит --> совокупность = множество =

Множеств теория = теория --> комплекс --> совокупность

 

А капелла  --> пение --> искусство --> форма --> категория -->

значение --> содержание --> категории --> понятие --> форма

 

            Отметим, что выделение понятий, входящих в цепочки, также выполнялось в автоматизированном режиме [2]. Разумеется, несколько уровней (морфология, синтаксис, материальные объекты и их характеристики) приводят к ряду ошибочных выводов  программной системы. Однако развиваемый подход предполагает возможности автоматической коррекции ошибок как путем модификации эвристик, так и путем сканирования дополнительного корпуса текстов (и лишь в минимальном объеме – исправление ошибок вручную).

            Представление произвольных свойств абстрактных объектов сложнее, чем материальных. Поэтому в качестве первоочередных были выбраны специальные абстрактные объекты математической природы  - формулы  и последовательности, логика представления которых разработана более детально. 

 

Априорная иерархия и специальные абстрактные объекты

 

Априорная иерархия в текущей версии включает: сознание, число,  множество,  последовательность,  операция,  формула, смысл,  категория,  материя,  пространство, время, причина, следствие. Перечень априорных элементов носит предварительный характер и будет модифицироваться в процессе экспериментов. Эвристики верхнего уровня ссылаются на элементы априорной иерархии, чем обеспечивается выдвижение предположений после соотнесения некоторого конкретного объекта с элементом априрной иерархии. Примеры таких предположений, полученных экспериментально, приведены ниже.

            Выбраны специальные абстрактные объекты, для которых разработана логика представления, позволяющая связывать эти объекты и фрагменты ЕЯ-описаний операций с этими объектами. В качестве первоочередных специальных абстрактных объектов выбраны формулы. Разработанная для них представление в базе знаний использует следующие приоритетные соображения:

   -  представление формулы в виде семантической сети;

   - возможность представлять формулы, используя наиболее общие понятия (предикат равенства, переменные и функциональные символы, символы-сокращения для подформул и т.п.);

   - возможность конкретизации входящих в формулу символов в процессе работы с системой;

   - априорное задание базовых функциональных символов с соответствующей программной поддержкой, позволяющей проверять выполнимость формулы при конкретизации входящих в нее элементов;

   -  разбиение представления формул на структурную часть и декларативную часть (в первой задается собственно формула, во второй – описание входящих в нее элементов);   

   - ориентация на ЕЯ-обсуждение формулы (вопросы от тривиальных типа “Какие переменных входят в формулу?” до содержательных, например – “Каков физический смысл переменных формулы?”;

   -  возможность преобразования формулы в процессе ЕЯ-обсуждения;       

   -  использование как графических, так и ЕЯ-описаний формул (например,

            a b  f(x) dx   имеет ЕЯ-описание “интеграл от a до b  f от x  dx” ) и возможности трансляции ЕЯ-описаний во внутренее семантическое представление.

         

            Функциональные символы задаются либо с помощью композиции базовых (программно-поддержанных функций), либо таблично в виде строк значений переменных (возможно диапазонов) и результата. В последнем случае  предполагается разработка механизмов для выдвижения (проверки) предположений о соответствии таблично заданной функции композициb базовых функций. Естественно,  что эти механизмы аналогичны соответствующим общим механизмам по генерации предположений о морфологии, синтаксисе и построении иерархии материальных и абстрактных объектов. 

            Для входящих в формулу переменных предусмотрены возможности помимо описания наименования переменной, ее типа, позиции в формуле и т.п. указывать физическую величину, соответствующую переменной. Этим обеспечивается связь абстрактного объекта “формула” с иерархией материальных объектов и, следовательно, с эвристиками, определяющими соответствующую “наивную” аксиоматику. Важно, что представление формулы в базе допускает большую степень неопределенности, которая, во-первых, не исключает ОЕЯ-обсуждения формулы, а во-вторых позволяет в дальнейшем пополнить информацию о формуле и сделать обсуждение более содержательным.

 

Эксперимент

 

После получения иерархии абстрактных объектов в первом приближении работа проводилась в двух направлениях. Во-первых, разработка эвристик, позволяющих уточнить автоматически построенную иерархию (точнее, ее элементы). Во-вторых, использование построенных фрагментов иерахии для выдвижения предположений, связывающих объекты априорной иерархии с объектами ЕЯ-природы.

Отметим, что хотя тексты энциклопедических статей по сути ориентированы на иерархическую организацию, это тем не менее тексты реальной сложности. Трудности автоматической обработки были связаны как с ошибками при выделении ядра именной  группы (вследствие ошибок при автоматическом определении морфологических характеристик и ошибок сегментации при определении входа в статью), так и ссылок вида “см. …”, “наименование …”, “один из …”   и т.п.

Эксперимент включал как автоматическое построение иерархии абстрактных объектов, аналогично материальным (т.е. используя только вход в статью БСЭ и именную группу, предположительно описывающую вход) , так и выявление кандидатов на формулы путем просмотра всех предложений БСЭ и выявление соответствующего контекста. Для последнего случая было выявлено более 400 контекстов, из которых с помощью эвристик были исключены варианты нематематических формул (химических, политических, ссылок и т.д.).  

По оставшимся контекстам также с помощью эвристик была выявлена структурированная информация, записанная в базу знаний. Минимально записывалась ссылка на контекст и обоснование того, что это математическая формула (ссылка на соответствующую эвристику).

Пример автоматически выявленного контекста (приведен в угловых скобках):

< b, выраженное в секундах дуги, определяется формулой b = (206 264,8" u/c) sin g,

  где u - скорость движения наблюдателя, c - скорость света и g - угол между направлениями на светило и апекс. >

Синтаксический анализ такого контекста, дополненный анализатором формул позволяет выдвинуть предположения о виде формулы, входящих в нее переменных, их обозначении и физическом смысле и т.п. Детали эксперимента приведены в [ссылка на HTML-страницу]. Важно, что отсутствие полноценного описания (выявляемое автоматически) является для системы сигналом для пополнения описания формулы как путем диалога, так и путем поиска новых контекстов в других источниках (WORD-файлы с текстом и т.д.).

 

Уточнение эвристик

 

            Эксперимент позволил выявить ряд недостатков в первоначально используемых эвристиках, которые устранялись соответствующей модификацией прежних эвристик или разработкой новых. Рутинные технические подробности таких уточнений приведены на HTML-странице [4]. Интересным идейным моментом было исправление ошибки в построенной иерархии ручным способом – исправление учителем (непосредственное указание на ошибку в режиме меню) с последующей попыткой программы обобщить исправление на другие элементы иерархии.    

Помимо формул была разработана примитивная логика представления и работы с таким фундаментальным понятием как последовательность.  Стиль такого представления ориентирован на использование механизмов выдвижения предположений о морфологии и синтаксисе в более общих ситуациях. Например,  после разбора входа и первой именной группы БСЭ предложения “а – первая буква русского алфавита” были разработаны эвристики, позволяющие выдвигать предположения для остальных букв.  При этом использовалось общее представление алфавита как последовательности букв и общих методов, применимых к последовательности – “выдать номер заданного элемента” и “выдать элемент по номеру.  Детали приведены на [4]. 

 

Заключение

 

            Данная работа выполнена в рамках общего подхода, ориентированного на создание инструментальных программных средств, позволяющих автоматизировать извлечение знаний собственно о языке, знаний общего характера о внешнем мире и конкретных знаний в данной предметной области. Такие инструментальные средства должны сканировать произвольные ЕЯ-тексты, связывая извлекаемые из них объекты с элементами фундаментальной (априорно заданной) иерархии. Наследование наивной аксиоматики, определяемой в данной иерархии, позволит выдвигать предположения об извлекаемых из текстов объектах и подтверждать/опровергать эти предположения также путем сканирования текстов. Количественные характеристики (объем) априорно задаваемой иерархии будет уточняться в процессе эксперимента с учетом прикладных аспекты развиваемого подхода.

 

 

ЛИТЕРАТУРА

 

1. С.С. Курбатов,  Априорная модель данных в реляционных базах,

    Новости   искусственного интеллекта № 6, М.,    Анахарсис, 2003.

2. С.С. Курбатов,  Автоматизированное построение естественно-

    языкового интерфейса для реляционных баз данных, Новости 

    искусственного интеллекта № 2,      М.,    Анахарсис, 2002, С. 17-21.

3. С.С. Курбатов, Автоматический анализ схемы и данных реляционных баз,

    Новости   искусственного интеллекта № 1, М.,    Анахарсис, 2004.

4.  С.С. Курбатов, Представление абстрактных объектов в базе знаний

(технические детали),   http://eia--dostup.ru/head_doc_01.HTM

5. Э.В. Попов, Общение с ЭВМ на естественном языке, М., Наука, 1982, 359c.

6. Ю.В.  Липинский, Средства информационного поиска и навигации в больших

     массивах неструктурированной информации, компания “ Гарант-Парк-Интернет ”.

7. А.В. Нечипоренко, А.О. Русин, Компания «НооЛаб», Новосибирск, Россия,

    Система  автоматизированного извлечения знаний из текстов на  естественном языке,  

    Международная конференция «Информационные системы и технологии»

8. Петр Михаленко,  Язык онтологий в Web,  Журнал "Открытые системы", #02, 2004 год.