Содержимое страницы обновляется!
Эскизные материалы – для заметок.
Комбинированный подход при анализе естественно-языковых текстов с целью автоматического формирования базы знаний
История возникновения – само идея разбиения алгоритмики на жесткую (рефлекторную) часть и интеллектуальную выглядит тривиально. Однако полноценное программное воплощение этой идеи содержит ряд нюансов:
- жесткость стандартного механизма проявляется только в процессе текущей обработки (модификация, углубление и расширение жесткой части не только допустимо, но и обязательно);
- результатом работы комбинированного механизма являются структуры ЯПЗ, в которых фиксируется источник (стандартный или интеллектуальный алгоритм);
- контроль времени выполнения (ресурса времени) в общем случае требует для стандартой алгоритмики внешнего прерывания;
- знания о возможностях стандартного механизма должны присутствовать в базе, чтобы при неудаче этого механизма не дублировать в выводе его попытки (если стандартный механизм предполагает вызов модуля, не являющегося частью системы, то эти возможности м.б. описаны в достаточно общем виде; если же внешний модуль – часть системы, то как описание его возможностей (например, исчерпывающий перебор), так и промежуточные результаты его выполнения (например, фиксируемые в лог-файле) могут быть весьма содержательны.
Процитируем: “Из изложенного … станет очевидно, что несмотря на кажущуюся простоту формулировки этой проблемы, при попытке ее решения возникает невероятное количество трудностей. ”
В собственно базе знаний успешное последовательное проведение такого подхода открывает перспективу интеграции различных методов представления знаний в рамках одной системы – в идеале – при извлечении информации м.б. в смешанном варианте использовано любое представление. Это означает, что например, при запросе на значение свойства некоторого объекта семантической сети (или значения слота фрейма) м.б. запущен логический вывод (типа резолюции) или диалог в стиле экспертной системы (или даже не диалог, а обращение к ЕЯ-текстам – при соответствующих продукционных правилах). В свою очередь, при выводе или работе продукционной системы на некоторых этапах допустимо обращение к семантической сети (сети фреймов). В качестве такого этапа на детальном уровне может выступать выбор правила продукции (или даже дизъюнктов для унификации). На более высоком уровне м.б. сделана оценка перспективности продолжения вывода или запуска программы обобщения неудач…
…нейронные сети …
Трудности полноценной интеграции очевидны!
*********************************************************
Понятие новизны в базах знаний с априорной информацией о внешнем мире.
**************************************************************************
… убеждения и цели … являются не менее научными, чем, скажем, такие термины, применяемые в рассуждениях о газах, как давление и температура, несмотря на то, что речь в них идет о молекулах,
которые сами не обладают этими характеристиками.
В настоящее время среди психологов находят широкое признание взгляды на то, что "любая теория познания должна напоминать компьютерную программу" [30], т.е. она должна подробно описывать механизм обработки информации, с помощью которого может быть реализована некоторая познавательная функция.
Подробное описание д.б. алгоритмичным. Например, подробное (с претензтей на алгоритмичность) описание того как обольстить женщину вряд ли можно воплотить в программы.
Формальность теории, позволяющая воплотить ее в программы, еще далеко не гарантирует эффективности воплощения. Например, в шахматах легко формализуются правила игры, но потребоваось несколько десятков лет, чтобы достичь существенного прогресса в силе игры. Еще более яркий предмет – математическая логика.
Общее (фундаментальное) утверждение – цитата – “возможность сравнительно легко решить проблему "в принципе" отнюдь не означает, что это действительно удастся сделать на практике.”
…смещение акцентов в пользу теоретической обоснованности свидетельствует о том, что данная область достигла определенного уровня стабильности и зрелости. Будет ли когда-либо такая стабильность нарушена новой идеей, родившейся в экспериментах, — это другой вопрос.
…в настоящее время имеется возможность воспроизводить эксперименты с помощью Internet, а также совместно используемых репозитариев тестовых данных и кода.
Тенденции к интеграции и дифферециации разнонаправленны. На протяжении небольшого века ИИ акцент на этих тенденциях менялся.
искусственному интеллектуальному агенту было бы разумно предоставить некоторые начальные знания, а не только наделить его способностью обучаться. После достаточного опыта существования в своей среде поведение рационального агента может по сути стать независимым от его априорных знаний.
Internet представляет собой среду, которая по своей сложности соперничает с физическим миром, а в число обитателей этой сети входит много искусственных агентов.
Более общий и гибкий подход состоит в том, чтобы вначале создать интерпретатор общего назначения для правил условие-действие, а затем определить наборы правил для конкретной проблемной среды.
Хотя на первый взгляд кажется, что агент, основанный на цели, менее эффективен, он является более гибким, поскольку знания, на которые опираются его решения, представлены явно и могут быть модифицированы
**************************************************************************
автоматическое формирование фреймов путем анализа ЕЯ-текстов.
Прежде всего нужно иметь инструментальные средства представления фреймов!
как человек строит догадки в бытовых ситуациях:
Например, <Египет, пирамиды, отдых> - это одна ассоциация (туристическая поездка и т.д.),
а <Египет, пирамиды, раскопки> - другая и весьма отличная!
Решение неоднозначно и разные люди скорее всего дадут различные объяснения.
Для формализованного подхода также возможны варианты.
Например, находим фреймы для каждой триады, типа
{имя-фрейма =
(язык (русский) ЕЯ-описание (туристическая поездка)
язык (английский) ЕЯ-описание (Tourist trip, Tourist voyage); ???
расширенное ЕЯ-описание фрейма = [туристическая поездка на срок (…) человека (…) в страну
(…) от турфирмы (…) . Дата начала тура (…). Отель (…). Стоимость тура (…). ]
ЕЯ-ассоциаторы имени фрейма (зарубежный вояж, отдых за рубежом, туристическая поездка,
тур-оператор, …)
Семантически-ориентированное понятие для имени фрейма = (<событие-1>)
СЛОТЫ-ФРЕЙМА
Страна = (конкреты(Турция, Египет, Италия, Испания, Швейцария, …)
(ссылки (ссылки на расширение множества конкретов – спектр от ссылок
на ЕЯ-текст с перечнем стран или на базу данных до фрейма <ссылки>)
(Семантически-ориентированное понятие для слота = (<локализация-1>))
(стандартное отношение-вопрос = (<событие-1>) <ГДЕ?> (<локализация-1>)
Туристические достопримечательности = аналогично (страна)
(конкреты(пирамиды, храмы, Нил, …)
(ссылки (ссылки на расширение множества конкретов – спектр от ссылок
на ЕЯ-текст с перечнем стран или на базу данных до фрейма <ссылки>)
(Семантически-ориентированное понятие для слота = (<локализация-2>))
(стандартное отношение-вопрос = (<локализация-2>) <ГДЕ?> (<локализация-1>)
(ЕЯ-процессы для слота (достопримечательности осматривают, фотографируют,
восхищаются, изучают историю, слушают легенды, слушают экскурсовода, …)
фрейм для раскопок аналогичен, но … археологические достопримечательности
Получив доступ к таким фреймам, можно вести диалог! Неудачи диалога – стимул к пополнению фреймов путем сканирования релевантных ЕЯ-текстов. Релевантность определяется именно неудачами, например, если во фрейме нет слота <экскурсовод>, то он м.б. создан автоматически. Заполнение этого фрейма – нетривиальное действие – предмет дальнейших исследований!
Важен слот турист (тот, кто едет(летит) в турпоездку; клиент тур-фирмы; человек, отправляющийся
в тур-поездку; актор!; … )
Мы здесь не касаемся вопросов, что надо рассматривать поездку как сценарий (процесс, разбиваемый на подпроцессы – перелет до страны, оформление виз, билетов, отеля и т.д., осмотр достопримечательностей, возращение).
Релевантные соображения должны минимизировать информацию, извлекаемую из фрейма. Стиль диалога, разделяющий две вышепрведенные триады, д.б. примерно таким:
В первом случае <Египет, пирамиды, отдых> речь, по-видимому, идет об отдыхе в Египте и об осмотре пирамид - самых известных достопримечательностях этой страны.
Во втором <Египет, пирамиды, раскопки> скорее всего имеются в виду археологические раскопки, связанные с пирамидами древнего Египта.
При отсутствии фреймов можно искать минимальное наиболее общее понятие для каждой триады.
В данном случае естественно получить цепочки из иерархии:
Пирамиды --> Египет --> Отдых --> Человек
Пирамиды --> Египет --> Раскопки --> Человек
Ассоциативные связи, имеющие большой вес, и связывающие не только данное понятие с другими, но и эти другие понятия между собой – это серьёзные кандидаты на фрейм! Автоматическое построение – от статистики встречаемости понятий и статистически устанавливаемых ассоциаций (в стиле Караулова) до автоматически формируемых структур фреймов и итеративного их уточнения.
**************************************************************************