В настоящее время центр тяжести
в автоматической обработке естественного языка (ЕЯ) ощутимо сместился от задач
машинного перевода и систем общения с ЭВМ (в частности ЕЯ-интерфейсы к базам
данных) к задачам структуризации больших объемов текстовой информации. Практической целью такой структуризации
является в основном высокоточный поиск информации в глобальной сети Интернета,
одна из наиболее продвинутых разработок - Fact Extractor. Развиваемый в данном проекте подход
предполагает автоматизацию процесса формирования и сопровождения баз знаний по
произвольным предметным областям путем сканирования соответствующих текстов на естественном языке. Позиционирование
подхода в общей
схеме обработки текстов в системах принятия решений отражено на рис.1. На рисунке красным цветом отмечены
фрагменты, где использование исследуемых инструментальных средств
представляется перспективным.
На рисунке глобальная сеть как источник информации объединяет данные, доступные по Интернет, данные СМИ, корпоративные данные и т.п. Системы, формирующие структурные данные из текстов глобальной сети (например, ConExt, FactExtractor, Uima), условно названы “структуризатором”. В процессе обработки структуризатор существенно использует базу знаний.
Структуризаторы могут формировать результаты как в виде таблиц реляционной базы, так в виде семантической сети. Если достаточно таблиц или семантической сети, то ЛПР получает аналитическую информацию с помощью интерфейса к базе знаний или стандартного интерфейса к СУБД. Если требуется более глубокий анализ, то из семантической сети информация также отображается в таблицы базы данных (например, для UIMA это выполняется с помощью сервисов SUKI). Далее из структурированных в таблицах данных извлекается аналитическая информация (технологии Data Mining и OLAP), поступающая для ЛПР.