Технологии информационного общества

Технологии познания
Cognition technologies

Вы, наверное, не все на свете видели?
А если даже видели, то не все, наверное, поняли?
И наконец, если же все поняли, то не все, наверное, помните?

Е. Клюев “Между двух стульев”

В двадцатом столетии наш мир развивается нелинейно. При повышенном темпе возникновения радикальных изменений ослабевает связь с прошлым. Традиционное мышление разрушается. Поток беспрецедентных изменений парализует государственное и корпоративное управление. В результате возникла и развивается новая парадигма управления - менеджмент, основанный на знаниях.

Попытки использовать компьютер для управления знаниями сталкиваются с нерешаемой традиционными методами задачей доступа к опыту и знаниям, изложенным в необъятных потоках (массивах) текстов. Причина этому проста и стара, как мир. Категории естественного языка “слово” и “текст” по природе своей в корне отличаются от соответствующих категорий мышления “понятие” и “смысл”.

Знание - это неформализуемое представление конкретного человека о явлениях и закономерностях окружающей среды, полученное в процессе приспособления к ней. В данном случае под окружающей средой имеется ввиду все, кроме сознания конкретного человека. Тогда информация - это отображенное знание и зарегистрированные состояния окружающей среды. Отображение знаний исполняется человеком средствами любой знаковой системы (формальные и естественные языки, рисунки, языки жестов, ноты ...). В свою очередь регистрация состояний окружающей среды производится техническими средствами и генерирует т.н. техническую информацию (числа, сигналы, изображения, звуки ..., их сочетания и временные ряды ...). Знания накапливаются только человеком как результат личного опыта и субъективного восприятия информации.

Итак, компьютер знаниями управлять не может - это под силу лишь человеку. Однако познавательные возможности человека также ограничены: он не может проанализировать сколько-нибудь заметную долю потока представляющей интерес информации. Работа превращается в кошмар и сильно напоминает поиск иголки в стоге сена. Для разрешения этого противоречия разработан комплекс технологий, адаптированный к нарастающему потоку изменений, реальным возможностям человека и вычислительной техники.

1. С целью своевременной выявления проблемы и поиска вариантов ее разрешения необходимо обеспечить автоматизированное слежение за изменениями в области интереса личности или органа управления, а также поиск и изучение всего прошлого опыта. Использование многомерных классификаторов знаний (подобных УДК - международной Универсальной Десятичной Классификации) и механизма содержательной фильтрации потоков информации позволяет создавать, развивать и поддерживать в режиме реального времени систематизированные базы данных (СБД). В качестве объекта классифицирования могут выступать обычные тексты и любые гипермедиа-записи (звук, графика, фото ..., любые их комбинации и ряды), снабженные текстовыми аннотациями. Содержательная фильтрация текстов достигается автоматическим исполнением запросов полнотекстовых поисковых систем. В качестве внешних поисковых систем могут быть использованы поисковые роботы и иные инструменты обработки текстов в распределенных информационных системах типа сети Интернет (подробнее см. статью “Слежение за внешним миром”).

Систематизированные базы данных можно рассматривать как функциональный аналог того, что специалисты в области искусственного интеллекта называют “базами знаний”. По вышеизложенным причинам, базы знаний на основе текстов - рекламный фантом.

Корректное практическое разрешение проблемы адекватного выражения мысли и понимания текста обеспечивается применением подготовленным персоналом пакета прикладных методов извлечения знаний из текстов (по существу - это целая система программирования запросов поисковых систем) следующего состава:

  1. Разработка хранимых поисковых запросов-шаблонов для непосредственного нахождения в текстах определений любых терминов с целью уточнения их смысла и выявления связанных понятий. Приведем пример определения понятия: К недвижимым вещам относятся также подлежащие государственной регистрации воздушные и морские суда, суда внутреннего плавания, космические объекты (ст. 130 Гражданского кодекса РФ). Парадоксально в данном случае то, что главной полезной функцией недвижимости является перемещение ... Таким образом возможно создание словарей нового поколения (см. статью “Определение понятий”).
  2. Техника выявления полного ряда лексических образов (слова или словосочетания в определенных контекстах) абстрактных понятий. В качестве примера приведем некоторые написания абстрактного понятия “наркотик”: (одурманивающий или наркотический или психотропный) (препарат или вещество или материал), наркотик, галюциноген ... К наркотикам также относятся более 160 медикаментов и веществ, каждое из которых имеет официальное (медицинское и/или химическое) название на каждом языке, а некоторые из них также как-то названы в общеупотребительной лексике “конопля” и жаргонах “крэк”.
  3. Техника выявления полного ряда цитирований конкретно поименованных объектов или их частей (правовых актов, дат, географических объектов, персоналий, юридических лиц ...). Приведем многообразие только цифрового написания даты “31 декабря 1999 года”: 31.12.99, 31.12.1999, 31/12/99, 31-12-99, 12-31-99, 12-31-1999...
  4. Прикладные методы поиска аналогий с проблемной ситуацией или суждением (правилом). Для ситуации “безопасность информационных систем” многочисленными вариантами описания сходных ситуаций являются “целостность базы данных”, “стабильность работы компьютерной сети в условиях перегрузки”, “конфиденциальность электронной документооборота”, “защищенность КИС от вирусов”, “безошибочность работы прикладных программ”, “устойчивость операционной системы к взлому или несанкционированному доступу” и др.
  5. Методы непосредственного поиска фрагментов текста, вероятно вступающего в противоречие с заданным суждением (правилом). Построение исчерпывающего реестра субъектов, выпадающих из-под действия нормы “Все равны перед законом и судом” (ч.1 ст. 19 Конституции РФ), позволяет утверждать, что все законодательство - это больше исключения, чем правила. Т.е. равны перед судом и законом не все и далеко не всегда. В частности, выборные должностные лица органов местного самоуправления, федеральные депутаты и еще более 20 др. субъектов...
  6. Методы исчерпывающего поиска фрагментов текста, устанавливающих права и обязанности интересующего субъекта. Таким образом выясняется, что все нормы законодательства субъектов Российской Федерации об иммунитете к уголовной ответственности региональных депутатов приняты с превышением полномочий.
  7. Метод полного исчерпания контекстов заданного понятия или ситуации. Например, для проблемной ситуации “наркомания в средней школе” строится исчерпывающий реестр участвующих лиц (школьники, учителя, персонал и администрация школы, родители, родственники, знакомые, милиция ...), отношений к приему наркотиков (не пробовал и не хочу, хочу попробовать, пробовал, употребляю изредка, уже “сижу на игле” ...), отношений к распространению наркотиков (бесплатное угощение, розничная реализация, оптовая реализация, перевозка, производство, упаковка, отмывка доходов ...) и других существенных аспектов (тип наркотика, срок употребления, возраст наркомана ...).
  8. Систематизация понятий (знаний) заданной проблемной области. Проектирование классификатора СБД и разработка соответствующего пакета запросов доступных поисковых систем для поиска всех объектов (текстов) или их фрагментов, относящихся к понятию или ситуации (рубрике) классификатора.

Специально отметим, что сами тексты (объекты) никак не перерабатываются. Поисковая система только отмечает в них все написания искомого понятия или суждения (как сочетания понятий). Такая содержательная разметка текстов позволяет в дальнейшем обеспечить быстрый доступ к подходящим фрагментам нужных объектов, а в результате их восприятия и понимания потребителем - и к требуемым знаниям. Если на процесс содержательной разметки текста посмотреть с точки зрения компьютерной лингвистики, то это всего лишь формирование для каждого понятия или суждения исчерпывающей тезаурусной статьи для конкретного естественного языка с ее оформлением по правилам языка поисковых запросов.

Спрашивается, зачем такие сложности? Дело в том, что методом прочтения можно получить только 5% нужных документов, т.н. простым поиском по “ключевым” словам или через существующие классификаторы можно получить до 25% нужной Вам информации, т.е. подходящих текстов, доставляемых автоматически с использованием предлагаемой технологии. Таким образом появляется возможность качественно (не более 10% информационного шума) расклассифицировать неограниченные массивы текстов. Более того, применение технологий компьютерной разведки позволяет организовать следящие информационные системы раннего оповещения о критически важных именно для Вас событиях, отраженных в документах сети Интернет (по американским оценкам - это уже 10 млрд. машинописных страниц текста на начало 2000 года) и внутренних документах корпорации.

Поговорим о многомерном классификаторе. Число понятий в таком классификаторе не сравнимо с количеством решаемых проблем: 2100 понятий в семимерном классификаторе СБД позволяют детально описать более миллиарда миллиардов ситуаций (сравните с одномерными иерархическими классификаторами). Наш опыт показывает, что размер запроса поисковой системы для полного и точного поиска разнообразных лексических образов отдельного понятия редко превышает 3000 знаков. Уже накоплен опыт переноса таких запросов на другие естественные языки и поисковые системы. В настоящее время методы извлечения знаний проверены на русскоязычных и англоязычных текстах с использованием поисковых систем "Артефакт" (объем индекса - 21 миллион машинописных страниц - “ММС”), "Яндекс" (190 ММС) и http://www.nlsearch.com (2.000 ММС).

В результате СБД становится систематизированным хранилищем данных (текстов и иных объектов, а также знаний о естественном языке и проблемной области, заложенных в множестве классификаторов СБД и соответствующих им комплексам поисковых запросов). Очевидно, что понятия классификатора СБД инвариантны как к естественному языку, так и к поисковой системе, т.е. СБД могут создаваться в распределенных многоязычных средах. Доступ пользователей к СБД можно условно разделить на эпизодический (консультирование) и систематический (образование).

2. Эпизодический доступ к богатству человеческих и корпоративных знаний, которые можно получить с использованием СБД, поддерживается естественными пользовательскими интерфейсами нового поколения. Это программы взаимодействия “человек - бытовой прибор - удаленный компьютер - СБД”, работающие через различные устройства непосредственного доступа (телефон, пейджер, персональный или сетевой компьютер, сенсорный терминал и иные устройства ввода-вывода). Такие программы, работая с произвольным числом потребителей, любое число раз

  • автоматически опрашивают заинтересованное лицо на его родном языке (пользователю задается ограниченное число вопросов, причем его ответы всего на 28 вопросов позволяют детально описать более миллиарда миллиардов проблемных ситуаций - сопоставьте с объемом ресурсов Интернет),
  • разъясняют смысл неясных слов;
  • с заданной степенью логического обобщения готовят подборку подходящих объектов СБД (возможно, извлечений из текстов),
  • доставляют ее с учетом возможностей устройства доступа (отображение на экране, зачитывание голосом, печать письма с последующий отправкой, запись на диск, отправка сообщения по электронной почте...).

Естественные интерфейсы с голосовым вводом-выводом позволяют на обычной телефонной линии обеспечить публичный доступ граждан к подготовке и принятию решений, официальным документам, товарам, услугам круглосуточно и из любого точки и, что самое главное, без всякой предварительной подготовки (суровые условия городских трущоб и Интернет). Запоминание описаний проблем конкретного потребителя СБД (т.н. персональный информационный профиль), например, его хобби или особенностей должностной инструкции, позволяет легко автоматизировать процесс принудительной доставки подходящих новостей сразу после их систематизации. Разработаны методики реализации естественных интерфейсов для бумажных изданий нового типа (обучающие энциклопедии). Дружелюбность естественного интерфейса кардинально изменяет эффективность корпоративных информационных систем. В настоящее время уже реализован работающий макет естественного интерфейса нового поколения, доступный для испытаний всем заинтересованным лицам.

3. Систематический доступ к знаниям обеспечивается открытыми технологиями образования. Применяемая методология базируется на предметно-ориентированных СБД, методах интенсивного ситуационного обучения и поиска нестандартных решений. Это позволяет в условиях ограниченных ресурсов отслеживать изменения спроса на рынке труда, быстро формировать учебные курсы (как очные, так и дистанционные) и их системы (пожизненное обучение), мягко проводить реорганизацию образовательного и индивидуального циклов деловой активности преподавателей и слушателей, покрывать дефицит кадров и создавать новые рабочие места, управлять качеством образовательных услуг, развивать образовательные стандарты и вести сертификацию учебных программ, преподавателей и слушателей. При высоком качестве дистанционного обучения его стоимость в сравнении с традиционным существенно снижается (запрашивайте программы и условия).

4. В случае отсутствия или недоступности прошлого опыта разрешения проблемной ситуации применяются многочисленные методы поиска нестандартных решений, такие как морфологический подход, системный подход, метод “букета проблем”, И-ИЛИ-дерево, алгоритмы решения изобретательских задач и многие другие. Таким образом в доступное время обученным творческому подходу персоналом обеспечивается подготовка программы выхода из беспрецедентной кризисной ситуации любого масштаба.

Перечислим некоторые области применения технологий познания:

  • публичный доступ к товарам, услугам, информации и знаниям;
  • автоматическая поддержка реализации многих гражданских прав;
  • разрешение правовых проблем и прикладные методы законотворчества; охрана правопорядка и профилактика преступности;
  • повышение культуры и социальная реабилитация;
  • очные и дистанционные обучение и сертификация персонала;
  • электронная торговля, консалтинг, корпоративные front-office и Call-центры, муниципальные справочно-информационные службы;
  • избирательные технологии и связи с общественностью;
  • ситуационные центры и ведение информационной войны;
  • маркетинговые и социологические исследования;
  • разведка и контрразведка, промышленный шпионаж;
  • управление предпринимательскими и иными рисками;
  • подготовка к изданию обучающих энциклопедий и терминологических словарей нового поколения;
  • поддержка принятия нестандартных решений, фундаментальные и прикладные исследования и др...

Может быть это - очередная панацея? Никоим образом. Не поддерживаются операции с данными в случае отсутствия у них электронных текстовых аннотаций. К таковым можно отнести числа, изображения, звуки ... их сочетания, массивы и временные ряды. Поскольку СБД представляет собой технологическую реализацию одного из систематических методов творчества - морфологического подхода, уже сейчас получены результаты, которые не имеют аналогов ни в России, ни в мире. Например, разработаны методы тотального выявления пробелов и противоречий системе утверждений, изложенных в больших массивах текстов. Этому сложно поверить! Бесплатно проводим ознакомительное обучение, высылаем справочные и учебные материалы.

Опубликовано по адресу: http://www.u-learning.ru/techknow.htm
Дата последнего редактирования 26.07.2021
© Кузнецов Сергей Валентинович


Услуги: Веб-сервисы поиска
Систематизация знаний
Аналитические отчеты
Обзоры уровня техники
Поиск ниш на рынках
Учебный курс Транспрофессионал
Веб-сервисы документирования знаний:
Сценарий поиска: Определения
Мастер поиска информации (МП)
Каталог веб-сервисов на основе МП
Тестирование: правовых и патентных
баз данных, и еще чат-бота ChatGPT 3.5
Сайты: Базы знаний из открытых источников
Исследование рисков и поиск возможностей
Технологические исследования
Невидимый Интернет
Аналитическая юриспуденция
Об авторе: Резюме и фотогалерея
Публикации и работы
Этический кодекс
Мифы о С.Кузнецове
Авторские технологии
В разработке