Если мне не изменяет память, то в одном из романов Айзека Азимова из серии про Академию (она же «Фонд», она же «Основание») был фрагмент о том, что речь галактического чиновника прогнали через специальный алгоритм оценки осмысленности речи, чтобы понять, что важного было сказано за всей той канцелярщиной, которой так изобилует речь государевых мужей. И, о, ужас, оказалось, что несмотря на многочасовую речь, уровень ее осмысленности был равен нулю. Я раньше думал, что это такой красивый литературный ход, пока не столкнулся с различными технологиями DLP, синтаксического и семантического анализа, которые позволяли оценивать текст с разных точек зрения. И вот на днях, я наткнулся на интересный проект plainrussian.ru, который позволяет оценивать читабельность текста.
Думаю, мы все понимаем, что чем проще текст, тем легче его читать и, самое главное, понимать. Отсутствие сложных конструкций, деепричастных оборотов, 4-5 существительных подряд и т.п. позволяет не только проще доносить свои мысли и идеи, но и позволяет рассчитывать, что они будут правильно поняты и применены на практике. Как важно следовать этому при состалении различных нормативных и нормативно-правовых актов, которые устанавливают обязательные требования и которые не должны допускать двойных и даже тройных толкований. Понятнее текст — проще его реализация. Вот я и решил попробовать пропустить через проект АНО «Информационная культура» несколько типовых образчика нормативных требований по ИБ, выпущенных из под пера наших регуляторов — ФСТЭК, ФСБ и ЦБ.
Начал я с документа, который всегда вызывал сложность при его изучении. Речь про 382-П от Банка России. А все потому, что почти каждый абзац начинался со одинаковых конструкций «Оператор по переводу денежных средств, оператор услуг информационной инфраструктуры, банковский платежных агент (субагент) должен…». И так почти 40 страниц. К середине уже голова пухла от этих перечислений. Математический анализ тоже показывает, что документ читать очень сложно и для его восприятия требуется наличие второго высшего образования или оконченной аспирантуры 🙂
Уровень читабельности 382-П |
У меня нет ни второго высшего, а аспирантуру я так и не закончил. Думаю поэтому мне приходилось читать нормативные акты Банка России по несколько раз. Такой же и один из последних образчиков ЦБшного творчества, 716-П. Он также далек от простоты восприятия (и он даже хуже 382-П по уровню читабельности).
Уровень читабельности 716-П |
У ФСТЭК ситуация тоже далека от идеала. Вот так выглядит уровень читабельности приказа №17 с требованиями по защите государственных информационных систем.
Вот такая картина получается. Не то, чтобы в заметке есть какие-то сюрпризы, но если по ее прочтении, регуляторы начнут прогонять проекты своих текстов через нее, было бы неплохо. Все-таки читабельность текстов и в их интересах — меньше критики, меньше вопросов, меньше отвлечения от работы.
А что касается математики, лежащей в основе методики оценки читабельности текста, то она вполне себе развита и широко применяется. Например, формула Флеша-Кинкейда используется при разработке нормативки американского МинОбороны, а также встроена в популярные текстовые редакторы типа MS Word или сервисы типа Grammarly. На сайте проекта упомянуты все используемые формулы, адаптированные к русскому языку.
Администрация Президента выражала недовольство стахановскими темпами по выпуску НПА начиная с 2014 года https://yarnovosti.com/news/deputatov-otrugali-za-zakoni/ или вот в 2018 году https://www.kommersant.ru/doc/3553833
Интересно, а как были адаптированы формулы? В русском языке, в отличии от английского сверхмало односложных слов, которые существенно "улучшают" показатели читаемости. Да и те при изменении падежа зачастую превращаются из односложных в двусложные.
Для улучшения читабельности также лучше использовать русишские слова. Например, "читаемость".
Любопытно. А какие методы семантического анализа авторы ресурса используют…
Это не плод ли любви Бегтина и Ильяхова?
Он самый