Оценка моделей LLM по степени готовности решать задачи управления в области ESG

  • 时间:2025-09-21

Аннотация

Внимание к охране природы принимает все большую значимость для бизнеса с одной стороны в связи с ужесточением в природоохранном законодательстве, а с другой в связи с использованием ESG рейтингов при принятии решений о коммерческой деятельности компаний. Составление рейтинга LLM систем, способных оказывать консультационные услуги в области природоохраны и ESG, позволяет осуществить выбор такой системы для использова ния в своей деятельности, что позволит как сократить текущие расходы на обеспечение этой деятельности, так и снизить объем возможных штрафов от принятия неверных решений. Ран жирование существующих LLM осуществляется на основе эталонных ответов. Для ранжирова ния выбраны LLM, использующие разные архитектуры нейронных сетей, а также сформулиро ваны группы вопросов, сгруппированные по тематикам, предполагаемой форме ответа и слож ности. Для ранжирования использован подход на основе оценки когерентности ответов LLM с эталонными ответами подготовленными экспертами.

Введение

Использование чат-ботов и генеративных моделей ИИ является перспективным направлением в организации консультационной поддержки в самых разных сферах, и в том числе – в области выработки управленческих решений в частных компаниях или в государ ственном секторе. Выгода данной технологии заключается в том, что они могут заменить большое количество экспертов [4] или сократить объем их работы, подготовив часть ин формации в автоматическом режиме. Подготовка экспертов и оплата их труда может при водить к значительным финансовым издержкам при отсутствии обоснованности, а иногда и согласованности выбираемых ими решений и в условиях недостатка или недоступности в оперативном режиме соответствующего эксперта. Кроме того, использование LLM поз воляет обеспечить и более высокий уровень консультационной поддержки за счет с одной стороны скорости ответа, а с другой стороны полноты предоставляемой информации (более развернутых ответов). На большом количестве интернет-ресурсов и мобильных приложе ний уже используются чат-боты, которые позволяют пользователям быстро получить под сказку, не ожидая возможности контакта с оператором, что экономит компаниям значитель ные ресурсы. С появлением LLM данные возможности значительно расширяются – теперь вместо специализированных чат-ботов можно развивать универсальные системы, которые можно применять к самым разным прикладным отраслям, использовать уже существую щую документацию для их обучения, получать ответы на вопросы со сложными формули ровками.  

Традиционные вопросно-ответные системы такие как Information Retrieval-based Question Answering (IR-based) и Named Entity Linking (NEL) хорошо себя показывают при ответах на закрытые вопросы, а также на вопросы об отношениях между сущностями (например авторстве, месте рождения известных людей, наличии того или иного компо нента в рецепте, именах литературных персонажей, столицах стран и т. п.). Для этого они используют базы знаний (такие как DBpedia1 и WikiData2) и специализированные базы дан ных (OpenStreetMap и т.д.).

Использование LLM позволяет получать ответы, в том числе, и на открытые вопросы. Для этого необходимо их обучение на больших объемах текстовых данных и наличие ме ханизма ассоциативного поиска в них. Использование для обучения открытых источников и баз данных таких как Википедия, образовательные ресурсы университетов, юридические базы данных, базы часто сдаваемых вопросов и ответов, внутренние базы знаний организа ций, информации из новостных сообщений и т.п. даёт LLM возможность давать ответы на самые разные вопросы, в том числе, и на вопросы ответы на которые могут быть получены только по результатам сбора и обработки больших объемов информации. Для ответов на вопросы данные должны содержать достоверную информацию. Особенности используе мых моделей и данных для их обучения отражается в разной степени точности их ответов. Это связано с тем, что при обучении не осуществляется проверка на согласованность ис пользуемых текстов [10], что может проявляться у разных моделей в разных ответах на одни и те же вопросы (может быть даже противоречащих друг другу как случается и у ре альных экспертов), а также в появлении явления получившего название галлюцинации LLM (когда факты или источники «придумываются» или искажаются моделью, что так же бывает и у людей и не всегда намеренно, а например, в силу забывчивости).

Во многих случаях ответ LLM может быть крайне важным для принятия правильного управленческого решения, поскольку ошибка может привести как к существенным затра там для организации (штрафы, компенсации, вынужденные расходы и т. п.), так и к чув ствительному негативному воздействию на заинтересованные стороны организации (пре кращение поставки услуг, некачественные услуги, экологический вред и т. д.).  

Компетентность LLM в области управления экологической и социальной ответствен ностью компании (ESG) имеет с одной стороны огромное значение с точки зрения оказания помощи менеджерам и государственным служащим, а с другой стороны представляет собой довольно сложную задачу, поскольку многие вопросы в области ESG имеют нечеткий ха рактер, свойственный для гуманитарного или философского знания, при этом они связаны с необходимостью знания законодательства и стандартов в конкретных областях деятель ности. Например, природоохранное законодательство различно в разных странах не только с точки зрения требований по охране природе, правоприменительной практике, но и по своей структуре, проявляющейся в множестве контролируемых параметров, применяемых для сохранения природы решениях, способах оценки влияния на природу загрязняющих веществ и так далее. Также в сфере экологии могут наблюдаться культурные различия даже в разных регионах одной страны, большая динамика изменений и недостаток данных в сво бодном доступе.

Ранжирование LLM по степени компетентности в сфере природопользования необхо димо при использовании для  повышения компетентности сотрудников компаний в области устойчивого развития, экологической и социальной ответственности компаний; для оценки возможности их использования для получения необходимых сведений при подготовке от четности в области экологии в контрольно-надзорные органы; контролирующие органы, в свою очередь, заинтересованы в инструменте, позволяющем ускорять процесс проверки сведений предоставляемых в отчетной документации.

Источники информации в области природопользования в настоящее время ограни чены юридическими базами, справочными документами, которые готовят юридические компании по разным областям деятельности (например, см. пояснения к закону о плате за негативное воздействие на окружающую https://www.consultant.ru/document/cons_doc_LAW_154375/, среду — экологический сбор — https://www.consultant.ru/document/cons_doc_LAW_210784/   ), информационными материалами Росприроднадзора (например, по уплате экологического сбора — https://rpn.gov.ru/activity/rop/ecological-fee/, по уплате сборов за негативное воздействие на окружающую среду — https://rpn.gov.ru/activity/environment-fee/) и сборниками норматив ной документации подготовленными организациями работающими в области охраны при роды (см. например, https://greenium.ru/regulation/).

Наличие таких ресурсов не закрывает потребности в получении информации в обла сти природопользования, что подтверждается большим число обращений и запросов, по ступающих в центральный аппарат Росприроднадзора. Всего за 2023 год только в централь ный аппарат Росприроднадзора поступило 8 212 обращений (из Администрации Прези дента Российской Федерации – 1 565 обращений, из Минприроды России – 1 550 обраще ний; с официального сайта Росприроднадзора – 3 781 обращения; из других источников – 1 316). Более половины поступивших обращений касается загрязнения окружающей среды выбросами и сбросами различных предприятий, а также санкционированных и несанкцио нированных размещений всех видов отходов (4 731 обращение). Далее следуют обращения о нарушениях водного законодательства, строительства в водоохранных зонах, осуществ ляющегося с нарушением законодательства об охране окружающей среды и нанесением ущерба экологии и населению (682 обращения), о жестоком обращении с животными (589 обращений), по вопросу проведения государственной экологической экспертизы (365 обра щений3).  

Кроме обозначенных информационных ресурсов и возможности обращения в ответ ственную за природоохрану организацию существуют и специализированные организации, оказывающие консультационные услуги и услуги по подготовке документов в области охраны природы, которые тоже находят своих клиентов. Многие крупные компании имеют в своем составе соответствующих специалистов или экспертные подразделения в области охраны природы.

Методология оценивания LLM

Ранжирование и оценка моделей LLM и систем Q&A на данный момент остается за труднительной в связи со сложностью оценки качества ответов без привлечения экспер тов. Существующие LLM не раскрывают информацию об используемых ими источниках данных, а широко используемые в Q&A системах на таких наборах данных как KGQA, LC-QuAD и QALD, не вызывают доверия в связи с неполнотой и недостаточной актуаль ностью информации. В связи с этим появляются работы, посвященные оценкам существу ющих систем как по качеству ответов так и использующие выводы полученные в отдель ных исследованиях для получения обобщенных оценок [9].

Решение задачи оценки правильности ответов связано с задачей оценки степени по хожести текстов. При этом многие смысловые связи могут быть сформулированы с ис пользованием разной лексики и различных способах построения фраз. Для оценки степени похожести выделяют тематическую, сущностную и риторическую когерентности. Все из них измерить не представляется возможным. Поэтому на практике оценивают отличия в используемых словах и структурах фраз.

Для тестирования Q&A и LLM систем в отдельных областях разработаны специали зированные наборы вопросов-ответов. Например, разработан MMLU (Measuring Massive Multitask Language Understanding) тест с использованием которого исследователи изме ряют понимание языка изучаемыми LLM. Тест опирается на большую базу размеченных по категориям вопросов и вариантов ответов (множество возможных корректных отве тов), что делает возможным применение традиционных для ML моделей метрик (Precision и Recall [5]) [3], а также использование рейтингов ответов (MRR, mean reciprocal rank) для определения того как хорошо система выбирает свой ответ, если варианты ответов могут быть отранжированы.  

Контекст таких тестов использует общие знания и не учитывает специфику и осо бенности манипуляции с информацией и данными в специальных предметных областях. При этом существуют специализированные базы задач по математике (например, GSM8k) и программированию HumanEval (тест на решение задач программирования). Такие тесты предполагают только один или ограниченный тип ответов (например, число, которое можно сравнить с ответом, программа, которую можно запустить тем самым проверив её работоспособность и результат, который она выдаст и т.п.).

Составлять подобные тесты для всех областей знания затруднительно и не имеет смысла в связи с тем, что это потребует с одной стороны огромных ресурсов на их создание и акту ализацию, а с другой поставит вопрос о необходимости LLM.  

Другая группа оценки эффективности LLM и Q&A является группа методов исполь зующая токенизацию ответов. В этом случае при наличии эталонных ответов на задавае мые вопросы становиться возможным применение метрик используемых в системах ма шинного перевода — BLEU, ROUGE, METEOR, TER [2], а также метрик, опирающихся на меры когерентности [1], количества информации, энтропию Шеннона, а также такие традиционные метрики как корреляция, TF-IDF, косинусное расстояние, расстояние Ле венштейна, сходства Жаккара, Рэнда и т.п.

Применение метрик возможно только при наличии материала, который можно срав нивать; таким образом, необходимо определиться с типами вопросов, которые будут зада ваться LLM и перечнем LLM, которые будем сравнивать.

Еще одной возможностью оценки качества является использование LLM, таких как BERT и др. для оценки соответствия между векторами термов. Преимуществом такого подхода может быть использование эмбединнгов для получения промежуточных оценок, похожих или аналогичных описанным выше, и возможность их корректировки за счет учета мнения экспертов и построения сложных нелинейных зависимостей между значени ями оценок. Однако на практике для этого необходимы большие объемы размеченной ин формации, собрать которые затруднительно.

Click to read more