Об эксперте: Евгений Смирнов, руководитель Лаборатории машинного обучения Альфа-банка.
Нейронные сети стали одним из наиболее активно развивающихся направлений в машинном обучении за последнее десятилетие. Они способны создавать изображения и тексты, решать сложные задачи и даже проходить собеседования на работу. Это делает нейросети полезными для различных индустрий. Рядовые пользователи больше обращают внимание на нейросети в сфере развлечений. А, например, в финансовой индустрии они очень важны для банкинга, так как выступают, в частности, эффективным инструментом анализа данных кредитного скоринга. Внедрение нейросетей снижает риски банков, а клиентам позволяет получить кредит проще и быстрее.
Что такое кредитный скоринг
Кредитный скоринг — это система оценки кредитоспособности заемщика, которая позволяет предсказать, как он будет выплачивать кредит, а главное, будет ли. На основе информации о платежном поведении клиента, его кредитной истории и прочих данных банк решает, стоит ли кредитовать конкретного человека или организацию. Чем точнее будет такая оценка, тем выше будет процент успешной выдачи кредитов и тем устойчивее будет банк.
Большинство банков при оценке надежности заемщиков используют модели кредитного скоринга, которые дают возможность быстро принять решение о возможности предоставления кредита. Эти модели оценивают кредитоспособность заемщика, основываясь на статистических методах.
Какие преимущества дают алгоритмы скоринга банкам и клиентам
Качество моделей машинного обучения в скоринговых системах отвечает за точность оценки кредитоспособности потенциальных заемщиков, банки активно используют их уже более десяти лет. Также они дают целый ряд преимуществ финансовым учреждениям и их клиентам. Такие модели позволяют:
- снизить издержки и минимизировать риски при принятии решения о выдаче кредита;
- сократить время обработки заявок;
- повысить защиту от мошенничества;
- проводить централизованную кредитную политику с четкими процессами выдачи займов (минимизировать человеческий фактор);
- улучшить работу других сервисов, качество обратной связи от клиентов и снизить число звонков от банка.
Всегда есть вероятность, что заемщик не сможет выплатить кредит, поэтому банк закладывает в процентную ставку кредитов свои риски. Чем эти риски будут ниже, тем более выгодную ставку предложит финорганизация. Именно модели машинного обучения позволяют максимально точно рассчитать риски банка.
Какими бывают системы оценки заемщика
Банки оценивают заемщиков не только на этапе рассмотрения заявки, но и на других стадиях сотрудничества — например, когда у человека возникают сложности с выплатой долга. В связи с этим финучреждения развивают одновременно несколько систем оценки:
- application-scoring — системы анализа тех, кто только обратился за займом;
- behavioral-scoring (поведенческий скоринг) — это метод анализа поведения заемщика на протяжении всего срока сотрудничества с банком. Он позволяет принять решение о пролонгации договора, повышении или понижении кредитного лимита;
- fraud-scoring — система, которая помогает заранее понять, не является ли заемщик мошенником. Обычно метод применяется вместе с application-scoring на стадии рассмотрения заявки;
- collection-scoring (коллекторский скоринг) — применяется в работе с задолженностями. Программа оценивает шансы на возврат денег, рассчитывает прогнозную вероятность благоприятного исхода и предлагает методы воздействия на должника.
Как и с какими данными работают алгоритмы кредитного скоринга
Для определения кредитоспособности заемщика банк собирает информацию о клиенте из хранилища данных. После этого дата-сайентисты обучают модель на этих данных, которая выдает число — показатель надежности заемщика. Это число и есть скоринговый балл. На основании этого балла принимается предварительное решение о кредитовании.
Модели кредитного скоринга учитывают широкий набор данных. Важнейшую информацию о заемщике дает его кредитная история — сколько кредитов он брал и имеет, были ли просрочки, какую сумму платил без просрочек.
Евгений Смирнов отмечает, что Лаборатория машинного обучения Альфа-банка адаптировала нейронные сети для задач кредитного скоринга, чтобы выжимать максимум информации из слабоструктурированных сырых данных. Нейронные сети обрабатывают следующие источники данных в сыром виде: транзакции по картам и расчетным счетам, а также кредитные истории клиентов.
«Ранее в сфере скоринга использовались более простые методы оценки заемщиков, но мы показали, что она открыта и для нейросетей. Это может увеличить прибыль банка при фиксированном уровне риска или уменьшить риски при фиксированной доходности», — пояснил эксперт.
Нейросети самостоятельно выделяют в данных корреляции с целевыми событиями и по ним предсказывают целевые события. Для обучения моделей логично в первую очередь использовать сведения, которые будут коррелировать с целью скоринга (предсказывать вероятность невозврата займа).
Альфа-банк накапливает большой объем данных для кредитного скоринга самостоятельно. Более того, он может запрашивать внешние источники данных, например данные из различных бюро кредитных историй (БКИ): Национального бюро кредитных историй, Объединенного кредитного бюро «Скоринг Бюро» и других БКИ. Наконец, банк использует анализ транзакций держателей карт, операций по счетам и другие данные клиентов, у которых нет карт. Все данные для обучения нейросетей представлены в обезличенном виде. «Эта совокупность информации позволит принимать решение, давать заемщику кредит или нет. Например, если он был клиентом микрофинансовой организации, то риск невыдачи займа повышается», — объясняет Смирнов.
Как устроены нейросетевые модели кредитного скоринга и в чем сложность их обучения
По словам Евгения Смирнова, еще несколько лет назад для обучения скоринговой модели использовались только признаки, которые вручную собирал специалист по интеллектуальному анализу данных. Это занимало много времени, так как требовало проверки большого числа гипотез и построения широкого набора признаков, а также глубокого понимания области, чтобы построенные признаки были осмысленными и информативными. Более того, трудоемкость задачи существенно увеличивалась в случае неструктурированных источников данных.
Однако теперь Альфа-банк применяет рекуррентные нейронные сети, которые сами выявляют нужные признаки в процессе обучения из слабоструктурированных источников данных. Подобные нейросети уже используются в языковом моделировании и генерации текстов, распознавании речи и прочих задачах.
Исторически Альфа-банк начинал с применения рекуррентных нейросетей для построения моделей на последовательностях карточных транзакций и транзакций расчетного счета. Затем этот же подход применили к кредитным историям. Появление такой модели изменило процесс скоринга, поскольку банк начал больше опираться на решение с рекуррентными нейросетями, чем на обычную модель градиентного бустинга, основанную на табличных данных.
Градиентный бустинг — это продвинутый алгоритм машинного обучения для решения сложных задач, таких как классификация или регрессия. Точнее говоря, это ансамбль из более простых моделей, где каждая следующая модель научилась исправлять часть ошибок предыдущих.
При внедрении моделей машинного обучения все банки сталкиваются с одной проблемой — выборка данных смещается в пользу кредитоспособных заемщиков, так как займы выдаются только тем клиентам, которые уже получили высокий балл с помощью работающей модели скоринга. В результате модели могут обучаться только на заведомо благонадежных заемщиках.
Однако при обучении важно учитывать и проблемных заемщиков, которым раньше кредиты не выдавали. Альфа-банк в тестовом режиме выдавал небольшой процент займов клиентам, склонным к просрочкам и невыплатам, чтобы сформировать отдельную выборку, которой раньше не было у организации.
Для обучения нового алгоритма специалисты рассчитали «вес» такой новой выборки. Очевидно, банк не мог себе позволить сформировать большую выборку по более рисковому сегменту, поэтому было важно ее учесть таким образом, чтобы алгоритм мог дать ей должный акцент в процессе обучения, несмотря на ее размер.
На данный момент для задачи кредитного скоринга работают сразу три модели Лаборатории машинного обучения на последовательных данных: на карточных транзакциях, на транзакциях расчетного счета и на данных кредитных историй. Также независимо разрабатывается модель на основе градиентного бустинга. Модели работают вместе путем смешивания с помощью простой линейной модели. Все три модели внедрили только в те предложения, которые делает сам банк клиенту.
Как обеспечивается стабильность работы алгоритмов
Чтобы алгоритмы работали с учетом новых условий рынка, их регулярно дообучают на новых данных. Для мониторинга качества и стабильности работы моделей в Альфа-банке существуют отдельная команда, которая отслеживает в специальной системе мониторинга их точность. Когда точность начинает снижаться, команда мониторинга сигнализирует другим командам, что пора обновлять модели на новых данных или проверить качество входных данных.
Однако стабильность работы модели достигается в том числе на этапе разработки благодаря грамотному подходу тестирования на исторических данных. Качество моделей кредитного скоринга оценивается ее способностью ранжировать клиентов по благонадежности. Для этого существует метрика качества Джини, которая используется для оценки предсказательной силы моделей. Максимальное значение метрики — 100, минимальное — 0.
«По мере увеличения объемов обучающих выборок растет качество моделей. Даже при изменении макроэкономических факторов модели необязательно перестраивать благодаря процессу их калибровки, который позволяет скорректировать кредитный рейтинг каждого из клиентов в зависимости от текущей ситуации», — говорит Смирнов.
По словам Евгения Смирнова, нейронные сети в банке в настоящее время обрабатывают около 1 ТБ данных в месяц. Они требуют больше вычислительных мощностей по сравнению с моделями на основе градиентного бустинга — сравнимо с десятью продвинутыми компьютерами. Но эти затраты окупаются, говорит эксперт.
Как отмечает Смирнов, с постоянным обучением качество моделей растет и количество ошибок при выдаче займов снижается: те, кто ранее не мог претендовать на кредит, теперь получат его.
Как будут развиваться модели кредитного скоринга
Теперь Лаборатория машинного обучения стремится построить единую систему предсказаний на всех трех моделях, где каждая модель строит свои представления последовательных данных по клиенту, а затем в дело вступает многослойный перцептрон (MLP) для их объединения.
Такой подход позволить достичь лучшего качества за счет объединения представлений различных источников данных клиентов на более глубоком уровне.
Одной из функций команд лаборатории является переиспользование лучших практик, разработанных для одной бизнес-линии, в задачах других. В результате весь богатый опыт, накопленный в кредитном скоринге, будет переиспользован для других основных бизнес-задач банка. Например, такая модель сможет предсказывать склонность клиента к использованию определенного продукта или его дохода, а также склонность к уходу из банка. В такую модель потенциально можно встроить данные чеков, истории коммуникаций, логов мобильного приложения и сайта и т.д.
Как применяют алгоритмы кредитного скоринга в мире
Коммерческий банк Бангладеш Prime Bank при поддержке международной неправительственной организации Swiss Contact в 2022 году запустил цифровую платформу кредитования PrimeAgrim для людей и компаний без кредитного рейтинга. Алгоритм в основе платформы позволяет подтвердить свою кредитоспособность с помощью новой динамической системы кредитного скоринга, которая основывается на поведенческом анализе. В итоге клиенты могут получать кредиты всего за несколько минут.
Сингапурская финтех-компания CrediLinq.Ai предлагает модели кредитного скоринга, которые позволяют торговым площадкам развивать кредит как услугу. Она работает с цифровыми банками, чтобы увеличить объем кредитов для малого и среднего бизнеса. Стартап уже поддерживает несколько небольших платформ электронной коммерции, платежей и закупок в Сингапуре, Гонконге, Малайзии, Австралии и Индонезии.
А сингапурский UNO Digital Bank и финтех-компания Trusting Social внедрили умную систему кредитного скоринга, чтобы открыть доступ к услугам для филиппинских потребителей и вовлекать граждан без банковских счетов.
В Африке алгоритмы помогают расширить доступ к финансовым услугам странам с развивающейся экономикой. Так, панафриканский банк Ecobank и южноафриканская телеком-компания MTN объединились с дубайской финтех-компанией Optasia, чтобы предлагать свои услуги в Гвинее. Стороны используют машинное обучение в механизмах принятия решений, чтобы автоматически утверждать заявки на микрокредиты.