Coder Social home page Coder Social logo

fraud_detection's Introduction

Fraud Detection


2

Цели проектируемой антифрод-системы в соответствии с требованиями заказчика:

  • Бюджет создания антифрод-системы не должен превысить 10 млн. руб. (не считая зарплат специалистам)
  • MVP должно быть готово через три месяца
  • Антифрод-система должна быть готова через пол года
  • Доля выявленных антифрод-системой мошеннических транзакций должна быть не меньше 98%
  • Общий ущерб клиентов за месяц не должен превышать 500 тыс. руб.
  • Система должна быть способна выдержать пиковые нагрузки на 700% превышающие норму
  • Доля корректных транзакций, которые система определяет как мошеннические, не должна превышать 5%
  • Система должна быть развернута на облачных вычислительных ресурсах
  • Данные о клиентах должны быть обезличены

Метрика машинного обучения:

Тк доля выявленных антифрод-системой мошеннических транзакций должна быть не меньше 98%, то для реализации этой цели нам нужно использовать метрику Recall. Тк доля корректных транзакций, которые система определяет как мошеннические, не должна превышать 5%, то для реализации этой цели нам нужно использовать метрику Precision. Чтобы учесть обе вышеупомянутые метрики, нужно использовать метрику F-score. Учитывая несбалансированность классов для анализа модели при различных пороговых значениях можем использовать PR кривую и соответствующую метрику PR-AUC.


Анализ по MISSION Canvas:

  • Partnership: облачные сервисы
  • Activities: аренда облачных сервисов, разработка модели
  • Resources: кластеры серверов, транзакции клиентов
  • Value propositions: повышенная безопасность проведения операций
  • Buy-in & Support: аналитики данных, бизнес-аналитики, инженеры, разработчики
  • Deployment: Коннектор; обработка/инференс; СХД; мониторинг. + CI/CD
  • Beneficiaries: граждане, пользующиеся услугами проведения онлайн-платежей с банковских счетов
  • Budget / cost: бюджет не должен превысить 10 млн. руб. (не считая зарплат специалистам)
  • Achievements / impact factors: доля выявленных ошеннических транзакций должна быть не меньше 98% + доля корректных транзакций, которые система определяет как мошеннические, не должна превышать 5% + общий ущерб клиентов за месяц не должен превышать 500 тыс. руб.

Задачи:

  • Подготовка данных
    • Очистка данных:
      • Поиск проблем в данных
      • Написание скрипта для очистки данных
  • Разработка модели
  • Настройка облачной инфраструктуры
    • Создание S3 хранилища
    • Копирование данных с S3 компании на свой S3
    • Копирование данных с S3 в HDFS
    • Оценка и оптимизация затрат
  • Развертывание модели
  • Настройка мониторинга

3

Настройка облачной инфраструктуры:

Данные в S3 доступны по адресу https://storage.yandexcloud.net/ducket или s3://ducket/

Список данных в HDFS:

Оценка затрат:

  • Стоимость часа аренды кластера без публичного доступа: 35,96 ₽/час
    • Intel Ice Lake. 100% vCPU: 14,70 ₽
    • Yandex Data Proc - Intel Ice Lake. 100% vCPU: 1,68 ₽
    • Intel Ice Lake. RAM: 15,68 ₽
    • Yandex Data Proc - Intel Ice Lake. RAM: 1,68 ₽
    • Стандартное сетевое хранилище (HDD): 1,56 ₽
    • Быстрое сетевое хранилище (SSD): 0,66 ₽
  • Cтоимость месяца аренды кластера без публичного доступа: 35,96 ₽ * 720 часов = 25891,2 ₽/месяц
Тип диска Цена за 1 ГБ в месяц, ₽
Быстрый диск (SSD) 11,91
Стандартный диск (HDD) 2,92
Нереплицируемый диск (SSD) 8,80
Высокопроизводительный диск (SSD) 19,80
Тип хранилища Цена за 1 ГБ в месяц, ₽
Стандартное хранилище 2,01
Холодное хранилище 1,07
Ледяное хранилище 0,535
  • Средняя цена 1 ГБ HDFS хранилища дороже средней цены 1 ГБ объектного в 9,0104 раза: 10,8575 ₽/месяц / 1,2050 ₽/месяц
    • Средняя цена 1 ГБ HDFS хранилища в месяц: (11,91 ₽/месяц + 2,92 ₽/месяц + 8,80 ₽/месяц + 19,80 ₽/месяц) / 4 = 10,8575 ₽/месяц
    • Средняя цена 1 ГБ S3 хранилища в месяц: (2,01 ₽/месяц + 1,07 ₽/месяц + 0,535 ₽/месяц) / 3 = 1,2050 ₽/месяц

Оптимизация затрат:

  • Использовать ледяное хранилище для данных с редким доступом
  • Использовать HDD для данных с частым доступом
  • Использовать нереплицируемый SSD, если возможно повторный скачивание и данные не имеют высокой ценности
  • Снизить гарантированную долю vCPU до 20%
  • Использовать прерывающиеся виртуальные машины
  • Посмотреть список доступых льгот

4

Автоматизация очистки данных:


5

В этом задании был использован airflow 3й версии т.к в нём была добавлена автоустановка зависимостей

Обучение модели:

  • Скрипт обучения модели: train_model.py
  • Скриншот:

Автоматическое переобучение модели:

fraud_detection's People

Contributors

ilay-group avatar

Watchers

 avatar

fraud_detection's Issues

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.