В данном исследовательском проекте мы изучим и сравним различные способы поиска аномалий в табличных данных. Будем использовать следующие 11 наборов данных:
Название | Кол-во объектов | Кол-во аномалий | Процент аномалий | Кол-во признаков |
---|---|---|---|---|
ALOI | 50000 | 1508 | 3.02% | 27 |
annthyroid | ||||
cardio | ||||
musk | 3062 | 97 | 3.17% | 165 |
mammography | 7849 | 254 | 3.24% | 5 |
optdigits | ||||
satellite | ||||
satimage | ||||
shuttle | ||||
shuttle | ||||
yeast |
Изучив поведение 23 моделей для обнаружения аномалий в данных по метрикам AUC-ROC и AUC-PR, мы обнаружили, что одна из них показывает лучшие результаты на 6-7 датасетах, а отличающиеся от лучшего не более чем на 10% - почти на всех наборах данных. Это модель XGBOD - она создает новое пространство признаков и поверх него запускает градиентный бустинг.