Coder Social home page Coder Social logo

msu's Introduction

MSU

описание тем исследовательских работ для студентов

нормировка данных

попробовать разные на фиксированном пуле задач и алгоритмов, например есть тут (+ интересные - tanh)

калибровка уверенности

все ссылки есть здесь - https://dyakonov.org/2020/03/27/проблема-калибровки-уверенности/ Есть куча идей - как сделать ещё / лучше. Нет честного сравнения всего и обзора (можно и более полный обзор сделать).

кодирование категориальных признаков

исследование различных спомобов кодирования категорий (отнестись к этому, как к простейшей реализации стекинга)

метрические алгоритмы / эффективные методы поиска ближайших соседей

  • материалы из лекции
  • сделать аналогичные эксперименты / критику работы (есть журнальный вариант) https://arxiv.org/abs/1708.04321

случайные леса

Исследуются разные способы агрегации вероятнсотей - всё на R - можно переписать и сделать лучше

важности признаков

  • что быстее сходится (в RF, например) качество или важность
  • (done) Strobl C., Boulesteix A.-L., Zeileis A., Hothorn T. Bias in random forest variable importance measures (2007). BMC Bioinformatics, 8(1), 25.

Здесь отмечается смещение важностей в сторону признаков с большим числом категорий или масштаба. Для некоторых моделей -зависимость от способа сэмплинга (с возвратом или без).

  • van der Laan MJ (2006) Statistical inference for variable importance. Int J Biostat. https://doi.org/10.2202/ 1557-4679.1008

поправка идёй Бреймана - на самом деле, это теоретическая работа по мат. статистике

  • Gregorutti B, Michel B, Saint-Pierre P (2015) Grouped variable importance with random forests and application to multiple functional data analysis. Comput Stat Data Anal 90:15–35
  • Gregorutti B, Michel B, Saint-Pierre P (2017) Correlation and variable importance in random forests. Stat Comput 27(3):659–678

(вроде) теория Бреймана для регрессий

  • Fisher A, Rudin C, Dominici F (2018) All models are wrong but many are useful: Variable importance for black-box, proprietary, or misspecified prediction models, using model class reliance. arXiv:1801.01489v3

(вроде) какое-то новое определение важности - теоретическая статья, много непонятного

  • Datta A, Sen S, Zick Y (2016) Algorithmic transparency via quantitative input influence: theory and experiments with learning systems. In: 2016 IEEE symposium on security and privacy (SP). IEEE, pp 598–617
  • Kononenko I et al (2010) An efficient explanation of individual classifications using game theory. J Mach Learn Res 11(Jan):1–18
  • Staniak M, Biecek P (2018) Explanations of model predictions with live and breakDown packages. arXiv:1804.01955

(вроде) SHARP

  • G. Louppe, L. Wehenkel, A. Sutera, and P. Geurts. Understanding variable impor-tances in forests of randomized trees. InAdvances in Neural Information ProcessingSystems, pages 431–439, 2013.
  • A. Sutera, G. Louppe, V. A. Huynh-Thu, L. Wehenkel, and P. Geurts. Context-dependent feature analysis with random forests.arXiv preprint arXiv:1605.03848,2016.

(вроде) теоретическое исследование про категориальные признаки

  • Robin Genuer, Jean-Michel Poggi, Christine Tuleau-Malot. Variable selection using Random Forests.Pattern Recognition Letters, Elsevier, 2010, 31 (14), pp.2225-2236.

Тут зависимость от параметров RF

оптимизация гиперпараметров

сделать обзор существующих методов / предложить быстрые (не обязательно для настройки ML-алгоритмов)

аугментация

в принципе, выигрышная тема

развитие ядерных методов

Если сделать по уму - они немного проигрывают DL:

весовые схемы, оценка меняющихся вероятностей

Решить задачу оценки вероятности p(t), сравнить метод весового оценивания с LSTM

ансамбли алгоритмов

Сначала сделать обзор существующих обзор, например, погуглив "Dietterich, T. G. (2000). Ensemble methods in machine learning."

  • оценивание распределения для каждого элемента метапризнаковой матрицы, генерация обучения для мета-алгоритма с помощью оценённого распределения

дисбаланс

  • https://arxiv.org/pdf/1901.05555.pdf - можно использовать и другой множетель для перевзвешивания (придумать!) / тут неплохой обзор подходов

Иерерхические вложения

тут надо разбираться... :)

"Regularization by noise"

Векторные представления

Начать с обзора (см. перечень), вариант темы: сделать такое же для категорий / исследовать существующие

SNA

много тем

графы

предложить новые подходы генерации графов, сделать эксперименты

экваринтные сети

тут надо разбираться - слишком много материала

а тут топология:

нестандартная оптимизация

для начала просто разобраться - сделать обзо по нескольким статьям

Дистилляция

классная идея в статье, почему-то никто не развил. Как минимум, сделать более интерпретируемые картинки (+ регуляризация как в distill.pub). Можно попробовать без диф. оптимизации сделать что-то подобное. По второй работе: можно ли базис совсем маленьким сделать???

Извлечение признаков из деревьев и обучение на деревьях

Semi-, Self-and Unsupervised

Отличнейший обзор!

  • заметка в блоге можно сделать для неглубокого обучения (получится что-то типа стекинга)

SVM-кластеризация

обзор и реализация известных подходов, например

Интересные идеи

Неевклидовы сети (просто почитать)

Онлайн-обучение

Оригинальное

  • Поиск прорывных / пустых научных областей

Есть такое решение: https://foundation.mozilla.org/en/blog/open-source-tool-accelerate-scientific-knowledge-discovery/ Есть более обширная база: https://dblp.org

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.