Coder Social home page Coder Social logo

2020l-warsztatybadawcze-inzynieriacech's Introduction

2020L-WarsztatyBadawcze-InzynieriaCech

Plan zajęć

  1. Problem klasyfikacji dla klas uporządkowanych: Karol Saputa, Małgorzata Wachulec, Aleksandra Wichrowska
  2. GBM: Wojciech Bogucki, Tomasz Makowski, Dominik Rafacz
  3. Metody imputacji danych: Mateusz Bakala, Michał Pastuszka, Karol Pysiak
  1. randomForest: Bartłomiej Granat, Szymon Maksymiuk
  2. XAI: Wojciech Kretowicz, Łukasz Brzozowski, Kacper Siemaszko
  3. XGboost: Rydelek, Merkel, Stawikowski
  1. SAFE/modelStudio: Hubert Baniecki, Mateusz Polakowski
  2. Prezentacja artykułu: https://arxiv.org/pdf/1811.10154.pdf: Olaf Werner, Bogdan Jastrzębski

** 2020-05-21 - Lighting talk na wykładzie artykułu

  • 2020-05-22 - projekt: poprawki

** 2020-05-28 - wykład: blog

  • 2020-05-29 - artykuł

  • 2020-06-05 - artykuł

Prezentacje (15 pkt.)

Należy przygotować prezentację na jeden z uzgodnionych tematów.

Prace domowe (15 pkt.)

Praca domowa 1 (10pkt)

  • Pracę domową należy wykonać pojedynczo. Na podstawie zbioru danych „sick" dostępnych w zbiorze OpenML należy wykonać analizę eksploracyjną oraz zbudować interpretowalny model klasyfikacyjny przewidujący czy pacjent jest chory czy zdrowy. Powinna zostać użyta 5-krotna kroswalidacja do znalezienia odpowiedniego modelu na zbiorze treningowym i wyliczone dwie miary na zbiorze testowym: AUC i AUPRC. Do podziału zbioru na zbiór treningowy i testowy, proszę użyć dostępnych indeksów zbioru treningowego w folderze 'Praca domowa 1'.

  • Praca w formie raportu .pdf i .Rmd w języku angielskim powinna być zamieszczona w folderze https://github.com/mini-pw/2020L-WarsztatyBadawcze-InzynieriaCech/tree/master/PracaDomowa1/ImieNazwisko do 17.04 do godz. 10 oraz zaprezentowana (max. 5 minut) podczas zajęć 17.04.

Praca domowa 2 (5pkt)

  • Pracę domową należy wykonać pojedynczo, praca jest kontynuacją pracy domowej 1. Należy dodać model czarnej skrzynki przewidujący czy pacjent jest chory czy zdrowy. Powinna zostać użyta 5-krotna kroswalidacja do znalezienia odpowiedniego modelu na zbiorze treningowym i wyliczone dwie miary na zbiorze testowym: AUC i AUPRC. Wyniki należy porównać z wynikami modelu z pracy domowej 1. Do podziału zbioru na zbiór treningowy i testowy, proszę użyć dostępnych indeksów zbioru treningowego w folderze 'Praca domowa 1'.

  • Praca w formie raportu .pdf i .Rmd w języku angielskim powinna być zamieszczona w folderze https://github.com/mini-pw/2020L-WarsztatyBadawcze-InzynieriaCech/tree/master/PracaDomowa2/ImieNazwisko do 29.04 do godz. 10 oraz zaprezentowana (max. 5 minut) podczas zajęć 29.04.

Projekt (55 pkt.)

Celem projektu jest zbudowanie jak najlepszego interpretowalnego modelu oraz porównanie go z modelem czarnej skrzynki. W celu zbudowania bardzo dobrego modelu interpretowalnego powinna być zastosowana m.in.:

  • selekcja cech
  • inżynieria cech
  • transformacje zmiennych
  • analiza braków danych
  • wiedza ekspercka
  • wykorzystanie modelu czarnej skrzynki do budowy modelu interpretowalnego (np. PDP do transformacji zmiennych, metoda SAFE)

W projekcie należy przedstawić kolejne kroki - historię pokazującą ile do wyniku modelu wniosła np. inżynieria cech, potem ile wniosła imputacja danych, itd... . Na koniec powinno być zestawienie, że goły modelu interpretowalnego ma wynik A%, automL B%, a kolejne wersje modeli interpretowalnych mają C%, D% i tak dalej.

Końcowy model interpretowalny powininen być przynajmniej tak dobry jak model czarnej skrzynki (automl). W artykule należy przedstawić etapy pracy nad modelami oraz ich porówanie (wybranymi miarami służacymi do oceny jakości modeli).

Rezultatem prac powinien być krótki artykuł naukowy napisany w języku angielskim (40 pkt.), minimum 3 strony umieszczony jako rozdział książki online, która powstanie w ramach przedmiotu. Podział punktów w ramach artykułu

  • Abstrakt: 5 pkt.
  • Wstęp + Motywacja: 10 pkt
  • Opis metodologii i wyników: 15 pkt.
  • Wnioski: 10 pkt.

Projekt nalezy zaprezentować w postaci Lightning Talka na jednym z ostatnich wykładów (15 pkt.).

Blog (15 pkt.)

Informacje w repzytorium Wykładu

2020l-warsztatybadawcze-inzynieriacech's People

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

2020l-warsztatybadawcze-inzynieriacech's Issues

Prezentacje na ćwiczeniach

  1. Metody transformacji zmiennych
  2. Metody imputacji danych
  3. Modele liniowe, lasso, regresja grzbietowa
  4. Kryteria wyboru modeli (kroswalidacja krzyżowa, AIC, BIC)
  5. Czarne skrzynki: GBM
  6. Czarne skrzynki: Random Forest
  7. Czarne skrzynki: XGBoost
  8. Safe
  9. XAI
  10. Prezentacja artykułu: https://arxiv.org/pdf/1811.10154.pdf

Bookdown

Mamy już repozytorium z ebookiem: https://github.com/mini-pw/2020L-WB-Book, w którym będziemy umieszczać artykuły. Należy założyć podrozdział odpowiadający artykułowi, który powstanie w ramach porojektu. Podrozdział zawierać ma autorów oraz tytuł.
Książka będzie służyć do artykułów wszystkich grup WBI i WBII.
Podzielona jest na 3 rozdziały.

Pliki zaczynające się od 1-0, 2-0, 3-0 to wstępy do rozdziałów

Pliki zaczynające się od 3-1, 3-2, 3-3 to podrozdziały, które powinny odpowiadać grupom.
Istotne jest, że najwyższy stopień nagłówka w plikach z artykułami to ##, dzięki temu będą one podrozdziałami dla pliku 3-0-interpretability.Rmd

Robiąc pull request zacznijcie jego nazwę od INTER. Powinien zostać dodany tylko jeden plik .Rmd, bez renderowania książki na nowo.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.