baseball

KBO 야구 데이터 분석

주제

: 선수의 능력 분석을 통한 승률 예측

목적 : 시장? post-corona 로 한국 야구에 대한 세계 관심도 증가 -> 미래 발전 가능성 있음
wordcloud 분석으로 관심도 증가 보여주고

구단의 선수 구성 시에 영입 리스트 
구단 연봉 총액 대비 구단 등수에 대한 비교

WBO 선수 리스트

검증할 가설 / 결론 : 승률을 예측하는 중요한 변수는 ___ 이다.

데이터셋

2013 - 2019 년도의 7년치 데이터 (근거 : 신규 구단 창단)

방법 : 크롤링
관련사이트 https://www.koreabaseball.com/Record/Player/HitterBasic/Basic1.aspx https://www.koreabaseball.com/Record/History/Team/Record.aspx

공격력과 방어력을 통한 승률 예측 모델 생성

공격력 : 타자, 주루
방어력 : 투수, 수비(팀 단위 때만)
제외할 부분: 타자<->투수 전환된 경우

개별 선수에 대한 능력 예측

선수단 구성 변화에 따른 팀의 공격력, 방어력 변화에 따른 승률 예측

승률과 순위의 차이 분석

당해 년도의 선수 구성에 따른 공격력, 방어력 차이
단일 게임의 선수 구성에 따른 공격력, 방어력 차이
팀대팀

독립변수 : 선수들 개인의 능력치 (타율, 타격능력 등) ??
-> 종속변수 : 팀의 승률

분석 방법

문제 정의 및 분석 목표 세우기

둘로 나누어 예측
머신러닝 모델 활용 -> 정확도 높은 모델 제안 -> 중요한 변수 도출

데이터 전처리

결측치 처리
컬럼 추가 / 정리

시각화

변수별 관계 시각화 -> 비율 도출

1. 문제 정의
- 2개의 요소로 나누어 예측: 각 데이터를 독립변수와 종속변수로 비교분석을 위해 데이터를 나누어 예측한다 -> 패턴 -> 인사이트 예측
- 주제 배경 관련하여 가설 설정 -> 2개 요소의 상관관계를 분석하여 사실여부 확인 / 검증
(분석 목적 -> 가설 설정)

2. 데이터 수집
- 분석 범위 정하기 -> 몇개년의 데이터를 표본으로 준비할 것인지? -> 중심극한 정리에 따라 데이터 정규성 확보 -> 데이터 수집 (가장 높고, 낮은으로 나누어)
- 크롤링하여 데이터 받아보기

3. 데이터 정제
- 크롤링하여 받은 데이터를 분석에 필요한 자료들만 추출하여 데이터를 정리
- R로 데이터 불러오기
- 독립변수 데이터 vs 종속변수 데이터 만들기 -> 데이터 합치기!

4. 분석
- 현상의 관련성 위해서 각 변수 간의 그래프 그려보고 비율 비교: 상관관계 분석 -> 산점도, 회귀 직선 그려보기

5. 결론
- 가설 검증 결과 -> 상관관계 있다는 것을 밝힘 -> 해결 방안이나 필요성 도출 (+ 근거에 대한 내용; 관련 논문/기타)

6. 요구사항
-R, python

통계 분석

1. 상관 분석
2. T-test : 컬럼 제외
3. 카이제곱 검정 : 비율 차이 비교
4. PCA 주성분 분석 (screeplot 시각화)

머신러닝 적용

랜덤포레스트, 의사결정나무(decision tree) -> 변수 중요도를 도표로 시각화

결론

1. 가장 정확도 높은 모델의 비율
2. 중요 변수 도출

요구사항

엑셀, R : 비율 시각화
SAS : 통계 분석
python : 머신러닝 적용(colab)

park-jeounghan / baseball Goto Github PK

baseball's Introduction

baseball

주제

데이터셋

공격력과 방어력을 통한 승률 예측 모델 생성

개별 선수에 대한 능력 예측

승률과 순위의 차이 분석

분석 방법

baseball's People

Contributors

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent