본 연구는 빅데이터 분석과 다양한 머신러닝 기법을 적용하여 한국프로농구 경기결과를 예측하고 각 기법의 알고리즘 성 능을 하이퍼 파라미터 최적화를 통해 개선하고 비교 분석하기 위해 실시되었다. 이를 위해 한국프로농구 홈페이지에서 크 롤링한 데이터와 연구자들이 실질적으로 가공한 86개의 예측변수를 종합적으로 사용하였다. 구체적으로, 본 연구에서는 2017∼2018시즌부터 2020∼2021시즌까지의 4년에 달하는 1,003경기의 방대한 분량의 빅데이터를 학습데이터로 사용하여 2021∼2022시즌에 구성된 265경기의 경기 승패 결과를 예측하였다. 본 연구에 적용된 머신러닝 기법으로는 네이브 베이즈, 로지스틱 회귀, 랜덤 포레스트, 배깅, 서포트 벡터 머신(SVM), 에이다 부스트, 의사결정나무, K-최근접 이웃(KNN)이 사용되 었고, 각 기법의 성능을 확인하기 위해 학습정확도, 예측정확도, 정밀도, 재현율, F1점수, RMSE, 결정계수를 분석하였다. 마지막으로 본 연구에서 분류된 각각의 머신러닝 모형별 파라미터를 기본값으로 설정한 경우와 최적의 하이퍼 파라미터를 설정한 경우를 객관적으로 비교하여 분석하였다. Test 정확도가 가장 높은 Logistic Regression은 98.11%였으며, 가장 낮은 Decision Tree의 경우에는 94.91%로 나타났다. 한국프로농구 리그의 경기결과 예측을 위해 분류되어 적용된 각각의 머신러 닝 기법별로 최적의 하이퍼 파라미터를 적용할 경우 SVM이 98.68%로 가장 높은 Test 정확도를 나타냈으며, 의사결정나무 가 86.91% 가장 낮은 테스트 정확도를 보여주었다. 이는 기존의 머신러닝의 기법을 폭넓은 데이터와 변수에 적용하여 종 합적으로 비교분석하고 이를 적용한 알고리즘에 나타난 정확도를 비약적으로 발전시켰다는 점에서 큰 의의가 있다.
주요어 : 머신러닝, 하이퍼 파라미터 최적화, 빅데이터 분석, 한국프로농구, 승패 예측
링크 : https://kiss.kstudy.com/Detail/Ar?key=4009050