2013년 대한야구협회에서 정한 공식 야구 규칙은 다음과 같이 시작한다.
ⓒ 대한야구협회 (2013)
모든 스포츠가 그렇겠지만, 야구는 다른 팀과 경기를 통해 승부를 가리는 데 그 목적이 있고, 승부는 다른 팀 보다 더 많은 점수를 얻는 것에 따라 결정된다. 득점이 많은 팀은 그렇지 않은 팀에 비해 이길 확률이 높을 것이고 실점이 많은 팀은 그렇지 않은 팀에 비해 패할 확률이 높을 것이다. 야구의 승부를 결정 짓는 가장 주요한 요소인 득점과 실점은 직접적으로 승리에 영향을 미칠 것이기에, 이를 이용하여 한 시즌 동안 얼마만큼의 승리를 거둘 수 있는지를 예측해 볼 수 있을 것이다. 이러한 맥락에서 등장한 개념이 바로 Pythagorean Expectation, 피타고리안 승률이다.
야구 경기에서 발생하는 데이터를 분석하는 학문인 Sabermetrics의 창시자 Bill James가 제안한 피타고리안 승률은 이와같은 가정에서 시작한다." 한 구단이 마땅히 얻을 수 있는 승리는 득점과 실점에 영향을 받을 것이고 득점이 높고 실점이 낮다면 당연히 그 값은 커질 것이다". 이를 바탕으로 득점의 제곱을, 득점의 제곱과 실점의 제곱의 합으로 나누어 승률의 추정량을 고안하였고 피타고라스 정리와 유사하다는 이유에서 이를 피타고리안 승률이라 불렀다.
자연스레 득점과 실점의 비율에 따라서 승률은 결정이 되고, 이때 실점이 큰 경우 분모가 작아짐으로 승률은 낮아지고, 득점이 큰 경우 분모가 증가되나 더 빠른 크기로 분자가 증가됨으로 승률이 높아지는 효과를 기대할 수 있다. 실례로 지난 2012년 KIA가 얻은 득점은 553, 실점은 564로 위의 공식에 넣고 계산을 하면 0.490이란 값이 계산되는데 이는 기아의 실제 승률인 0.488과 불과 0.002밖에 차이가 나지 않는 수치이다. 2012년 각 팀의 득점과 실점에 따라 구해본 피타고리안 승률과 실제 승률 비교는 아래 그림과 같다.
ⓒ nrevival.tistory.com
그림에서 확인할 수 있듯이 예측치는 실제 승률과는 어느정도의 차이가 존재한다. 그럼에도 피타고리안 승률이 어느정도의 경향을 보이는데는 부족함이 없다. (MLB의 역대 데이터를 볼때, 득점과 실점의 두제곱을 구하는 것 보다 1.83제곱을 구하는 것이 보다 오차가 적다고 계산된다고 한다. 더욱 2012년에 실제 값과 예측치의 차이를 최소화하는 승수는 1.68이나 여기에서는 가장 간단한 형태인 두제곱을 이용하기로 가정. 실제로 승수는 득점과 실점에 따라 승리와 어떤 관계를 맺는지에 대해 나타내주는 수치이다.)
이러한 자료를 바탕으로 4월 28일까지의 KBO의 경기 진행을 통해 각 팀이 얻은 득점과 실점을 바탕으로 피타고리안 승률을 계산해본 결과가 다음과 같다. (A.W.는 실제 승률, P.W.는 피타고리안 승률)
ⓒ nrevival.tistory.com
공동 1위를 달리는 두산과 기아의 경우 승률은 동일하나 피타고리안 승률에서는 큰 차이를 보였다. 두산은 피타고리안 승률이 .721 이 나올 정도로 탄탄한 공격력과 수비력을 갖추고 있음을 확인할 수 있다. 반면 기아는 강력한 공격을 바탕으로 많은 경기에서 승리를 거두었음에도 불구하고 비교적 높은 실점으로 인해서 피타고라스 승률이 높지 않게 나온 것을 확인할 수 있다. 이러한 경향이 계속된다면 두산은 더욱 더 높은 승률을 기록할 것이고 기아는 승률이 낮아진다고 가정해 볼 수 있다. 20개의 경기 결과를 바탕으로 구해본 피타고리안 승률에 따라 순위를 다시 나타낸 표는 아래와 같다.
ⓒ nrevival.tistory.com
피타고리안 승률이 경기의 질을 나타내 주는 척도라 할때의 순위는 다음과 같고 기아, 넥센, 롯데, 한화는 내용에 비해 성적이 높게, 반대로 삼성, LG, SK, NC는 내용에 비해 성적이 낮게 나오는 현상을 보이고 있다. 이 피타고라스 승률은 이러한 득점, 실점 패턴이 계속 유지된다면 향후의 승률은 피타고라스 승률에 점근할 것이다는 점에서 의의를 지닌다. 즉 이와 같은 각 팀의 득실점 패턴이 유지된다면 향후 순위는 위의 표와 같이 나타날 것이다. (1.83으로 승수를 적용하는 경우, 순위는 동일하고 각각의 승률은 .705, .671, .638, .619, .509, .489, .423, .265, .180으로 수렴할 것이라 예상)
주어진 데이터를 이용해서 모르는 정보를 추정하는 다양한 기법 중에서 본 아티클에서는 득점과 실점을 바탕으로 승률을 추정하는 피타고리안 승률법에서 다루었다. 기회가 되면, Sabermetrics의 간단한 내용을 살펴봐야겠다.
'프로젝트 > 데이터로 보는 세상' 카테고리의 다른 글
탈G효과는 실재하는가? (2) | 2012.10.24 |
---|