PGR21.com
다시봐도 좋은 양질의 글들을 모아놓는 게시판입니다.
Date 2013/11/20 03:39:39
Name 밤의멜로디
Subject 세이버메트릭스-야구 스탯 살펴보기(타율부터 XR까지)
야구 시즌도 다 끝나고, KBO는 FA시장까지 다 끝난 지금입니다. 해가 갈 수록 야구팬들이 수많은 야구 스탯들, 세이버메트릭스를 접하고, 관심을 가져가고 있습니다. 이제 OPS는 왠만한 야구팬이면 누구나 들어본 스탯이 되었죠.
세이버메트릭스에선 만들어낸 스탯도 정말 많고 복잡하지만 저는 이 스탯들을 자주 쓰이는 것만 가장 기본적인 스탯부터 천천히 살펴보고자 합니다.

우선, 타자의 타격에 관한 스탯을 살펴보고자 합니다. 각종 스탯을 살펴보기 전, 알아둬야 하는 몇가지 용어와 약자를 먼저 정의하고 가죠. 앞으로 소개글에서 여기 나오는 약자는 자주 쓰일 예정입니다.

타석(PA/Plate Appearances) – 타석에 들어선 횟수(단, 타석에 들어섰다가 주자가 주루사하여 타격의 기회를 잃었을 경우 타석에 추가하지 않음)
안타(H/Hit) = 1B+2B+3B+HR
1루타(1B)
2루타(2B)
3루타(3B)
홈런(HR/Home Run)
볼넷(BB/Bases on Balls)
몸에 맞는 공(HBP/Hit By Pitched ball)
희생번트(SH/Sacrifice Hits)
희생플라이(SF/Sacrifice Flies)
고의사구(IBB/Intentional Bases on Balls)
도루(SB/Stealing Bases)
도루실패(CS/Caught Stealing)
삼진(SO/Strike Out)
병살타(GIDP/Ground Into Double Play) – 라인드라이브, 뜬공으로 인한 병살은 병살타가 아님
총루타(TB/Total Bases) = 1루타 + 2루타×2 + 3루타×3 + 홈런×4
타수(AB/At Bats) – 타석에 서서 타격을 완료한 횟수. 볼넷, 몸에 맞는 공, 희생번트, 희생플라이, 타격방해, 수비방해로 인한 출루는 타수에 포함하지 않는다. 실책에 의한 출루는 타수에 포함된다.


1. 타율(AVG/hitting AVeraGe)
타율 = 안타 / 타수
AVG = H/AB

타율은 야구를 볼 때 타자의 스탯중에서 가장 처음 접하는, 야구를 조금이라도 본 사람이면 누구나 아는 스탯일 것입니다.
타격을 해서 몇 번 안타를 만들어내냐 하는 단순한 스탯이죠. 계산법도 매우 단순합니다. 단순하지만 100년도 전부터 계속 쓰여져왔고, 아직도 가장 중요하게 보는 스탯이기도 하죠. 야구에서 점수를 내는 기본은 안타고, 그 안타를 얼마나 치는가를 나타내니깐요. 타율 1위를 타격왕이라고 흔히 부르는데서도 느낄 수 있습니다. 보통 3할(0.3)을 넘길 경우 3할타자라고 하며 우수한 타격능력을 지닌 타자의 기준이 되죠. KBO 기준 매년 열몇명밖에 나오지 않습니다.

하지만 이 타율은 몇 가지 단점을 가지고 있습니다. 우선, 장타자와 교타자를 구분하지 않습니다. 홈런을 치든 1루타를 치든 같은 안타 하나일 뿐입니다. 그런 면에서 장거리 타자에게 불리한 스탯이라고 할 수 있습니다. 그리고 볼넷을 전혀 고려하지 않습니다. 분명 타자의 능력이 반영되어 출루한 것이고, 팀의 득점에 공헌이 되는 행동을 한 것인데 타율엔 전혀 영향이 없습니다.


2. 출루율(OBP/On Base Percentage)
출루율 = (안타 + 볼넷 + 몸에 맞는 공) / (타수 + 볼넷 + 몸에 맞는 공 + 희생플라이)
OBP = (H + BB + HBP) / (AB + BB + SF + HBP)

분모는 타석-희생번트-타격방해/수비방해 등 이라고 생각할 수도 있습니다. BB, HBP 말도고 희생플라이가 분모에 추가된 것을 볼 수 있습니다. 타율과는 달리 희생플라이도 아웃으로 카운트해서 계산하는 것인데요. 이는 희생플라이는 희생번트와는 달리 타격기회를 확실히 포기한 것이 아니라 생각해서 이렇게 계산하는 것입니다.

출루율은 요즘 들어 자주 듣게 되는 스탯이죠. 머니볼의 성공으로 이제 일반 야구팬들에게도 매우 친숙하고, 중요시 여겨지게 되었습니다.
출루율은 타자가 얼마나 잘 출루하는지를 나타내는 스탯입니다. 야구에서 득점은 기본적으로 타자가 진루해서 누상에 나가야만 득점을 할 수 있습니다. 안타도 그 누상에 나가는 방법 중 하나인 것이죠. 그래서 출루율이 타율보다 좋은, 득점연관성이 높은 스탯이 되는 것이죠.
4할 출루율이면 리그에서 몇 없는 대단한 선수라고 할 수 있습니다. 2013년 올해 KBO 기록을 보면 4할 출루율은 7명밖에 없군요.


3. 장타율(SLG/SLugging Percentage)
장타율 = (1루타 + 2루타×2 + 3루타×3 + 홈런×4) / 타수
SLG = (1B + 2B×2 + 3B×3 + HR×4) / AB

장타율은 이름의 느낌은 타자가 장타를 치는 비율을 나타낼 듯 하지만 실제는 타수 당 몇루타를 칠 수 있을지, 즉 타석당 기대 루타수를 나타냅니다. 

그런 고로 일반적으로 멀리 날리는 장타자가 더 높게 나오지만, 장타자라고 반드시 장타율이 더 높다고 볼 수 없습니다. 2013년 KBO의 예를 들자면 NC 권희동은 타율 0.203에 홈런 15개를 쳤습니다. 권희동의 장타율은 0.393입니다. 반면 홈런이 3개밖에 없는 LG 이진영은 타율 0.329, 장타율은 0.429입니다. 비교해보면 홈런타자는 권희동이지만 장타율은 이진영이 더 높은 것을 볼 수 있습니다. 

장타율은 보통 5할이 넘으면 특급타자라고 할 수 있습니다. 타고투저의 최고였던 09년엔 18명이 5할을 넘었고, 작년엔 6명, 올해는 5명이 5할을 넘었습니다.


4. 순수장타율(ISO/ISOlated power)
순수장타율 = 장타율 – 타율
ISO = SLG – AVG

순수장타율은 위의 장타율에서 설명한, 장타자 여부와 장타율이 반드시 일치하는 것이 아님을 생각하여 장타율이 진짜 장타로 인한 것인지 아닌지를 판단하게 해 주는 스탯입니다.

위의 권희동과 이진영의 예를 다시 한번 사용하겠습니다. 권희동의 ISO를 계산하면 ISO=0.393-0.203=0.190입니다. 이진영은 ISO=0.429-0.329=0.100입니다. 순수장타율은 권희동이 약 2배 높은 것을 볼 수 있습니다. 권희동이 홈런타자라는 것을 확실히 보여주죠. 나지완, 최형우, 강정호 같은 타자가 약 0.2의 값을 보여주고, 올해 리그 최고의 홈런타자였던 박병호는 0.284로 매우 높은 값을 보입니다.

이 순수장타율은 그 타자가 얼마나 득점에 공헌하는지는 별로 보여주지 않지만, 타자의 성향을 판단하는데 도움을 줍니다.


5. OPS(On base percentage Plus Slugging percentage)
OPS = OBP + SLG

OPS는 이름 그대로 위에서 언급한 출루율과 장타율, 두 스탯을 합한 스탯입니다.
출루율만으로는 타자가 얼마나 멀리 칠 수 있는가를 알 수 없습니다. 1루타와 홈런의 가치는 확실히 다른데도 말이죠. 그리고 장타율에서는 볼넷/몸에 맞는 공이 무시되고, 또한 2루타가 1루타 2개와 같은 가치를 가지죠. 실제는 1루타에 비해선 2루타가 좋긴 하지만 1루타 두 개가 득점을 할 수 있는 주자를 두 배 만든 것이기에 1루타 2개가 좀 더 나은데도 말이죠. 그래서 이 두 스탯을 더해 서로 보완한 것입니다. 

단순히 두 스탯을 더했을 뿐인데, OPS는 r이 0.9가 넘는 놀라울 정도로 높은 득점상관도를 보여줍니다. OPS가 높은 팀은 대체적으로 득점이 많다고 할 수 있습니다. OPS는 누구나 내용을 금방 이해하여 간단하게 계산할 수 있으면서도 그 내용도 타자의 능력을 골고루 평가할 수 있게 만들어진 스탯입니다. 타자의 능력을 평가하는 더 정밀한 스탯은 많이 개발되어있지만 OPS가 널리 알려지고 자주 쓰이게 되는 것은 이런 이유에서입니다. 더 읽다보면 아시겠지만 이제 뒤에 나올 스탯들의 계산 방법은 정말 복잡합니다…

OPS는 보통 7할을 넘으면 괜찮은, 주전으로 쓸 수 있는 정도의 타자로 평가하고, 9할, 즉 0.9 이상이면 특급 타자라고 평가합니다. 2013년 타율 0.272 홈런 5개의 정의윤이 OPS가 0.713이네요. 그리고 박병호, 최정, 박석민, 김태균이 0.9를 넘깁니다. 우리나라 역대 최고는 82년 백인천의 1.237입니다. 그 뒤로는 01년 호세의 1.198과 03년 심정수의 1.197이 뒤를 잇습니다. 03년 심정수는 홈런 53개를 친 해로, 이승엽이 홈런을 56개를 치는 바람에 홈런왕은 못되었지만 이승엽과 비교해 장타율, 출루율은 오히려 더 높아(출루율만 0.478…) OPS 1.127의 이승엽보다 더 득점공헌도가 높은 타자였다고 할 수 있습니다. (1.127도 역대 5위지만)


6. GPA(Gross Production Average)
GPA = (OBP×1.8 + SLG) / 4

GPA는 위의 OPS를 보완한 스탯입니다. 
OPS는 출루율과 장타율을 그대로 더했습니다. 그런데 출루율은 일반적으로 0.5를 넘기는 기록이 몇십년에 하나 나옵니다. 그런데 장타율은 0.6도 매년 한 명은 넘깁니다. 둘의 분포가 다른 것이죠. 그리고 OPS에서는 출루율과 장타율을 무작정 1:1의 비율로 더했지만 출루율과 장타율이 동일한 가치가 있다고는 확실히 말할 수 없습니다. 실제 세이버메트리션들이 분석한 결과, 출루율이 장타율보다 득점 상관도가 높게가치가 높다고 나왔습니다. 그래서 이를 보완해서 출루율을 1.8배 곱해주어 가중치를 준 스탯이 GPA인 것입니다.

GPA 또한 크게 복잡하지 않고 더 정확하게 생산성을 보여줄 수 있는 스탯입니다. 나누기 4를 한 것은 타율과 비슷한 스케일로 만들기 위함입니다. 말하자면 GPA가 0.3이 넘으면 좋은 타자이고 0.2에 가까우면 안좋은 것이죠.


7. OPS+ (조정 OPS)
OPS+ = 100×((OBP/lgOBP + SLG/lgSLG) - 1) / BPF
조정 OPS = 100×(해당선수 출루율/리그평균 출루율 + 해당선수 장타율/리그평균 장타율-1) / 타자파크팩터

OPS+는 OPS에서 온전히 그 타자의 능력을 나타내기 위해 투고타저/타고투저에 따른 효과, 구장에 의한 효과를 최대한 배제시키고자 나타난 스탯입니다.
이제, 더 생소하고 복잡한 것들이 등장하였습니다. 앞에 lg가 붙은 것은 해당 년도 리그의 전체 평균을 나타내는 것입니다. 그 해의 평균과 비교해서 출루율, 장타율이 얼마나 높은지를 가지고 OPS를 계산하는 것이죠. 

OPS+는 100이면 평균이고, 100보다 높을수록 좋은 타자라는 것을 말해줍니다. 평균으로 나눠서 그 비율을 비교한 것이므로 OPS+가 150이면 그 해의 평균보다 OPS가 1.5배라는 뜻입니다. 올해 박병호의 OPS+는 180, 7관왕 2010년 이대호가 190입니다. 역대로는 82년 백인천이 228로 1위, 03년 심정수가 213으로 2위네요.

7.1 Park Factor
지금까지 OPS+에 대한 설명에서 타자파크팩터(BPF)에 대한 설명은 빠졌습니다. OPS+를 파크팩터를 제외하고 계산하는 경우도 많습니다. 이게 들어가면 계산이 더 많이 복잡해지기 때문이죠. 파크팩터란 구장에 따른 효과를 나타낸 값입니다. 그 구장에서 상대적으로 1루타, 2루타, 3루타, 홈런, 득점이 얼마나 더/덜 나오는지 계산한 값이죠. 이 데이터는 보통 한 시즌으로는 부족하고 5시즌정도의 데이터는 있어야 정밀한 값이 나온다고 합니다. 우리나라 구장에서는 가장 큰 구장인 잠실이 홈런은 적게 나오고 3루타가 많이 나오죠. 가장 단순한 홈런 파크팩터 계산 방식은 다음과 같습니다.

(홈 경기에서의 팀 홈런+상대팀 홈런)/(홈 경기에서의 팀 타수+상대팀 타수)) / ((원정 경기에서의 팀 홈런+상대팀 홈런)/(원정 경기에서의 팀 타수+상대팀 타수)) × 100

홈런 말고 득점, 3루타 등을 계산할 땐 분자에 홈런 대신 다른 값을 넣으면 됩니다. 여기에 더 정밀하게 하면 타수가 아닌 타수-삼진을 씁니다. 삼진은 공을 맞춘 결과가 아니기 때문이죠. 더 정밀한 방식은 복잡하기에 http://www.baseball-reference.com/about/parkadjust.shtml 같은 사이트를 참조하세요..
아래의 링크를 타고 가시면 야구도락 블로그에서 계산한 국내 구장들의 파크팩터 값을 보실 수 있습니다.
http://dorock.tistory.com/entry/0913-%ED%8C%8C%ED%81%AC%ED%8C%A9%ED%84%B0-%EB%B0%94%EB%80%90-%EB%8C%80%EC%A0%84-%EA%B5%AC%EC%9E%A5%EC%9D%80-%ED%95%9C%ED%99%94%EC%97%90-%EB%B6%88%EB%A6%AC

이렇게 파크팩터 값이 구해졌으면 이를 OPS+에 적용시킬 차례입니다. 사실 파크팩터를 적용하는 방법도 다양한 방법들이 있습니다. 하나를 말하자면 위의 계산 식에서는 단순히 전체에 나누기를 한 것으로 표시했지만 실제 계산은 각 구장별로 파크팩터 미적용 OPS+를 구한 뒤, 이를 파크팩터로 나눕니다. 그리고 각 구장별로 구해진 이 값들을 타석 비율에 맞춰 합치면 파크팩터가 적용된 OPS+가 나옵니다. 복잡하죠….

이렇게 만들어진 OPS+는 리그가 타고투저였는지, 투고타저였는지, 홈 구장이 작은 구장이었는지, 이런 것에 상관 없이 순수한 타자의 능력을 비교하는 데 좋은 값을 만들어내는 스탯입니다.


8. 득점 생산력(RC/Run Created)
간단한 RC = ((H + BB) * TB) / (AB + BB) = OBP * SLG * AB

조금 복잡한 RC = A*B/C
A = H + BB - CS + HBP – GIDP
B = TB + 0.26 * (BB - IBB + HBP) + 0.52 * (SH + SF + SB)
C = AB + BB + HBP + SH + SF

복잡한 RC = ((2.4C+A)*(3C+B)/9C) – 0.9C
A = H + BB – CS + HBP – GIDP
B = 1.125*1B + 1.69*2B + 3.02*3B + 3.73*HR + 0.29*(BB+HBP-IBB) + 0.492*(SH+SF+SB) – 0.04*K
C = AB + BB + HBP + SH + SF
만약 가능하다면 득점권안타-(득점권타수*타율) + 주자있을때HR-(주자있는타수*HR/전체타수) 를 더해준다.

RC란 타자가 얼마나 득점에 공헌했는지를 나타내는 스탯입니다. 세이버메트릭스의 아버지인 빌 제임스가 고안한 이래 계속 개량된 스탯입니다. 위에 소개한 복잡한 RC 계산식은 2002년 버전으로, 정말 더럽죠… 정밀도를 높이면 높일수록 식이 복잡해지는 것은 어쩔 수 없나봅니다. 위의 식의 의미를 간단히 설명하자면 A는 출루를 뜻하고, B는 선행주자의 진루를 뜻하고 C는 기회를 뜻합니다. 간단한 RC에선 H+BB가 A, TB가 B, AB+BB가 C에 해당되겠죠.

이렇게 그 팀의 모든 타자의 RC를 계산하여 다 더해주면 그 팀의 총 득점이 대략 나오는 것을 볼 수 있습니다. 02년 버전 RC는 실제 득점과 매우 적은 오차를 보여준다고 합니다. 그러니깐, 이 RC는 위의 스탯들보다 직접적으로 그 타자가 얼마나 팀의 득점에 공헌했는지를 알려주는 스탯이라 할 수 있습니다. 안타를 치든, 볼넷을 얻든, 홈런을 치든 다 득점을 하기 위한 과정일 뿐입니다. 야구에서 타자의 최종 목적은 득점이죠.
그리고 이 RC는 비율스탯이 아닌 누적스탯임을 알 수 있습니다. 경기를 뛰면 뛸수록 이 RC는 쌓여간다는 것이죠.

보통 KBO에서는 리그 최고 타자가 100이 넘습니다. 08년엔 김현수가 106.2로 1위, 12년엔 김태균이 105.1로 1위입니다. 올해는 박병호가 105.2로 1위네요. 각종 스탯 사이트들이 없어져서 KBO에선 이런 값들을 계산한 값을 구하기 어렵네요.


9. 득점 생산력/27(RC/27)
RC/27 = 27 * RC / (AB - H + CS + GIDP + SH + SF)

RC/27은 RC를 27로 나눈 값이 아니라 그 타자가 27번 아웃당하는 동안 몇 득점을 할 수 있을까를 나타낸 스탯입니다. 말하자면 어떤 팀이 그 타자로 1~9번까지 이루어져 있으면 평균 몇 점을 낼까 생각한 것입니다. RC보다 좀 더 직관적으로 와 닿는 스탯이죠. 누적이 아닌 비율스탯이기도 하고요. 

그리고 투고타저/타고투저 여부에 따라 다르겠지만 보통 한 경기당 평균 득점은 4점대에서 형성됩니다. 이 값이 RC/27의 기준이 될 수 있겠죠.

10. 추정 득점(XR/eXtrapolated Runs)
XR = (0.50×1B) + (0.72×2B) + (1.04×3B) + (1.44×HR) + (0.34×(HBP+BB−IBB)) + (0.25×IBB) + (0.18×SB) + (−0.32×CS) + (−0.090×(AB−H−K) + (−0.098xK) + (−0.37×GIDP) + (0.37 x SF) + (0.04×SH)

XR은 RC와 거의 비슷한 의미를 가지는 스탯입니다. 똑같이 타자의 득점 공헌도를 구한 스탯이죠. Jim Furtado가 개발한 이 스탯은 메이저리그의 몇십년간의 데이터를 모아 회귀분석을 통해 각 상황(1루타, 2루타, 삼진, 도루 등)의 득점 공헌도를 계산하여 선형적으로 만든 스탯입니다. 말하자면 안타는 0.5점, 3루타는 1.04점, 홈런은 1.44점, 볼넷은 0.34점, 고의사구는 0.25점 도루는 0.18점, 도루실패는 -0.32점의 가치가 있다고 할 수 있는 것입니다. RC와는 다르게 XR은 공식의 의미를 더 직관적으로 이해할 수 있습니다. 그리고 그 결과값은 RC와 거의 같게 나옵니다.

Jim Furtado가 쓴 XR 소개
http://www.baseballthinkfactory.org/btf/scholars/furtado/articles/IntroducingXR.htm


이제 앞으로 소개하고싶은 타자 스탯은
TAv(EqA)
wOBA
wRC
wRC+
wRAA
이렇게 5개가 남았네요. 이 외에도 WAR, WPA, Win Share 등이 있는데, 이들은 타자와 투수에 공통적으로 적용할 수 있는 스탯들입니다. 


긴 글 읽어주셔서 감사합니다. 이 글을 보고 조금이라도 더 세이버메트릭스에 관심을 가지게 되었으면 좋겠습니다.
이 스탯 소개글도 예전에 썼던 글들처럼 연재중단되지 않았으면 좋겠네요ㅠ 글 하나 쓰곤 항상 더 쓸 엄두가 안나 글쓰기를 몇달간 쉬고 그랬네요


* 라벤더님에 의해서 자유 게시판으로부터 게시물 복사되었습니다 (2013-12-13 13:28)
* 관리사유 : 좋은 글 감사합니다.

통합규정 1.3 이용안내 인용

"Pgr은 '명문화된 삭제규정'이 반드시 필요하지 않은 분을 환영합니다.
법 없이도 사는 사람, 남에게 상처를 주지 않으면서 같이 이야기 나눌 수 있는 분이면 좋겠습니다."
13/11/20 04:02
수정 아이콘
진짜 세이버메트릭스는 언제 한 번 책 잡고 공부해보고 싶은데 영어의 압박이...
OneRepublic
13/11/20 04:22
수정 아이콘
우선 글 잘 읽었습니다. 세이버메트릭스에 관심은 있었는데, 기본적인 지식말고는 없었는데 도움이 많이 되었어요.

그런데, GPA부문에서 전문가들이 어떻게 분석해서 출루율, 장타율의 상관도를 구했는지 궁금합니다.
그냥 엑셀로 최근 5년 구단별 출, 장, OPS, 득점을 상관관계를 구해보면, 출루율 83.88%, 장타율 93.43%, OPS 95.30%가 나옵니다.
(득점/공격이닝을 써야 더 신뢰도 높은 수치가 나오겠지만, 공격이닝은 구하지 못하여 페넌트레이스 총 득점을 썼습니다. 큰 차이는 안나겠죠.)
저는 5년 41팀의 스탯으로 구했습니다. 제가 한 것처럼 단순히 출장이랑 득점의 상관관계를 엑셀로 줄 세워서 구하는 게 아닐수도 있을거라 생각합니다.
그런데, 저는 출루율과는 달리 장타율은 주자의 베이스 진출의 의미를 갖고 있기 때문에 득점과 조금 더 관련되어 있는 스탯이라고 생각합니다.
일반적으로 왜 출루율이 장타율보다 더 득점과 관련있다고 인식되는지 궁금합니다.
밤의멜로디
13/11/20 04:50
수정 아이콘
지적 감사합니다. 장타율이 득점 상관관계를 구해보면 출루율보다 높게 나오는 것이 맞네요. 제가 잘못 썼네요ㅠ

1.8을 곱하는 근거에 관해서는
http://www.tangotiger.net/ops.html
를 참조할 수 있을 것 같습니다.
AttackDDang
13/11/20 04:47
수정 아이콘
GIDP는 그냥 병살타라고 해도 되지않나요?? 병살타라는 기록은 포스플레이에 의한 더블플레이와 리버스포스더블플레이에 한해 병살기록을 주고있으니까요...
밤의멜로디
13/11/20 04:53
수정 아이콘
아 Double Play는 병살이고 병살타의 의미를 생각해보니 GIDP랑 같군요ㅠ 글을 쓰다보니 여러 실수가 발견되는군요. 지적 감사합니다.
AttackDDang
13/11/20 05:00
수정 아이콘
흐흐 재미있는 글이었어요. 저는 아직 전통적인 기록과 감, 타자와 투수의 폼 등을 보고 작두타는 쪽을 즐기는 약간 하일성같은 야덕이거든요. 크크 세이버매트릭스 계열중에서도 XR같은 것은 개념만 두루뭉술하게 알고 있었는데. 수식으로 보니 더 확 와닿는 감이 있네요. 2탄 기다릴게요~
13/11/20 08:09
수정 아이콘
좋은 글 감사합니다
요즘 ootp라는 게임을 하면서 많은 세이버매트릭스 스탯을접하게됐는데 그래도 막연히 높으면 좋겠거니 하고있었는데 이글보면서 천천히 다시 한번봐야겠네요
그래도 아직은 avg obp slg ops 보는것만으로 만족해야겠네요
13/11/20 09:24
수정 아이콘
글 잘 읽었습니다.
근데 우리 돼호 7관왕이에요 ㅠㅠ
밤의멜로디
13/11/20 13:31
수정 아이콘
헛 올해 박병호 4관왕이랑 섞여서 4관왕이라고 썼군요ㅠ
13/11/20 09:26
수정 아이콘
파워블로거 욕하면서 좋은 글 감사히 잘 읽겠습니다.
크크
불량공돌이
13/11/20 09:40
수정 아이콘
제가 몇년간 진행했던 연구 주제가 '진공 펌프가 고장났는지 판단하는 진단 시스템 개발'이었습니다. 지금 생각해보니 제가 한것이 세이버 메트릭스와 비슷하다는 생각이 듭니다. 타율, 출루율, OPS 등 타자의 상태(성적)을 나타내는 상태변수(스탯)들이 있는것 처럼 펌프도 배기속도, 온도, 출구압력, 소모전력, 내부진동가속도 등등 상태를 나타내는 변수(스탯)들이 있습니다. 각각의 변수가 나타내는 의미야 이미 오랫동안 연구가 진행된 것들이고, 저는 변수들의 상관관계에 주목했습니다. 야구로 따지면 같은 출루율을 가진 타자라도 어떤타자는 상대적 타율이 낮고 어떤 타자는 타율이 높을 수 있겠죠. 펌프도 동일한 배기속도를 가진 펌프도 A타입은 출구압력이 높고 B타입은 출구압력이 낮을수 있습니다. 여기서 만약 어떤 선수가 출루율이 작년과 같은데 장타율이 상승했다면 또는 OPS가 동일한테 장타율이 낮아졌다면 그 선수의 타격스타일이 바뀌었다라고 예측할수 있는것처럼, 저도 펌프가 동일한 배기속도를 내더라도 내부 진동가속도 등이 증가하면 펌프의 성격이 바뀌었다고 생각했습니다. 그리고 기계는 사람과 달리 일정한 범위를 벗어나면 고장이 발생할 가능성이 높지요. 사람은 성장이 목표지만 기계는 상태유지가 목표거든요.

아침에 문득 제가 했던 것들이 생각나 댓글을 길게 달았습니다. 세이버 매트릭스에서 스텟들의 상관관계 - 출루율은 상대적으로 높은데 OPS는 상대적으로 낮은 타자는 왜 그런가? or 작년과 동일한 OPS를 기록한 선수가 득점생산력은 떨어졌다면 그 선수에게 어떤변화가 있었는가 - 등을 따져보면 꽤 재밌을것 같네요.
bellhorn
13/11/20 10:48
수정 아이콘
출루율은 상대적으로 높은데 OPS는 상대적으로 낮은 타자는 왜 그런가? 는 뻔하죠. 장타율이 낮아서.... -_-;
작년과 동일한 OPS를 기록한 선수가 득점생산력은 떨어졌는가.. 도 눈에 띄게 떨어졌다면 대충이라도 세부지표를 보면 나옵니다;;

여기서 만약 어떤 선수가 출루율이 작년과 같은데 장타율이 상승했다면 또는 OPS가 동일한테 장타율이 낮아졌다면 BABIP을 봐야지요. 타격 스타일이 변할 가능성보단 운일 가능서이 큽니다. 통계기록이라도 일시적으로 끊어서 본다면 다른 값이 나올 가능성이 있으니깐요

들어주신 예와 다르게 야구 스텟에 대한 의문이나 이유 또는 정답은 스텟안에 대부분(99%이상...) 있습니다.
좌월석점홈런
13/11/20 10:45
수정 아이콘
좋은 글 감사합니다
메이저리그를 보면서 부러운게 한두가지가 아니겠지만,
가장 부러운 것은 mlb.com이 아닌가 싶네요
직관적이고 체계적인 stats를 볼때마다 어찌나 부러운지..
KBO 홈피는 가볼때마다 절망 그 자체입니다
bellhorn
13/11/20 10:49
수정 아이콘
사실 mlb.com 스텟은 생각보다 별로죠... 더 나은 기록 사이트가 수두룩한게 더 부럽 ㅠㅠ
13/11/20 10:52
수정 아이콘
잘 읽었습니다. 모델링하고 피팅하고 하는 과정들을 평소에도 많이 하다 보니 더 와닿네요.
13/11/20 10:59
수정 아이콘
www.mlbnation.com

여기 가시면 세이버매트릭스 스탯 굉장히 잘 정리되어 있죠
레이몬드
13/11/20 11:00
수정 아이콘
잘 읽었습니다.
맞는지는 모르겠는데 XR은 제가 어설프게 알고있는 wOBA와 비슷한 느낌인 것 같네요.
XR이 R의 스케일을 기준으로 했다면 wOBA는 OBP의 스케일이 기준이 된 차이정도?
朋友君
13/11/20 11:30
수정 아이콘
막연하게 이런것이겠지 생각만하고 있었는데 잘 정리해주셔서 덕분에 쉽게 이해했습니다. 좋은 글 고맙습니다. 2탄도 기대합니다~~~ ^^
목화씨내놔
13/11/20 11:39
수정 아이콘
RC/27 이라는 스탯은 몇번 들어보기는 했는데 자세한 설명을 보니 직관적으로 잘 만들었네요.

투수 쪽도 저런 스탯이 꽤 있나요?
13/11/20 12:10
수정 아이콘
투수쪽도 많이 있습니다... 사실 세이버 논란은 타자보다 투수쪽에서 많이 일어나는 것 같더군요
동네형
13/11/20 11:52
수정 아이콘
나... 나에게 엑셀을 달라 ...
애패는 엄마
13/11/20 11:56
수정 아이콘
세이버매트릭스가 중요한 것은 데이터 해석의 장을 열었다는 거죠.
데이터, 수치를 많이 보는 게 중요한게 아니죠 그걸 어떻게 해석할까인데
현장에서 수치 보는걸 본적이 있는데 정말 자세히는 보죠
근데 해석 능력이 부족합니다. 오히려 해석 능력은 현장보다는 이쪽이 전문가에 가깝다고 봐요.
브르르르르
13/11/20 12:43
수정 아이콘
야간경비알바하던 빌제임스라는 천재가 만든 무궁무진한 가치죠. 덕후 한명이 세상을 어떻게 바꿨는지에 대한 좋은 예
曺操 孟德
13/11/20 13:06
수정 아이콘
한국에선 OPS와 WAR정도만 봐도 타팀과의 경쟁에서 충분히 우위에 설 수 있는 거 같습니다. 이것마저 안보는 프런트들이 태반이라서요. 이장석이 여실히 증명해줬죠..과장 조금 섞어서 글쓴분 정도의 내공을 가진 사람이 KBO 야구팀 프런트에 몇 년만 있어도 왕조 구축이 가능할 것 같네요.
YaktTiger
13/11/20 14:15
수정 아이콘
각 프런트에서 이미 충분히 데이터는 다 보고 있습니다. 괜히 프로 구단, 그리고 언론사에서 스포츠투아이에 일년에 얼마씩 돈 줘가면서 데이터를 받는게 아닙니다. 그러나 전력분석팀에서 분석을 하고 데이터를 넘겨줘도 현장에서 그것을 어떻게 활용하느냐는 별개의 문제입니다. 스탯은 참고사항은 되도 절대적 지표는 되지 못합니다. 무엇보다 스탯은 결과물을 분석하는 거지 앞으로의 성적을 예측하는데 절대적인 영향을 발휘하진 못하거든요. 소싯적 제가 그것 때문에 성민규 해설위원 - 당시엔 스카우터 - 에게 지적 받은 바 있었죠.

프로야구는 팬들이 생각하는것보다 훨씬 더 정치적이다,라고 생각합니다.
애패는 엄마
13/11/20 15:24
수정 아이콘
스탯을 결과물로 보고 앞으로 성적을 예측하는데 절대적인 영향을 미치지 못한다고 보는 것이 스탯을 잘못 보는 거죠. 제가 길게 쓰다가 좀 지우고 바꿨는데 현장에서 스탯 보는 식이 이런식이죠 이제까지 이렇게 쳤으니 이런 약점이 있다. 그러니 앞으로 훈련을 통해 이렇게 약점을 개선하도록 치자. 평소 훈련과 모습이 앞으로 예상을 만들어 줄것이라는 현재 현장이 보는 식이죠. 그런데 그렇지 않습니다. 그러니 스탯을 잘못 보는 거죠. 세이버스탯이라는 것이 이제까지 클래식 스탯과 기존의 보는 형식을 바꾸어서 앞으로 예측을 위해 만든 것이고 유의미성은 검증하는 과정이고 그 안에서 현장에서 착각하고 있는 믿음들을 (맞춰 잡는다든가 타구 방향을 조절한다든가의) 깨는 부분들도 있는데 말이죠.

클래식 스탯이 널뛰하는 걸 보고 스탯이 성적 예측을 바라보지 못한다고 보는 것에 가깝다고 봅니다. 그들은 상황별로 자세히는 봅니다만 그것들이 모여서 어떻게 통계적 검정을 거칠지에 대해서는 미비합니다. 통계가 가장 발달한 응용 분야인 경영쪽에서 현실속에서는 미비한 것을 야구 프런트에서 통계 전문가가 있을리가 만무하죠. 선수의 퍼포먼스 자체를 세이버 스탯이 개선해주진 못하죠. 하지만 데이터 속에 숨겨진 그 안의 의미들이나 어떤 방향으로 가야할 지는 제시해준다고 보는데 이 부분에 대해 모르죠. 충분히 데이터는 볼 겁니다. 하지만 충분한 데이터 해석을 전혀 못하고 있죠. 로우 데이터는 로우 데이터 뿐인데요.

전 세이버 만능주의자도 아니고 물론 스탯은 과거결과물일 뿐인 걸 보여주는 선수들도 나옵니다만은 사실 특수 케이스에 가깝고 대다수 선수들은 결국 수렴하죠 스탯이 진리다이기 보다는 양쪽 균형을 맞춰야 하는데 우리 나라는 너무 한쪽으로 쏠려 개선되어야 할 부분이 있다고 봅니다
라이트닝
13/11/20 16:08
수정 아이콘
기아같은 팀은 안보거나 자신들만의 아주 독특한 스탯을 보는것 같아요;
제랄드
13/11/20 15:05
수정 아이콘
박수를 보냅니다!
저도 가끔 자게에 야구 관련 잡글 정도나 올리는 수준인데 그런 수준의 글조차 쓰고나면 여러 오류와 제가 잘못 알고 있었던 사실들이 드러납니다. 하물며 이 정도로 전문적인 글을 친절한 설명으로 풀어내려면 얼마나 많은 정성이 들었는지 조금은 짐작하고 있습니다. 잘 읽었습니다.
민트홀릭
13/11/20 15:13
수정 아이콘
이런 글은 추천부터 하라고 배웠습니다.
스포츠 중에서 통계의 스포츠라고 할 수 있는 야구에 대해 더 깊숙히 알 수 있게 도움이 되는 글 같습니다.
Legend0fProToss
13/11/20 15:32
수정 아이콘
저도 통계학 공부하고 있는입장이라 세이버메트릭스는 관심이 정말 많이갑니다.
회귀분석 배울때 야구데이터로 이것저것 넣고 돌려보기도하고 했던기억이 나네요
혹시 주자의 능력을 평가하는 지표로 어떤것들이 있는지 소개해주실수있을까요?
주자가 다음타자의 방망이에 얼마나 영향을 주는지 어떤 선수들이 주자로 나갔을때
팀 득점에 보탬이되는지(다음타자에게유리한환경 제공+베이스런닝도합)등을 정리한다면
1번타자들의 가치를 더정확히 매겨 볼수있을거 같아서 말이죠
13/11/20 16:41
수정 아이콘
발 빠른 주자는 투수를 혼란스럽게 하여 다음 타자에게 이득을 준다. 같은 대부분의 사람들이 예전부터 막연히 생각했던 부분들은 세이버 매트릭스에서 대부분 손을 댄적이 있는데 사람들의 생각과는 다르게 부정적인 결과들이 나온걸로 기억합니다. 아마 수비가 혼란스러워 지는 것을 상쇄할만큼 타자에게 부정적인 영향을 끼친다, 도루 시도는 타석에 wOBA 20만큼의 손해를 끼친다. 라는 결론으로 기억하는데 가물가물하네요. 물론 베이스러닝 자체를 부정하는게 아니고 타석에 들어선 타자에게 이득을 준다 같은 부분에서 말이죠.

베이스러닝에 관한 스탯이라면 추가진루 같은 부분은 UBR이라는 스탯으로 , 도루에 관해선 wSB 라는 스탯으로 팬그래프에서 확인할 수 있습니다. 살펴보면 리그 최고의 주자와 최악의 주자간에 WAR 2정도 차이가 나는걸로 보이네요.
Legend0fProToss
13/11/20 17:19
수정 아이콘
영향이 없다 정도가 아니라 오히려 까먹는다는 결과가 있군요
주자가 투수에게 주는 혼란이 존재한다고 하더라도 혼입되는 변수가 워낙많아서 측정해내기는 쉽지않아보이긴하네요
제 생각에도 팀에서 작전을 걸고하면 분명 타격에 도움이 되지 않을거같은 부분이 있는게
작전이 걸린 타자들은 자기스윙을 못하거나 진루타를 위한 팀배팅따위를 한다면 본인은 아웃이되서 타격스탯은 까이게되죠
또 도루를 할때 헛스윙으로 포수를 방해하는 이런것들이 당연히 타자의 생산성을 까먹을것같기는합니다.
13/11/20 17:08
수정 아이콘
이런 지표들을 볼때마다 궁금한게 메이저 자료를 가지고 회귀분석을 이용해서 앞에 계수들을 찾을텐데 그럼 그걸 그대로 kbo에 적용할수 있는가 입니다.
분명 kbo와 메이저는 차이가 있을거 같거든요. 아니면 앞에 계수들을 그대로 적용해도 상관없는건가요.
13/11/20 18:11
수정 아이콘
물론 차이가 있으니 그대로 적용하는데에는 문제가 따릅니다만 중요한건 현재 한국야구에서 그만한 정밀하고 방대한 데이터를 구할 수가 없다는거죠. 그리고 차이 자체도 그렇게 그렇게 크게 나진 않을겁니다.
13/11/20 18:30
수정 아이콘
요즘엔 보통 타석에서의 생산력 관련한 스탯은 wOBA로 대동단결인데 런밸류는 어차피 매년 따로 구하는거라서 직접 계산하는건 힘들어도 해주시는 분들이 계셔서 찾아보는데에는 상관없을 거에요. 직접 스탯 계산하실 분들이면 저런 부분에서 실수 하지는 않으실테니까요.
착한밥팅z
13/11/20 17:12
수정 아이콘
스탯티즈를 돌려주오...
Wil Myers
13/11/20 18:07
수정 아이콘
BABIP는 어디로 날라간거죠

이것도 중요한 스탯인데요
13/11/20 20:21
수정 아이콘
좋은글 감사합니다 ^^
목록 삭게로! 맨위로
번호 제목 이름 날짜 조회
2478 컴퓨터 아저씨가 써보는 몇가지 푸념들.. [227] Tiny24059 13/12/24 24059
2477 2013 한국 프로야구 투수부문 팀별 총결산. [28] 凡人8360 13/12/23 8360
2476 [리뷰] 변호인 - 보고싶다, 노무현 (스포있음) [30] Eternity11765 13/12/21 11765
2475 2013 한국 프로야구 타격부문 팀별 총결산. [23] 凡人7631 13/12/19 7631
2474 태어나서 처음으로 사람을 구하고 왔습니다. [36] 저 신경쓰여요14143 13/12/18 14143
2473 피지알하면 모다? [54] 연필깎이11383 13/12/17 11383
2472 휴대폰 싸게 사기 가이드 1. 용어 설명 + 왜 그들은 무료라고 하는가? [61] 계피14939 13/12/17 14939
2471 [스타2] End가 될지.. And가 될지.. [191] 크고사나운너굴이18324 13/12/13 18324
2470 병원에서 미녀 만난 이야기 [55] 알킬칼켈콜19119 13/12/07 19119
2469 스피커에서는 심장 박동 소리가, 제 입에선 웃음이, 제눈에는 눈물이 터져나왔습니다. [101] Red Key16136 13/12/06 16136
2468 짝사랑하는 이를 떠나보내는 직업에 대하여. [39] 헥스밤24045 13/12/04 24045
2467 황제 폐하는 피곤하십니다. [24] 신불해22751 13/12/04 22751
2466 자취생의 식단, 고등어를 구워보자. [36] 저글링아빠15072 13/12/03 15072
2465 죽은 남자가 바의 문을 열고 들어왔다. 망자에겐 평온을. [26] 헥스밤12198 13/12/03 12198
2464 13시즌 기아 타이거즈의 몰락 원인 분석과 스토브리그 평가. [98] 凡人12751 13/11/29 12751
2463 어머니와 삼겹살에 관한 추억 [32] 고구마줄기무��10558 13/11/21 10558
2462 환갑의 소녀 [29] 이사무13904 13/11/21 13904
2461 한국의 97년 외환위기 [21] endogeneity16079 13/11/21 16079
2460 세이버메트릭스-야구 스탯 살펴보기(타율부터 XR까지) [38] 밤의멜로디12802 13/11/20 12802
2459 [우주이야기] 챌린저호 우주왕복선 대참사 사건 [15] AraTa_Higgs17147 13/11/16 17147
2458 업로더 김치찌개 [111] 김치찌개14480 13/11/14 14480
2457 [패러디] 운수좋은 날 [29] 감모여재10862 13/11/06 10862
2455 어디든지 가고 싶을 때 - 2-1. 별밤열차 V-Train [35] ComeAgain8749 13/11/04 8749
목록 이전 다음
댓글

+ : 최근 6시간내에 달린 댓글
+ : 최근 12시간내에 달린 댓글
맨 위로