Világéletemben szerettem a számokat és a statisztikákat, legyen szó az olyan komoly tartalmakról, mint hogy ki hány gólt szerzett jobbal, ballal és fejjel, illetve az olyan fun factekről, mint hogy ki milyen színű dresszben hányszor talált a kapuba.
Talán ezért is (meg azért is, mert a sportfilmek külön kategóriát jelentenek nálam) ültem be az átlagosnál nagyobb várakozással 2011-ben a Moneyball című mozi vetítésére. Az alapsztorit előtte csak homályosan ismertem, hogy adva van egy baseballcsapat általános igazgatója (GM), aki matematikai hókuszpókuszok segítségével csodacsapatot rak össze egy lesajnált, szegény gárdából.
Aztán idővel kiderült számomra, a valós történetet olyannyira meghagyták valósnak, hogy az Oakland Athletics a „hollywoodi baseball-ligában” sem nyert bajnoki címet, viszont tökéletesen bemutatta, miért tekintik a Brad Pitt által megformált Billy Beane-t és segédjét, a Jonah Hill által alakított Peter Brandet a modern adatelemzésre épülő sportvezetői munka két úttörőjének.
Modelljükből kiküszöbölték az ő teljesítményorientált megközelítésük szempontjából felesleges adatokat, mint a testsúly, a magasság vagy a sebesség, csak a produkció volt a fontos. Ez volt az első közismert eset, hogy statisztikák rendszeres priorizációjával hoztak személyi döntéseket a profi sportban. Beane a saját példájából is okult, hiszen hajdan ifjú baseballozóként nagy jövőt jósoltak neki a menedzserek, aztán óriási lecsúszás lett belőle. Brand meg is mondta neki, hogy az eredményei alapján a kilencedik kör előtt ő biztosan nem választotta volna ki a drafton – ez győzte meg a GM-et a fiatal egyetemista modelljének hasznosságáról.
Ma már teljességgel természetes, ami 2002-ben csodaszámba ment (az Oakland végül a főcsoportdöntőben fékezett le), Christopher Wolf, a Goldman Sachs elemzője például így fogalmazott: „A tudomány és a sport természetes házassága csak erősödik. A kielégíthetetlen versenyszomj az új technológiákkal és a folyamatosan fejlődő számítástechnikával párosítja a sport fejlődését az analóg és a digitális korszak között.” Mindenki keresi, hol tud versenyelőnyt szerezni a kompetitív piacon, és bizony erre már az igényeket kiszolgálni tudó szektoroknak is érdemes figyelniük.
A Goldman Sachs felmérése szerint a négy amerikai major ligában (MLB, NBA, NFL, NHL) szereplő franchise-ok, valamint a 20 legnagyobb európai futballklub összértéke csaknem 200 milliárd dollár, ami nincs messze Portugália GDP-jétől. És az érték csak növekszik, mert úgy számolnak, az évtized végére a néhány éve még csak évi 64 milliárd dollár bevételt generáló észak-amerikai profi csapatok az évtized végére eljutnak a 70 milliárdig.
Ha ilyen modellek segítségével lehet csökkenteni annak a valószínűségét, hogy például olyan játékost válasszanak ki a drafton, akinek a génjeiben ott a bűnözésre való hajlam (mint tette azt a New England Patriots Aaron Hernandez esetében), akkor már megérte, hiszen így ott az esély a csapat veszteséggel kapcsolatos kockázatának csökkentésére, ami azért elég szépen „forintosítható”.
Továbbá azt sem lehet mondani, hogy a győzelem csak a tulajdonosok, a vezetők és az edzők érdeme, mert amíg korábban a draftolással, igazolásokkal, rendszerekkel kapcsolatos döntések emberi megérzésekre és hagyományokra alapultak, ma már jelentős döntéstámogatási mechanizmust találunk minden ilyen folyamat mögött. Persze egy-egy meccs végeredményét szerencsére még mindig képtelenek megmondani a gépek, de a kimenetel kockázatát képesek csökkenteni.
Természetesen ez részben tanulással, illetve a sport esetében edzéssel is elérhető. Sporton kívülről jövő, de a sportban is alkalmazható példa az Anders Ericsson tanulmányában olvasható eset: egy egyetemi hallgató alapvetően hét véletlenszerű telefonszámot képes megjegyezni, viszont 230 órás gyakorlással a memória annyira fejlesztő, hogy ez a szám 80 legyen! A Princeton Egyetem már deklaráltan a sport és az edzés kapcsolatát vizsgálta, és kimutatta, a sakknál 26 százalék pluszt jelent a folyamatos tréning, míg a sportok összességénél „csak” 18-at.
Ahogyan nőtt-nő a sport népszerűsége, úgy gyűjtik és használják egyre több szempontból az adatokat. Ma már nem azért születnek statisztikák, hogy ki dobta a legtöbb pontot egy meccsen, hanem azért, hogy ezekből az arra érdemesek következtetéseket vonjanak le. A szurkoló például azt, hogy ha csapata kikapott, az kedvenc játékosa összteljesítményén múlt, vagy sem; a menedzserek és a tulajdonosok – lévén minden meccset képtelenek megnézni – a tehetség mértékét; az NFL-ben meg mondjuk azt, hogy ha a quarterback jobbra néz, abból milyen mozgás következik az első és milyen a második kísérletnél.
A gyűjtés, a modellezés, a vizualizáció, illetve a bizonytalanság figyelembe vételével megtett következtetések levonása mind-mind a kiszámíthatóbbá tételt szolgálják.
Ugyanakkor hiába éljük a „big data” korszakát, Chris Horn, a technológia professzora nem győzi hangsúlyozni, „...a nagy adatmennyiség nem mindig jó adatmennyiség”, John Fernandez elemző szakember pedig arra hívja fel a figyelmet, hogy tudni kell válogatni az irgalmatlan mennyiségű adatból: „Sok statisztika számít. Ha a kosárlabda, az amerikai futball, a baseball, a jégkorong vagy a labdarúgás érdekli, akkor azt a sportot választja, amelyikben vannak olyan statisztikák, amelyek tényleg alapvetők, és a játék lényegéhez igazodnak. Ezek megértése kritikus fontosságú. Ha sikeres kosárlabdacsapatot szeretne, figyelni kell a dobószázalékra, a büntetőzésre, támadólepattanókat kell szerezni, és nem szabad eladni a labdát. Ennyi, és nem több. A figyelemelterelő adatokat nem kell figyelembe venni.”
Az adatszolgáltatóknak és az adatoknak se szeri, se száma. A tízmilliós meccsadatbázis már alap, akárcsak az egy mérkőzéssel kapcsolatban azonnal előállítható 150-féle statisztika. Az egyik legfejlettebb rendszert az NBA alkalmazza, amely többek között a labdabirtoklás és -kezelés, valamint az egyéni és csapathelyezkedés alapján, súlyozott valószínűség-számítással megbecsüli a dobott pontok számát. (Mondjuk, úgy nem nehéz, ha olyan kamerarendszerek is vannak, amelyek másodpercenként huszonötször szolgáltatnak adatokat.)
És nem valami kamucég, hanem a Harvard tudósai gyártották le a modellt. „Az adatelemzés alapjaiban és örökre megváltoztatta a kosárlabdát” – mondta Vivek Ranadive, a Sacramento Kings tulajdonosa. Ráadásul a rendszerek nem csupán a sportban használhatók. A FiveThirtyEight alapítója, Nate Silver például kilépett a komfortzónából, és a politikumra is átalakította a rendszerét. Egész jól működött, a 2008-as amerikai elnökválasztás során az 50 államból 49-ben eltalálta a végeredményt.
De a „számok” például a sérülések megelőzéséhez, illetve a regenerációhoz is felhasználhatók. „A biometrikus adatok kifejezetten segítenek azonosítani a túlzott erőfeszítések, a stressz vagy a fáradtság jeleit” – említette a fentebb már idézett Wolf. Ráadásul ezen a téren magyar élharcosokkal is találkozhatunk. A legutóbbi budapesti női kézilabda final four előtt Bartha Csaba, a Győri Audi ETO KC elnöke a Sport1-en arról beszélt, hogy a komplett győri eszköztárat hozzák a fővárosba is, mert korábbi tapasztalataik és kimutatásaik szerint csak ennek segítségével biztosítható, hogy 24 óra alatt két meccset is sikerrel vívjon meg a csapat. Korábbról volt mit elemezni a sérüléseken és a négyes döntők terhelésének tapasztalatain, talán ez is hozzájárult, hogy a zöld-fehérek sorozatban harmadszor, összességében pedig ötödször értek révbe az európai elitben.
Ha pedig kicsit túllépünk a szorosan a sporthoz kötődő adatelemzésen, bátran kérdezzük meg a fantasy sportokban vagy a sportfogadásokban utazókat, miért is jó a lehető legszélesebb körű információkra szert tenni. Nem azt mondják majd, hogy csak nyerhetnek vele, de azt biztosan, hogy a veszteség kockázata jelentősen csökken.