Kwestia eksploracji danych w zakładach bukmacherskich

56
zakłady bukmacherskie - bukmacher

Kwestia eksploracji danych w zakładach bukmacherskich

  • Czym jest eksploracja danych i nadużywanie danych?
  • Analizowanie prostej strategii obstawiania remisów
  • Dlaczego gracze muszą „liczyć małpy”

Powszechnie stosowaną praktyką w ramach strategii obstawiania jest korzystanie z dostępnych danych. Chociaż niektóre wyniki mogą wydawać się imponujące, to jednak największe znaczenie ma sam proces ich uzyskiwania. Jakie problemy mogą wiązać się z eksploracją danych w zakładach sportowych? Czytaj dalej, jeśli chcesz dowiedzieć się więcej.

W ciągu ostatnich kilku miesięcy natrafiłem na wiele stron internetowych, blogów i forów dyskusyjnych, które informują o odkryciu przynoszących zyski systemów obstawiania za sprawą zastosowania kilku pozornie arbitralnych kryteriów względem dużego zestawu danych historycznych i kursów bukmacherskich.

W tym artykule zbadam pułapki na jakie można natrafić, poszukując korzystnej przewagi za pośrednictwem eksploracji danych. Mam na uwadze fakt, że dla gracza korelacja bez przyczynowości zwiastuje zwykle kłopoty.

Eksploracja danych i nadużywanie danych

Eksploracja danych obejmuje proces analizowania dużych zestawów danych w celu wykrycia pewnych wzorców i uzyskania cennych informacji. Idąc w szczegóły, eksploracja danych ukierunkowana na odkrywanie statystycznie istotnych wzorców może wiązać się ze zjawiskiem nadużywania danych.

“Nie możemy wstecznie dopasowywać wyjaśnienia na podstawie otrzymanego wyniku, ponieważ przeczy to logice przyczynowości.”

Zakłady bukmacherskie w swej istocie sprzyjają eksplorowaniu danych i możliwym nadużywaniu. Różne strony internetowe udostępniają duże ilości historycznych danych piłkarskich i kursów bukmacherskich na potrzeby wyszukiwania i wstecznego testowania opłacalnych systemów bukmacherskich.

Głównym ograniczeniem wynikającym z zastosowania tego narzędzia do analizy danych jest jednak to, że zazwyczaj nie proponuje się hipotez zerowych, które mogłyby wyjaśniać, dlaczego te wzorce w ogóle się pojawiły.

Korelacja bez przyczynowości

Wcześniej omawiałem już pułapki wynikające z mylenia korelacji z przyczynowością, czyli precyzji ze dokładnością i istotnością. Aby system obstawiania był poprawny i spełniał swoją rolę, najpierw należy mieć świadomość, co wpływa na jego sukces.

Dopóki nie zostanie ustalona przyczynowość stojąca za korelacją, nie będzie wiadomo co może powodować błąd korelacji. Korelacja bez związku przyczynowego jest bezwartościowa.

Ukryta wartość w angielskiej drugiej lidze?

Kilka tygodni temu na moim profilu na Twitterze zwróciłem uwagę na niesamowite zwroty, które można było osiągnąć po obstawieniu na ślepo wszystkich wygranych na wyjeździe w angielskiej League 2 od sezonu 2012/2013 do sezonu 2016/17 włącznie. Sprowadzało się to do prawie 3000 zakładów i 4,3% zwrotu na podstawie kursów zamknięcia Pinnacle i prawie 10% zwrotów w przypadku skorzystania z kursów najbardziej korzystnych.

Tylko podczas jednego z tych sezonów zanotowano straty względem kursów zamknięcia, ale były one i tak niewielkie. Wykres zysków wygląda następująco.

Można by wnioskować, że rynek nie doceniał potencjału drużyn grających na wyjeździe w tej klasie rozgrywkowej, więc ich kursy były zawyżane. Nie było to krótkotrwałe odchylenie od normy. Niewystarczająca wiara w wygrane na wyjeździe w angielskiej League 2 wydaje się być stałym błędem wykraczającym daleko poza granice ustalone przez marżę bukmachera. Ale czy takie wyniki naprawdę nie mają żadnego związku z przypadkowością?

Obstawianie remisu: brzmi bardzo prosto

Inna strategia, o której ostatnio wspominałem, dotyczy obstawiania remisów. Dawała ona zyski bliskie 16% w zakresie ponad 2500 zakładów po przetestowaniu wyników piłkarskich i kursów Pinnacle wstecz aż do 2012 roku.

Kryteria wyboru były proste: żadna z drużyn nie powinna zremisować w poprzednich trzech meczach, a kursy powinny mieścić się w przedziale od 3,20 do 3,56. Testując istotność statystyczną takiego zysku, przekonamy się, że otrzymane wnioski są naprawdę niesamowite. Takiego poziomu zysków przy podanych kursach można by się spodziewać raz na milion lub nawet rzadziej, gdyby wzór był wyłącznie przypadkowy.

Ktoś mógłby zapytać, dlaczego to właśnie te kryteria zostały wybrane. Dlaczego nie cztery, pięć czy sześć ostatnich meczów? Dlaczego nie kursy w przedziale od 3,07 do 3,41 lub od 3,13 do 3,72? Kryteria te najpewniej nie zostały wybrane przed przystąpieniem do eksploracji danych. Po prostu zostały dobrane tak, aby przyniosły korzystny wynik. Nie możemy wstecznie dopasowywać wyjaśnienia na podstawie otrzymanego wyniku, ponieważ przeczy to logice przyczynowości.

“Dopóki nie zostanie ustalona przyczynowość względem korelacji, nie będzie można stwierdzić co może spowodować obalenie takiej korelacji.”

W obronie tej strategii można wręcz stwierdzić, że „raz na milion? z pewnością nie może to wynikać z przypadkowości”. Tak, to prawda. Jeśli jednak mamy do przetestowania milion strategii i znajdziemy istotnie statystyczną, o czym to świadczy? Nassim Taleb w książce Fooled by Randomness opowiada o wizji, w której małpy próbują odtworzyć poezję Homera na maszynie do pisania:

„Gdyby mowa był o pięciu małpach, byłbym pod wrażeniem autora Iliady do tego stopnia, że podejrzewałbym go o bycie wcieleniem starożytnego poety. Jeśli natomiast liczba małp sięgałaby miliarda do potęgi miliardowej, nie robiłoby to na mnie tak dużego wrażenia…”

Jak wskazuje Taleb, niewiele osób zadaje sobie trud liczenia wszystkich małp, a gdyby rzeczywiście się tego podjęli, tylko nieliczni opracowaliby ciekawe wzory, które byłyby warte omawiania. Efekt przetrwania sprawia, że zauważamy tylko zwycięzców.

Dlaczego gracze muszą „liczyć małpy”

Jeśli przed przystąpieniem do poszukiwania wzorców zyskowności nie zaproponujemy hipotez zerowych do uniknięcia zjawiska nadużywania danych, powinniśmy zamiast tego przetestować dużą liczbę systemów obstawiania, aby przekonać się, jak często można mieć do czynienia z istotnością statystyczną. W odpowiedzi na toczącą się na moim profilu na Twitterze dyskusję napisałem tak: „ustalmy rozkład zysków dla 10 000 próbek zakładów obstawianych w ciemno w oparciu o 10 000 różnych kryteriów i zobaczmy, jakie otrzymamy wyniki”.

Nie byłem jednak w stanie znaleźć 10 000 próbek w ramach zakładów obstawianych w ciemno, ponieważ wymagałoby to dużej ilości danych, dlatego uzyskałem próbkę wielkości 1686 dla co najmniej 100 zakładów. Każda próbka reprezentowała sezon zakładów w ciemno na konkretny wynik, w kategoriach wygranej gospodarza, remisu lub wygranej gości, dla jednej ligi piłkarskiej w jednym sezonie.

Po usunięciu marży Pinnacle w celu obliczenia „prawdziwych” kursów dla każdego wyniku obliczyłem zakładane zwroty dla każdej próbki i ich wartość t. Jest to moja ulubiona metoda na ustalenie, jak małe jest prawdopodobieństwo, że uzyskane wyniki zależą od szczęścia. Rezultaty są przedstawione w poniższym rozkładzie. Dodatnie wartości wyniku t przedstawiają próbki generujące zyski, natomiast ujemne wartości dotyczą strat — im większa próbka, tym bardziej widoczna jest kwestia przypadkowości.

Osoby, którym jest znany rozkład normalny (krzywa w kształcie dzwonu), uznają to za dowód losowości. Można stwierdzić, że wyniki tych próbek zakładów obstawianych w ciemno odzwierciedlają sytuację oczekiwaną w sytuacji, gdy w grę wchodzi wyłącznie przypadek.

Ogólnie rzecz biorąc, systematyczności jest tutaj niewiele lub nie ma jej wcale. Wspomniane dochodowe sezony w angielskiej League 2 były najprawdopodobniej tylko rezultatem szczęśliwych zbiegów okoliczności ujawnionych po przeprowadzeniu analizy danych i wyłapaniu pojawiających się wzorców zyskowności spowodowanych przez powtarzające się irracjonalne zachowanie gracza lub bukmachera.

„Prawdziwe” zwroty z kursów w przypadku pięciu sezonów ujętych razem osiągnęłyby wynik t o wartości +2,4, co oznaczałoby prawdopodobieństwo 1/100 (wartość p), że taki wynik byłby przypadkowy. Po względem statystycznym informacje te są istotne, więc gdyby ktokolwiek zechciał opublikować artykuł naukowy dla pewnego wycinka danych, takie informacje byłyby, co zrozumiałe, uznane za wiarygodne. Spoglądając na ten problem z szerszej perspektywy nasza ocena się zmienia i możemy mówić tylko o ślepym trafie.

“Jeśli zdecydujemy się na opracowanie systemu obstawiania w celu wyznaczenia kryteriów zyskowności, to ryzykujemy pojawienie się zjawiska nadużywania danych, skutkujące brakiem możliwości ustalenia przyczynowości wyników naszych poszukiwań.”

W rzeczywistości rezultat próbki dotyczącej sezonu 2007/2008 angielskiej League 2 dawał jeszcze lepsze wyniki. W 242 meczach, których dotyczą dane zebrane przeze mnie od grudnia do maja, spodziewany zysk wyniósł ponad 29% (lub 35% w przypadku „prawdziwych” kursów bez marży). Szansa na przypadkowe otrzymanie takich wyników wynosi około 1/1000. Był to najlepszy wynik spośród 1668 próbek.

W sumie 837 próbek, czyli około połowa z nich, przyniosła spodziewane zyski zgodne z „prawdziwymi” kursami. Przy takim rozmiarze próbki rozsądnie można by oczekiwać, że najlepsza wskaże 1/1686 wartości p. Można oczekiwać, że około 16 próbek (lub około 1%) osiągnie wartości p mniejsze niż 1/100. Analogicznie należy oczekiwać, że około 168 próbek (czyli około 10%) będzie miało wartości p mniejsze niż 1/10. Każdy inny rezultat będzie słusznie budzić wątpliwości czy czasem główną rolę nie grało wyłącznie szczęście.

Tak naprawdę 15 (0,9%) i 158 (9,4%) próbek osiągnęło rezultat bardzo zbliżony do oczekiwanego. Poniższy wykres porównuje oczekiwany procent zyskownych próbek o wartościach p poniżej określonego progu (1/10 = 10%, 1/5 = 20% i tak dalej) z procentem występującym w rzeczywistości. Niemal doskonała równowartość jest wręcz uderzająca.

Wykres jest kolejnym sposobem na stwierdzenie, że prawie wszystkie uzyskane informacje są wyłącznie wynikiem przypadku. Tak, zyskowność w kategorii 1/1000 jest imponująca, ale w przypadku dostępu do ponad 1000 próbek jest to czymś zupełnie normalnym, a zatem nie jest to mocny dowód na istnienie przyczynowości.

Kwestia eksploracji danych w zakładach bukmacherskich

Czego gracze mogą dowiedzieć się o eksploracji danych i ich nadużywaniu?

Chyba nie jest czymś zaskakującym, że rozkład zyskowności oparty na sezonowych rozgrywkach ligowych jest przypadkowy. Nie jest to najbardziej wyrafinowany sposób opracowywania systemu obstawiania. Najważniejszy wniosek jest taki: jeśli zdecydujemy się na opracowanie systemu obstawiania w celu wyznaczenia kryteriów zyskowności, to ryzykujemy pojawienie się zjawiska nadużywania danych, skutkujące brakiem możliwości ustalenia przyczynowości wyników naszych poszukiwań.

Jeśli nie jesteśmy w stanie wyjaśnić co było powodem wygenerowania zysku, uzyskane informacje będą właściwie bezużyteczne. Korelacja bez przyczynowości wykazuje regresję do średniej. Dla gracza oznacza to utratę pieniędzy w długim okresie.

Można argumentować, że nie ma nic złego w osiąganiu zysków dzięki szczęściu — w końcu o to również chodzi w zakładach. Kiedy jednak na nim polegamy to nie powinniśmy sami siebie oszukiwać, że nasz sukces jest konsekwencją jakichkolwiek innych czynników.