chprof a écrit : ↑18 févr. 2020, 16:39je m'étonnais que tes intervalles ne soient pas centrés sur la probabilité de chaque événement
Ouah contre toute attente il y a quelqu'un qui vérifie mes calculs !
![:D :D](./images/smilies/grin.gif)
Si tu as trouvé un intervalle nettement décalé, c'est que j'ai commis une erreur...
Sinon, par exemple pour les 108 golds, 108/12000 = 0,9% (ça tombe juste car 9x12=108). La formule donne 0,9% [-0,1577%, +0,1899%] : l'intervalle est 0,0322% plus long en allant vers la proba 1/2 que vers la proba 0.
On peut comprendre intuitivement qu'un bon intervalle de confiance doit avoir un décalage de ce type.
Pour simplifier, je considère un encadrement symétrique 0,8%–1,0% autour d'une stat observée 0,9%.
Si la proba réelle est p=0,8%, tu as un tirage chanceux qui fait passer de 0,8% à 0,9% soit +1/8 (+0,1%/0,8% = +1/8).
Si la proba réelle est p=1%, tu as un tirage malchanceux à -1/10 (-0,1%/1% = -1/10).
Se louper à -1/10 arrive plus souvent que réussir à +1/8, puisque 1/10 < 1/8. Donc l'intervalle d'apparence symétrique 0,8–1,0% n'est, en réalité, pas symétrique, puisque l'hypothèse p=1,0% est plus probable que l'hypothèse p=0,8%.
Faisons maintenant le même calcul de variation sur l'intervalle donné par la formule : +0,1577/0,7423 = +0,2124 ; -0,1899/1,0899 = -0,1742.
On voit que mon calcul simplifié donne l'impression que malgré le décalage, c'est toujours la borne supérieure qui est la plus probable (se louper de -17% est plus probable que réussir à +21%).
Mais mon approche était trop simple : j'ai fait de bêtes calculs en variation brute +1/8 ou -1/10, alors qu'un décalage à un résultat attendu se mesure en z, avec un facteur sqrt[ p(1-p) ] qui varie avec p.
Posons donc p_obs = 0,9%, intervalle p1 = 0,7423%, p2=1,0899%, n = 12000.
Hypothèse p1 : p_obs = p1 + z1 sqrt[ p1 (1-p1) ] / sqrt n
D'où z1 = (p_obs - p1) sqrt n / sqrt [ p1 (1-p1) ] = 2,013
Hypothèse p2 : en remplaçant p1 par p2 on trouve z2 = -2,004
On voit que la formule marche bien : non seulement les deux z sont presque identiques, mais en plus ils sont à peine supérieurs à 1,96 qui correspond à 95% de confiance. (Un coup d'œil à z-table.com montre que z=2,00 correspond à 100%-2x2,28% = 95,44% de confiance.)
Voilà pourquoi un intervalle de confiance devrait être décalé vers p=1/2, avec d'autant plus de décalage que l'on s'éloigne de p=1/2.
![8) 8)](./images/smilies/cool.gif)