0人が本棚に入れています
本棚に追加
回帰分析が適切か散布図で確認する
2013年から2023年のデータですが、基準タイムを作るための走破タイムは、全て1着馬の走破タイムを使用しました。
基準タイムだけで、競走馬の評価をするわけではないので、しっかりとした基準を決めることが重要なのです。
基準タイムは、なるべくバイアスが影響しないようにするわけです。
以上の条件で、東京競馬場の芝コースの散布図を例として示します。当たり前のことですが、距離と走破タイムの間には正比例の関係があることが分かります。
点線は近似直線で、データの各点からの距離の二乗の合計が最も小さくなる直線を表しています。
数学的には「最小二乗法」という計算で求めます。
近似直線は一次方程式で表され、グラフ内にある数式がその式になります。
R^2で表される数字は、決定係数と呼ばれ、0~1の間の数値になり、1に近いほど数式の精度が高いことを意味します。
近似直線の上下に散らばっている点は、競馬場・コース・馬場状態・距離の要素以外の要素によって変動しています。
基準タイムとしては、十分な精度を確保できるようです。
また、直線近似できるということは、回帰分析に適していることを意味します。
その他の競馬場でも同じように回帰分析をすることができます。
データ数が多いのならば、単純に平均値を求めれば良いのでは?という疑問が湧くと思いますが、グラフを良く見てください。
馬場状態によって距離のデータが無い場合があります。
これは、使用したデータにその状態のものが無いという理由によるものですが、欠損部分の平均値は、近似直線上にある確率が高いので、数値モデルで平均値である基準タイムを作ることができるのです。
このことは、基準タイムを作成する数値モデルを使えば、現在存在しない距離の基準タイムも作ることができるということです。
最初のコメントを投稿しよう!