- ボートレース関連のOSS開発を行う組織(一部のリポジトリは非公開)
名前 | 概要 |
---|---|
models | サービス横断で利用するエンティティのPythonパッケージ |
scrapers | ボートレース関連のWebサイトのスクレイピング用Pythonパッケージ |
Crawlers | スクレイピングからデータの永続化までを行うサービス (OriginData を生成) |
Aggregator | 集計を行うサービス (AggregatedData を生成) |
ML(非公開) | 機械学習のためのデータクレンジングからモデルの学習や評価までを行うサービス |
infra | インフラリソースを一元的に IaC で管理するためのリポジトリ |
※ サービスは頭文字を大文字で表記
※ 各リポジトリのREADMEにはローカル開発環境の構築方法を記載し、それ以上の詳細はこのリポジトリで管理
用語 | 説明 |
---|---|
OriginData | 公式サイトなどからスクレイピングした原始的なデータ |
AggregatedData | OriginData をもとに作成されるレーサーやレース場の集計データ |
DataPackageSource | 指定した期間分 AggregatedData をまとめたもの |
DataPackageSourceSuite | DataPackage を作成するために必要な DataPackageSource の一式 |
DataPackage | OriginData をベースにレースの全情報を包括的にまとめて、ワンパッケージにしたデータ |
PreparedData | DataPackageを前処理して、モデルの学習や予測に使えるように整えたデータ |