首页 > 营销学院 > 技术知识

Python教程：使用API高效抓取GBGB赛狗结果数据（指定日期与赛道）

本教程详细介绍了如何使用python通过gbgb官方api，高效地抓取指定日期范围内特定赛狗赛道的比赛结果。文章涵盖了api请求参数的动态构建、日期范围的迭代生成、json数据解析、特定赛道数据的筛选以及健壮的错误处理机制，最终将抓取到的数据保存为json文件，旨在提供一个自动化且可扩展的数据获取方案。

引言：自动化数据抓取的必要性

在进行数据分析或建立自动化系统时，从网站获取大量结构化数据是一项常见任务。对于GBGB（Great British Greyhound Board）的赛狗比赛结果，手动通过网页或硬编码特定比赛ID的方式效率低下且难以扩展。GBGB提供了一个API接口，允许开发者通过结构化的HTTP请求获取数据。本教程将指导您如何利用Python及其requests库，结合API的参数特性，实现对指定日期范围和特定赛道比赛结果的自动化抓取。

理解GBGB API接口

GBGB提供了一个结果查询API，其基础URL为 https://api.gbgb.org.uk/api/results。此API支持通过查询参数来筛选数据，常见的参数包括：

page: 页码，用于分页。
itemsPerPage: 每页返回的条目数。
date: 查询的具体日期，格式为 YYYY-MM-DD。
race_type: 比赛类型，例如 race。

通过动态修改这些参数，我们可以构建灵活的数据抓取逻辑。

构建动态日期范围

手动输入每个日期的URL显然不可行。Python的datetime模块可以帮助我们轻松生成一个日期序列。为了覆盖一个月的每一天，我们需要一个双层循环：外层循环遍历月份，内层循环遍历该月份的每一天。

from datetime import datetime, timedelta
import requests
import json

# 定义数据存储列表
json_list = []

# API基础URL和固定参数
base_url = "https://api.gbgb.org.uk/api/results"
params = {
    'page': '1',
    'itemsPerPage': '200', # 假设每页最多200条，可根据实际情况调整
    'race_type': 'race'
}

# 定义抓取数据的年份和日期范围
year_to_scrape = 2025
start_month = 10
end_month = 12 # 包含结束月份

for month in range(start_month, end_month + 1):
    # 计算当前月份的天数
    # 简化处理，不考虑闰年，2月固定28天
    if month == 2:
        get_days_in_month = 28
    elif month in [4, 6, 9, 11]:
        get_days_in_month = 30
    else:
        get_days_in_month = 31

    for day in range(1, get_days_in_month + 1):
        # 格式化日期为 YYYY-MM-DD
        # 使用 f-string 的 :02d 格式化保证月份和日期始终是两位数
        params['date'] = f'{year_to_scrape}-{month:02d}-{day:02d}'
        # ... 后续进行API请求

注意事项：

上述代码将年份硬编码为 2025。在实际应用中，您可以将其作为变量，甚至从用户输入获取，以提高灵活性。
月份天数的计算是一个简化版本，未考虑闰年对2月份的影响。对于生产级应用，建议使用calendar模块或更精确的日期计算方法。
itemsPerPage参数决定了单次请求返回的最大条目数。如果某天的比赛结果超过此限制，您可能需要实现分页逻辑（即增加page参数并循环请求，直到没有更多数据）。

发送API请求与数据解析

生成日期参数后，下一步是使用requests库向API发送GET请求，并解析返回的JSON数据。

        try:
            # 使用requests发送GET请求
            response = requests.get(base_url, params=params)
            response.raise_for_status()  # 检查HTTP请求是否成功 (200 OK)

            # 将响应转换为Python字典
            page_context_dict = response.json()
            items = page_context_dict.get('items', []) # 获取'items'列表，若不存在则为空列表

            # ... 后续进行数据筛选
        except requests.exceptions.HTTPError as errh:
            print(f"HTTP Error for date {params['date']}: {errh}")
        except requests.exceptions.ConnectionError as errc:
            print(f"Error Connecting for date {params['date']}: {errc}")
        except requests.exceptions.Timeout as errt:
            print(f"Timeout Error for date {params['date']}: {errt}")
        except requests.exceptions.RequestException as err:
            print(f"Oops: Something Else for date {params['date']}: {err}")
        except json.JSONDecodeError as json_err:
            print(f"JSON Decode Error for date {params['date']}: {json_err}")

错误处理： 在进行网络请求时，务必包含错误处理机制。try-except块能够捕获各种潜在问题，如网络连接错误、HTTP状态码错误（如404、500）以及JSON解析错误，从而使程序更加健壮。response.raise_for_status()是一个便捷的方法，它会在HTTP请求返回非200状态码时抛出HTTPError异常。

筛选特定赛道数据

API返回的数据通常包含多个赛道的信息。如果只需要特定赛道的数据，我们需要在解析JSON后进行筛选。API响应中的每个比赛结果对象通常包含一个trackName字段。

Decktopus AI

AI在线生成高质量演示文稿

153 查看详情 Decktopus AI

            specific_track_items = []
            desired_track = "Swindon" # 指定您想要抓取的赛道名称

            for item in items:
                # 检查'trackName'是否存在且与目标赛道匹配
                if "trackName" in item and item["trackName"] == desired_track:
                    specific_track_items.append(item)

            # 将筛选后的数据添加到总列表中
            json_list.extend(specific_track_items)

注意事项：

desired_track变量应设置为您希望筛选的赛道名称，确保大小写和拼写与API返回的数据完全一致。
get('items', [])的使用是为了防止API响应中缺少items键时程序崩溃。

完整代码示例

将上述所有部分整合，形成一个完整的Python脚本：

import requests
import json
from datetime import datetime, timedelta
import calendar # 用于更精确地获取月份天数

json_list = []

base_url = "https://api.gbgb.org.uk/api/results"
params = {
    'page': '1',
    'itemsPerPage': '200', # 可根据API限制和需求调整
    'race_type': 'race'
}

# --- 配置抓取参数 ---
year_to_scrape = 2025
start_month = 10
end_month = 12 # 包含结束月份
desired_track = "Swindon" # 替换为您想要抓取的赛道名称
output_filename = 'gbgb_results_swindon.json' # 输出文件名

print(f"开始抓取 {year_to_scrape} 年 {start_month} 月到 {end_month} 月，赛道：{desired_track} 的数据...")

for month in range(start_month, end_month + 1):
    # 使用calendar模块获取指定月份的天数，考虑闰年
    num_days_in_month = calendar.monthrange(year_to_scrape, month)[1]

    for day in range(1, num_days_in_month + 1):
        # 格式化日期字符串
        params['date'] = f'{year_to_scrape}-{month:02d}-{day:02d}'
        print(f"正在请求数据：{params['date']}")

        try:
            response = requests.get(base_url, params=params)
            response.raise_for_status()

            page_context_dict = response.json()
            items = page_context_dict.get('items', [])

            specific_track_items = []
            for item in items:
                if "trackName" in item and item["trackName"] == desired_track:
                    specific_track_items.append(item)

            if specific_track_items:
                json_list.extend(specific_track_items)
                print(f"  - 成功抓取到 {len(specific_track_items)} 条 {desired_track} 赛道数据。")
            else:
                print(f"  - {desired_track} 赛道在 {params['date']} 没有数据或数据为空。")

        except requests.exceptions.HTTPError as errh:
            print(f"  - HTTP Error for date {params['date']}: {errh}")
        except requests.exceptions.ConnectionError as errc:
            print(f"  - Error Connecting for date {params['date']}: {errc}")
        except requests.exceptions.Timeout as errt:
            print(f"  - Timeout Error for date {params['date']}: {errt}")
        except requests.exceptions.RequestException as err:
            print(f"  - Oops: Something Else for date {params['date']}: {err}")
        except json.JSONDecodeError as json_err:
            print(f"  - JSON Decode Error for date {params['date']}: {json_err}")

# 将所有抓取到的数据写入JSON文件
if json_list:
    with open(output_filename, 'w', encoding='utf-8') as f:
        json.dump(json_list, f, ensure_ascii=False, indent=4)
    print(f"\n数据抓取完成！共抓取到 {len(json_list)} 条数据，已保存至 {output_filename}")
else:
    print("\n没有抓取到任何数据。请检查日期范围、赛道名称或API连接。")

总结与注意事项

通过本教程，您已经学会了如何利用Python和GBGB API高效地抓取特定日期范围和赛道的数据。这种方法相比手动抓取具有显著的效率和可扩展性优势。

进一步的改进和注意事项：

API速率限制： 大多数API都有请求速率限制。频繁或大量的请求可能会导致IP被暂时封禁。在实际应用中，考虑在请求之间添加短暂的延迟（例如使用time.sleep()）。
分页处理： 如果itemsPerPage不足以覆盖某一天所有比赛结果，您需要实现分页逻辑。这意味着在每次请求后检查是否有更多页的数据，并循环请求直到所有页都被抓取。
动态年份： 当前代码硬编码了年份。您可以修改代码以支持动态年份输入或抓取多年数据。
数据存储格式： 本教程将数据保存为JSON格式。根据您的需求，也可以将其存储到CSV文件、数据库（如SQLite、PostgreSQL）或其他数据结构中。
代理IP： 如果遇到IP封禁问题，可以考虑使用代理IP池来轮换请求IP。
错误重试机制： 对于临时的网络错误或API服务器问题，可以实现简单的重试逻辑，而不是立即失败。

通过遵循这些指导原则，您可以构建一个稳定、高效的Python脚本，用于从GBGB API获取所需的赛狗比赛数据。

以上就是Python教程：使用API高效抓取GBGB赛狗结果数据（指定日期与赛道）的详细内容，更多请关注其它相关文章！

# js # 论坛算不算私域网站推广 # 网站优化设置公司 # 刷天猫关键词排名靠前 # 湛江网站建设推广 # 鹰潭网络营销推广方案 # 微博推广营销有哪些技巧 # 河南seo培训学校 # 提高长尾关键词排名 # 每页 # 将其 # 遍历 # 为您 # 浮点 # 是一个 # 赛狗 # 您可以 # python # json # 编码 # app # csv # ai # win # 状态码 # csv文件 # python脚本 # yy # red # e # 分页 # 数据结构 # 河南整站网站优化平台 # 企业网站seo优化推广的必要性

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2025-12-04

SQL多表关联如何理解_核心原理解析助你掌握关键方法【教程】 SQL多表连接如何理解_JOIN关联关系详细步骤解析【指导】 SQL多表连接结果异常怎么办_JOIN条件排查方法解析【指导】 SQL索引下推是什么_ICP机制性能提升原理【教程】 SQL跨表统计怎么写_重要技巧总结提升查询效率【技巧】 SQL注入如何防护_完整逻辑拆解助力系统化掌握【技巧】 SQL上传文件信息建模方法_SQL存储文件元数据方案 SQL多语种存储方案设计_SQL字符集选择策略 SQL字符串处理如何编写_重要技巧总结提升查询效率【教学】 SQL去重查询怎么实现_优化思路讲解帮助高效处理数据【技巧】 SQL统计复购用户怎么做_多次行为分析SQL思路【教程】 SQL字符串处理如何编写_优化思路讲解帮助高效处理数据【教程】 SQL动态字段解析技巧_SQL解析JSON多层字段 SQL线上慢SQL如何治理_规范与工具实践总结【技巧】 SQL表结构如何演进_兼容老数据设计思路【教程】 SQL排序规则如何设置_ORDERBY排序原理与性能说明【指导】 SQL去重查询怎么实现_真实案例解析强化复杂查询思维【教学】 SQL按字段范围分批处理_SQL避免长时间锁表 SQL统计不同字段组合数量_多列聚合查询技巧【技巧】 SQL多字段去重怎么处理_GROUPBY去重思路说明【教学】

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。