imdb_crawl.py 文件源码-python代码片段

imdb_crawl.py 文件源码

python

阅读 36 收藏 0 点赞 0 评论 0

def _get_release_props(movie_code):
    cur_release_url = _RELEASE_URL.format(code=movie_code)
    release_page = bs(urllib.request.urlopen(cur_release_url), "html.parser")
    release_table = release_page.find_all("table", {"id": "release_dates"})[0]
    us_rows = []
    for row in release_table.find_all("tr")[1:]:
        row_str = str(row)
        if 'USA' in row_str:
            us_rows.append(row_str)
    release_props = {}
    release_props['release_day'] = None
    release_props['release_month'] = None
    release_props['release_year'] = None
    for row in us_rows:
        if re.match(_USA_ROW_REGEX, row):
            release = re.findall(_USA_ROW_REGEX, row)[0]
            release_props['release_day'] = int(release[0])
            release_props['release_month'] = release[1]
            release_props['release_year'] = int(release[2])
    return release_props


# ==== crawling the user reviews page ====