ProxyHarvest.py 文件源码-python代码片段

ProxyHarvest.py 文件源码

python

阅读 32 收藏 0 点赞 0 评论 0

项目：darkc0de-old-stuff 作者: tuwid 项目源码文件源码

def getsamairdotru():
    counter = 1
    pxycnt = 0
    maxpages = 10
    urls = []
    pfile = file(output, 'a')
    while counter <= maxpages:
        if counter < 10: # workaround for page-01 to page-09
            opener = urllib2.build_opener()
            opener.addheaders = [('User-agent', 'Mozilla/5.0')]
            url = opener.open('http://www.samair.ru/proxy/proxy-0'+repr(counter)+'.htm').read()
        else:
            opener = urllib2.build_opener()
            opener.addheaders = [('User-agent', 'Mozilla/5.0')]
            url = opener.open('http://www.samair.ru/proxy/proxy-'+repr(counter)+'.htm').read()
        strings = re.findall(('\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}:\d{1,5}'), StripTags(url))
        for string in strings:
            pfile.write(string+"\n")
            pxycnt = pxycnt+1
        counter = counter+1     
        opener.close()
    print pxycnt, "\t: Proxies received from : http://www.samair.ru/proxy/"
    pfile.close()