楼主: 王珂

[Python] 屌丝们的福利:爬行并下载meizitu图片

[复制链接]
  • TA的每日心情
    无聊
    2016-8-19 10:32
  • 签到天数: 80 天

    [LV.6]常住居民II

    发表于 2015-4-20 21:07:00 | 显示全部楼层 |阅读模式
    本帖最后由 xiaoye 于 2015-9-30 10:52 编辑

    最近在看scrapy,然后就有福利了,源码参考网上现有源代码,如果有想直接看源代码的请直接百度之
    核心源码
    [Python] 纯文本查看 复制代码
    # This package will contain the spiders of your Scrapy project
    #
    # Please refer to the documentation for information on how to create and manage
    # your spiders.
    #encoding:utf8
    from scrapy.spider import BaseSpider
    from scrapy.selector import Selector
    import scrapy 
    from scrapy.contrib.loader import ItemLoader,Identity
    from meizitu.items import MeizituItem
    
    class MeizituSpider(BaseSpider):
        name="meizitu"
        allowed_domains=["meizitu.com"]
        start_urls={
            'http://www.meizitu.com',
        }
        
        def parse(self,response):
            sel=Selector(response)
            for link in sel.xpath('//h2/a/@href').extract():
                request=scrapy.Request(link,callback=self.parse_item)
                yield request
            pages=sel.xpath("//div[@class='navigation']/div[@id='wp_page_numbers']/ul/li/a/@href").extract()
            print "pages:%s"%pages
            if len(pages)>2:
                page_link=pages[-2]
                page_link=page_link.replace('/a/','')
                request=scrapy.Request('http://www.meizitu.com/a/%s' % page_link, callback=self.parse)
                yield request
        def parse_item(self,response):
            l = ItemLoader(item=MeizituItem(), response=response)
            l.add_xpath('name', '//h2/a/text()')
            l.add_xpath('tags', "//div[@id='maincontent']/div[@class='postmeta clearfix']/div[@class='metaRight']/p")
            l.add_xpath('image_urls', "//div[@id='picture']/p/img/@src", Identity())
            l.add_value('url', response.url)
            return l.load_item()
        


    依赖scrapy,运行之前请先安装scrapy
    源码下载地址
    https://github.com/i3esn0w/fun_craw.git
    貌似没有图片不好说话
    回复

    使用道具 举报

  • TA的每日心情
    奋斗
    2016-4-27 19:03
  • 签到天数: 192 天

    [LV.7]常住居民III

    发表于 2015-5-3 03:16:10 | 显示全部楼层
    数一下够不够十个字了
    回复 支持 反对

    使用道具 举报

  • TA的每日心情
    开心
    2016-3-4 11:35
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    发表于 2015-6-27 19:36:52 | 显示全部楼层
    学习学习技术,加油!
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2015-6-28 00:01:26 | 显示全部楼层
    感谢楼主的分享~
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2015-6-28 23:10:01 | 显示全部楼层
    支持中国红客联盟(ihonker.org)
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2015-6-29 11:20:06 | 显示全部楼层
    学习学习技术,加油!
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2015-6-29 21:00:25 | 显示全部楼层
    感谢楼主的分享~
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2015-6-30 22:38:57 | 显示全部楼层
    感谢楼主的分享~
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2015-7-1 08:13:35 | 显示全部楼层
    感谢楼主的分享~
    回复 支持 反对

    使用道具 举报

    该用户从未签到

    发表于 2015-7-1 11:14:21 | 显示全部楼层
    学习学习技术,加油!
    回复 支持 反对

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册

    本版积分规则

    指导单位

    江苏省公安厅

    江苏省通信管理局

    浙江省台州刑侦支队

    DEFCON GROUP 86025

    旗下站点

    邮箱系统

    应急响应中心

    红盟安全

    联系我们

    官方QQ群:112851260

    官方邮箱:security#ihonker.org(#改成@)

    官方核心成员

    Archiver|手机版|小黑屋| ( 苏ICP备2021031567号 )

    GMT+8, 2024-12-4 16:33 , Processed in 0.027842 second(s), 12 queries , Gzip On, MemCache On.

    Powered by ihonker.com

    Copyright © 2015-现在.

  • 返回顶部