Scrapy 第一个爬虫

说明

Spider 是一个类，它定义了从中提取数据的初始 URL、如何跟踪分页链接以及如何提取和解析 items.py 中定义的字段。 Scrapy 提供了不同类型的爬虫，每一种都有特定的用途。

在 first_scrapy/spiders 目录下创建一个名为 "first_spider.py" 的文件，我们可以告诉 Scrapy 如何找到我们正在寻找的确切数据。为此，您必须定义一些属性-

name-它定义了爬虫的唯一名称。 allowed_domains-它包含爬虫抓取的基本 URL。 start-urls-爬虫开始爬行的 URL 列表。 parse()-它是一种提取和解析抓取数据的方法。

以下代码演示了爬虫代码的样子-

import scrapy  
class firstSpider(scrapy.Spider): 
   name = "first" 
   allowed_domains = ["dmoz.org"] 
   
   start_urls = [ 
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", 
      "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" 
   ]  
   def parse(self, response): 
      filename = response.url.split("/")[-2] + '.html' 
      with open(filename, 'wb') as f: 
         f.write(response.body)

找工作要求35岁以下，35岁以上的程序员都干什么去了？

长久以来，一直有一个问题困扰着技术人——如何打破“程序员的35岁职业魔咒”，这一天迟早会到来，或早或晚。

或许是选错了行业，程序员薪水虽高，但光鲜的外表下，背后的苦衷只有自己知道。三十多岁本该是一个人事业的黄金期，但技术变化日新月异，行业竞争异常残酷，对一个企业来说，永远有比你更年轻、劳动成本更低的人可以选择，这让你的中年危机提前到来。破局的智慧可以看看这本书！>>

<< Scrapy 定义项目 Scrapy 爬取 >>

昵称：邮箱：