搜索引擎 基于网络爬虫的搜索引擎设计与实现

2024-05-02 04:21

1. 搜索引擎 基于网络爬虫的搜索引擎设计与实现

第一次听过也。学习一下。

搜索引擎 基于网络爬虫的搜索引擎设计与实现

2. 如何设计一个python分布式爬虫系统

你都没想明白为什么要分布式
========================
我还是认真答一下吧,爬虫这种东西在大批量抓去时主要有下面几个量变引发质变的挑战:
1. 出口IP数量,主要是考虑防止被封禁,带宽反而不是大问题,这个问题可以通过搭建NAT出口集群,或者单机多IP的方式实现
2. 本地端口号耗尽,由于爬虫是服务端编程不太常见的主动发起连接的应用,在普通只有一个IP绑定的机器上会受到65535的限制(一般在50000多就会受到限制)
3. 大容量存储的需求,一般都是通过开源或者自己研发的分布式存储系统来实现,像谷歌(GFS)和百度(百灵)都是自研,这里就不展开说了
4. 动态网页的支持,像京东这种网站,内容都是通过类似Facebook的bigpipe一样动态加载的,直接像curl这样抓取看到的页面几乎是空白的,这就要求爬虫能模拟JS的运行,这方面有很多基于v8引擎的开源项目:
CasperJS, a navigation scripting and testing utility for PhantomJS and SlimerJS
PhantomJS | PhantomJS
由于这个需求,爬虫成了CPU密集型的应用了,分布式的需求也就有了
单机爬虫的主要难点在的异步非阻塞网络编程,老生常谈了。先暂时写这么多吧

3. 毕业设计,Python爬虫系统 目前只知道一点点皮毛。求思路, 爬去信息,然后做成系统,老师还要求?

明显串行比多线程的慢啊, 你的思路有一些坑
python的多线程由于GIL的存在, 不咋好用, 你还不如使用gevent做多路复用的
python串行的就是一个一个爬呗
首先手机1w个url, 对比两个爬虫的效率就可以
库一般而言, 写一个爬虫系统需要输入一堆种子, 这些种子是初始化链接, 你可以通过requests库和pyquery库进行解析, 按照特定的算法比如广度优先的方式再把这些链接对应的内容爬取出来,注意由于一个链接可能出现在多个网页中, 还需要在抓取之前采取排重操作, 这个你可以采用redis, 毕竟基于内存的比较快

毕业设计,Python爬虫系统 目前只知道一点点皮毛。求思路, 爬去信息,然后做成系统,老师还要求?

最新文章
热门文章
推荐阅读