巧妙利用excel抓取网页数据

2024-05-17 23:54

1. 巧妙利用excel抓取网页数据

在浏览网页时,你一定会不时看到一些需要保存的数据信息。这些信息或许是一个完整的表格,或许是一段文字,如果要保存这类信息,我们常用的方法就是拖动鼠标,选中这些信息,然后用Ctrl+C组合键复制文字,然后再保存到Word、Excel当中去。
这样的步骤算不上麻烦,但如果要求你在一个个内容丰富的大网页(比如新浪、网易、Sohu首页)中频繁地复制、粘贴,一定会让你感到疲劳和浪费时间。有什么好办法呢?用“Ctrl+A”全选后复制所有文字?粘贴后你会发现麻烦更大,因为所有文字都堆在一起了!找专门的抓站软件吗?太小题大做了吧!
1、打开IE。
2、在网页左侧或右侧的空白处点击鼠标右键,在菜单中选择“导出到Microsoft Office Excel”。注意,不要在文字链接之间的空白处点右键,而是应该在完全没有任何网页内容的地方点右键。
3、这时Excel会启动,并出现一个“新建Web查询”的窗口。稍等片刻,等待这个窗口中显示出了完整网页,左下角会出现“完毕”字样。注意观察网页,你会发现网页被分割成了很多小的表格,每个表格的左上角有一个小的箭头标志。
4、双击窗口最上方标题栏,最大化窗口。依次找到要收藏的内容,然后按下该位置左上角的箭头,使它变成绿色的对勾。然后按下下方的“导入”按钮。
5、在弹出窗口中选择放置位置,然后按下“确定”按钮,文字、表格信息就可以自动导入Excel了。字体格式、颜色自动处理为Excel默认的样式,表格也会被放到适当的单元格中。这样,就有效避免了直接复制粘贴网页造成一些无法识别的格式、链接信息加入网页,同时提高了导入速度。
你知道如何不将网页格式带入Office文档中?
当你在浏览器中复制一段内容,然后粘贴到Word、Excel中,会将一些网页格式直接照搬进来,这可能不是我们希望的,因为它会增大文件体积,也不利于加工整理。其实,你只要不用“Ctrl+V”来粘贴,而是选择Word、Excel中的“编辑→选择性粘贴→文本”来进行粘贴就可以了。

巧妙利用excel抓取网页数据

2. Excel怎么从提取网页数据?

单击【数据】--【获取外部数据】--【自网站】,单击进入。

请点击输入图片描述
在弹出的新建web页面,在地址栏中输入需要查询数据的网址。

请点击输入图片描述
页面打开后,会在页面上有一个黄色矩形框嵌套的箭头,单击一下,让它变成小勾,这样我们就能选中需要引用的数据了。

请点击输入图片描述

请点击输入图片描述
选中之后,在页面的下端有一个【导入】按钮,单击便会进行数据导入了。

请点击输入图片描述
导入时excel会提醒数据导入的的区域,用户自己可以根据自身放需要进行选择区域,若不,单击确定就可以了。

请点击输入图片描述

请点击输入图片描述

请点击输入图片描述
网页上的数据都是实时更新的,同样,我们获取的数据也能够实现,选中需要更新的一个单元格或是一块区域,右键--【数据范围属性】,将【允许后台刷新】和【刷新频率】钱的小勾打上,并且还可以对时间进行调整。

请点击输入图片描述

请点击输入图片描述
7
这样,我们需要的数据就可以从网络上直接获取了。

请点击输入图片描述

3. Excel怎么从提取网页数据

【要求】我们需要跟踪中国银行网站中的汇率牌价数据,网址如下:http://www.bankofchina.com/sg/cn/bocinfo/bi3/201002/t20100207_961725.html 网页页面如下,红色框框中的表格就是我们需要跟踪的目标。  
【第一步】我们要新建一个EXCEL文件,并选择菜单“数据”--“获取外部数据”--“自网站”,


如下图图片点击“自网站”按钮,调出如下WEB查询对话框



 【第二步】在WEB查询对话框的地址栏中,输入我们需要的网页地址http://www.bankofchina.com/sg/cn/bocinfo/bi3/201002/t20100207_961725.html并点击“转到”按钮,这时,我们就在WEB查询对话框中打开了中国银行的网页,结果如下图片然后,我们点击“汇率牌价”下面的表格左上角的黄框右箭头图片,使之变为绿色的勾,如下图图片然后,点击“导入”按钮  

【第三步】在点击“导入”按钮后,在EXCEL表格上会显示如下进度情况图片然后会进入“导入数据”对话框,我们可以选择数据的放置位置,并可以通过“属性”按钮设置数据的属性图片点开“属性”按钮,则可进入“外部数据区域属性”对话框,我们可以在其中设置查询的名称、设置刷新的频率等,如下图图片点击“确定”后,则EXCEL表格的指定位置上就会出现我们所要导入的网站中的数据表格,如下图


Excel怎么从提取网页数据

4. excel抓取数据

这个可能是统计工人每月工作班次分布的问题,试着做一回答,可能不够简练,如下:

整理原始数据表中序号列,变形为文本型“即01、02、03...”

2.合并字符“A\B\C\D”与序号列


3.进一步合并"班次"


4.合并为一列然后排序

5.选中排序后列,并选择性粘贴——转置


6.将上述数据对应链接至指定位置即可.

这个方法主要解决思路即是通过排序的方式实现数据根据要求格式来分布。
我创建一个微信群,定时解答一些群里工作中遇到的EXCEL问题,欢迎添加。
微信号:lulu847626

5. excel中如何快速提取网页中的表格数据?


excel中如何快速提取网页中的表格数据?

6. Excel 怎样自动获取网络数据

1.首先打开Excel 2007工作表,点击想要把数据导入的位置,然后在菜单栏找到第五项"数据“,点击,在“获取外部数据”项下找到“自网站”并点击。

2.这时弹出来”新建 Web 查询“对话框,可以在“地址”一栏键入要添加数据的网页的地址。

3.添加完成后,点击“转到(G)”,下面会出来要添加网页的内容和黄色箭头,单击要选择的表旁边的黄色箭头,可以看到点击后黄色箭头变成绿色的对号,这表示内容已经选中了,然后单击“导入(I)”。

4.弹出来”导入数据“对话框,设置完成点击“确定”。

5.Excel表中显示“正在获取数据……”。

7. Excel如何抓取网页数据之JSON数据抓取

打开Chrome,在拉勾网搜索深圳市的“数据分析”职位,使用检查功能查看网页源代码,发现拉勾网有反爬虫机制,职位信息并不在源代码里,而是保存在JSON的文件里,因此我们直接下载JSON,并使用字典方法直接读取数据。

抓取网页时,需要加上头部信息,才能获取所需的数据。
在搜索结果的第一页,我们可以从JSON里读取总职位数,按照每页15个职位,获得要爬取的页数。再使用循环按页爬取,将职位信息汇总,输出为CSV格式。
程序运行如图:

抓取结果如图:

数据清洗占数据分析工作量的大头。在拉勾网搜索深圳市的“数据分析”职位,结果得到369个职位。查看职位名称时,发现有4个实习岗位。由于我们研究的是全职岗位,所以先将实习岗位剔除。由于工作经验和工资都是字符串形式的区间,我们先用正则表达式提取数值,输出列表形式。工作经验取均值,工资取区间的四分位数值,比较接近现实。
4. 词云
我们将职位福利这一列的数据汇总,生成一个字符串,按照词频生成词云实现python可视化。以下是原图和词云的对比图,可见五险一金在职位福利里出现的频率最高,平台、福利、发展空间、弹性工作次之。

5. 描述统计

可知,数据分析师的均值在14.6K,中位数在12.5K,算是较有前途的职业。数据分析散布在各个行业,但在高级层面上涉及到数据挖掘和机器学习,在IT业有长足的发展。
我们再来看工资的分布,这对于求职来讲是重要的参考:

工资在10-15K的职位最多,在15-20K的职位其次。个人愚见,10-15K的职位以建模为主,20K以上的职位以数据挖掘、大数据架构为主。
我们再来看职位在各区的分布:

数据分析职位有62.9%在南山区,有25.8%在福田区,剩下少数分布在龙岗区、罗湖区、宝安区、龙华新区。我们以小窥大,可知南山区和福田区是深圳市科技业的中心。
我们希望获得工资与工作经验、学历的关系,由于学历分三类,需设置3个虚拟变量:大专、本科、硕士。多元回归结果如下:

在0.05的显著性水平下,F值为82.53,说明回归关系是显著的。t检验和对应的P值都小于0.05表明,工作经验和3种学历在统计上都是显著的。另外,R-squared的值为0.41,说明工作经验和学历仅仅解释了工资变异性的41%。这点不难理解,即使职位都叫数据分析师,实际的工作内容差异比较大,有的只是用Excel做基本分析,有的用Python、R做数据挖掘。另外,各个公司的规模和它愿意开出的工资也不尽相同。而工作内容的差异和公司的大方程度是很难单凭招聘网页上的宣传而获得实际数据,导致了模型的拟合优度不是很好这一现实。

Excel如何抓取网页数据之JSON数据抓取

8. EXCEL从网页上获取数据