如何通过python调用新浪微博的API来爬取数据

2024-05-06 20:43

1. 如何通过python调用新浪微博的API来爬取数据

先上结论,通过公开的api如果想爬到某大v的所有数据,需要满足以下两个条件:
1、在你的爬虫开始运行时,该大v的所有微博发布量没有超过回溯查询的上限,新浪是2000,twitter是3200。
2、爬虫程序必须不间断运行。
新浪微博的api基本完全照搬twitter,其中接口的参数特性与底层的NoSQL密不可分,建议先看点Nosql数据库的设计理念有助于更好的理解api设计。
一般来说,如果决定爬某个大v,第一步先试获取该用户的基本信息,中间会包含一条最新的status,记下其中的id号作为基准,命名为baseId。
接口中最重要的两个参数:
since_id:返回ID比since_id大的微博(即比since_id时间晚的微博),默认为0。
max_id:返回ID小于或等于max_id的微博,默认为0。
出于各种原因,获取statuses的接口,固定为按id降序排列(scan_index_forward=false),即最新的statuses返回在前。假设该微博第一天上线,就一个用户,发了一百条,id是1到100。而你在该用户发了第50条的时候开始运行的爬虫,即baseId=50。

如何通过python调用新浪微博的API来爬取数据

2. 如何通过python调用新浪微博的API来爬取数据

1:安装python(这个不多说啦)
2:下载新浪微博SDK的python包,解压为weibopy目录

3:申请AppKey,

流程:

1:通过oAuth认证
按我的理解简化如下:
用户在新浪微博给的页面输入账号密码,然后微博给应用一个PIN码,这样应用通过PIN码才有权限访问该用户的信息,而应用在整个过程中是接触不到密码的,所以用户觉得很安全,后果很满意
2:获得认证之后,就可以使用微博SDK提供的API获得信息啦
3:如果想设计web或者客户端应用的话,那就继续加个GUI好啦(未完成)

代码:


#!/usr/bin/python

import webbrowser

from weibopy.auth import OAuthHandler
from weibopy.api import API

AppKey = '2525355147'
AppSecret = '2e2c7bcdfc362eace266d1f2bf83fe6b'

my_auth = OAuthHandler(AppKey , AppSecret)
webbrowser.open(my_auth.get_authorization_url())
verifier = raw_input('PIN: ').strip()
my_auth.get_access_token(verifier)

my_api = API(my_auth)
for comment in my_api.mentions():
object = comment
id = object.__getattribute__("id")
text = object.__getattribute__("text")
print str(id) + " : " + text

3. 如何通过python调用新浪微博的API来爬取数据

你仔细看一下新浪微博的帮助。按ID搜索微博内容似乎是被禁止的。即使有也是受限的。 事先需要申请一个开发者的ID,然后才能用这个ID登陆,继而进行后续的操作。

如何通过python调用新浪微博的API来爬取数据

4. 如何通过python调用新浪微博的API

1.下载SDK

使用python调用API的话,首先要去下一个Python的SDK,sinaweibopy

连接地址在此: http://michaelliao.github.com/sinaweibopy/

可以使用pip很快的导入,github连接里的wiki也有入门的使用方法,很容易看懂。

 

2.理解新浪微博的授权机制

在调用API之前,首先要搞懂什么叫OAuth 2,即新浪微博的授权机制,

连接在此: http://open.weibo.com/wiki/%E6%8E%88%E6%9D%83%E6%9C%BA%E5%88%B6%E8%AF%B4%E6%98%8E

 

3.在新浪微博注册应用

每个人都可以通过新浪微博开发者平台注册自己的应用,我注册的是站内应用。注册后会为每个应用分配唯一的app key 和 app secret,这在上文提到的授权机制中需要用到,相当与每个应用的标示吧。

至此,我们可以尝试写代码调用新浪微博的API啦。

 

4.简单的调用API实例

参考了往上很多资料和文档,写了一个简单的调用过程。

# _*_ coding: utf-8 _*_
from weibo import APIClient
import webbrowser
APP_KEY = ”
APP_SECRET = ”
CALLBACK_URL = ”
#这个是设置回调地址,必须与那个”高级信息“里的一致
client = APIClient(app_key=APP_KEY, app_secret=APP_SECRET, redirect_uri=CALLBACK_URL)
url = client.get_authorize_url()
# TODO: redirect to url
#print url
webbrowser.open_new(url)
# 获取URL参数code:
code = ‘2fc0b2f5d2985db832fa01fee6bd9316‘
client = APIClient(app_key=APP_KEY, app_secret=APP_SECRET, redirect_uri=CALLBACK_URL)
r = client.request_access_token(code)
access_token = r.access_token # 新浪返回的token,类似abc123xyz456
expires_in = r.expires_in # token过期的UNIX时间:http://zh.wikipedia.org/wiki/UNIX%E6%97%B6%E9%97%B4
# TODO: 在此可保存access token
client.set_access_token(access_token, expires_in)

print client.friendships.friends.bilateral.ids.get(uid = 12345678)

通过以上的代码,我实现了调用相互关注API的调用,即查找与某个id的用户相互关注的人的列表。

其中,APP_KEY和APP_SECRET就是前文中分配给每个应用的信息,回调地址在每个应用的高级信息中可以看到,需要自己设置,不过随便设置一下就好

比较恶心的是code的获取,我一开始看sinaweibopy的文档的时候也没弄懂是什么意思,如上面的代码所示,url得到的是一个授权的网址,我们通过

webbrowser.open_new(url)
这行代码打开浏览器跳转到授权的界面,然后观察所在界面的网址,会显示大概如下一样的格式:

http://apps.weibo.com/sayarywei?code=505e3efcdad1f421d147db7276aabdbe

看到了吗? 
问号后面有一个code=……的一个东西,把等号后面的字符串拷贝下来赋给code就可以了,但是每次运行程序是code不是一成不变的,也就是说每次都
要有这么一个手动获取的过程,我觉得很麻烦,以后自己再研究一下,实现自动获取code就好了。如果能有哪位大神告诉我,感激不尽~

好了,得到正确的code之后就可以完成授权认证,也就可以调用微博的API啦,至于如何在Python下调用,我拷贝一下sinaweibopy上的介绍:

首先查看新浪微博API文档,例如:

API:statuses/user_timeline

请求格式:GET

请求参数:

source:string,采用OAuth授权方式不需要此参数,其他授权方式为必填参数,数值为应用的AppKey?。

access_token:string,采用OAuth授权方式为必填参数,其他授权方式不需要此参数,OAuth授权后获得。

uid:int64,需要查询的用户ID。

screen_name:string,需要查询的用户昵称。

(其它可选参数略)

调用方法:将API的“/”变为“.”,根据请求格式是GET或POST,调用get ()或post()并传入关键字参数,但不包括source和access_token参数:

r = client.statuses.user_timeline.get(uid=123456)
for st in r.statuses:
    print st.text

若为POST调用,则示例代码如下:

r = client.statuses.update.post(status=u'测试OAuth 2.0发微博')

若需要上传文件,传入file-like object参数,示例代码如下:

f = open('/Users/michael/test.png', 'rb')
r = client.statuses.upload.post(status=u'测试OAuth 2.0带图片发微博', pic=f)
f.close() # APIClient不会自动关闭文件,需要手动关闭

请注意:上传的文件必须是file-like object,不能是str,因为无法区分一个str是文件还是字段。可以通过StringIO把一个str包装成file-like object。

5. 怎么用python的sdk调用新浪微博API来提取给定ID用户的微博信息?

你仔细看一下新浪微博的帮助。按ID搜索微博内容似乎是被禁止的。即使有也是受限的。

事先需要申请一个开发者的ID,然后才能用这个ID登陆,继而进行后续的操作。

怎么用python的sdk调用新浪微博API来提取给定ID用户的微博信息?

6. 如何用python调用新浪微博的api

与Twitter相比,新浪微博做得更好的地方是直接提供了SDK(Twitter貌似只有第三方的SDK)。而我自然是用Python SDK,一个只有几十k的玩意。

接着进入exanples文件夹(新浪这英文水平,不提了…),打开oauthSetTokenUpdate.py文件就是一个很标准的例子了。

于是照着写了一个:

view sourceprint?01 # -*- coding: utf-8 -*-  

02    

03 from weibopy.auth import OAuthHandler  

04 from weibopy.api import API  

05    

06    

07 consumer_key= '应用的key' 

08 consumer_secret ='应用的App Secret' 

09    

10 auth = OAuthHandler(consumer_key, consumer_secret)  

11 auth_url = auth.get_authorization_url()  

12 print 'Please authorize: ' + auth_url  

13 verifier = raw_input('PIN: ').strip()  

14 auth.get_access_token(verifier)  

15 api = API(auth)  

16    

17 status = api.update_status(status='hello world', lat='12.3', long='45.6') # 注意status必须是UTF-8编码的字符串,经纬度是可以不写的  

18 print status.id 

19 print status.text 

注意consumer_key和consumer_secret需要创建一个应用才能拿到。

运行这个程序,你会发现它可耻地失败了,报出一条语法错误:

File 'C:\Documents and Settings\Administrator\Desktop\sinatpy\weibopy\api.py',
 line 197     )(self, *args, post_data=post_data, headers=headers)
                           ^SyntaxError: invalid syntax于是打开weibopy\api.py这个文件,把197行改成: 

)(self, post_data=post_data, headers=headers, *args)
再运行这个程序就会提示一个URL链接,在浏览器里打开这个链接,并且给予访问权限,就会拿到一串PIN码。把这个PIN码输上去,就会发送一条推了,并且还会显示用户的Access token key和Access token secret。 
可以看到整个过程是很简单的: 

用你的consumer_key和consumer_secret创建一个OAuthHandler对象auth。 
告诉用户访问auth.get_authorization_url(),并让用户授权这个应用。 
拿到用户的PIN码,用auth.get_access_token()拿到用户的Access token key和Access token secret。 
用auth创建一个API对象api。 
调用api的方法,例如update_status()就是发推。详细说明可以看API文档。 
当然,每次都要求用户输入PIN码也太傻了,所以在用auth.get_access_token()拿到Access token key和Access token secret之后,就可以直接用它们来创建API对象了:

view sourceprint?01 # -*- coding: utf-8 -*-  

02    

03 from weibopy.auth import OAuthHandler  

04 from weibopy.api import API  

05    

06    

07 consumer_key= '应用的key' 

08 consumer_secret ='应用的App Secret' 

09 token = '用户的Access token key' 

10 tokenSecret = '用户的Access token secret' 

11    

12 auth = OAuthHandler(consumer_key, consumer_secret)  

13 auth.setToken(token, tokenSecret)  

14 api = API(auth)  

15    

16 status = api.update_status(status='搞定收工~') 

最后想说的是新浪微博的应用审核真麻烦,没通过审核的想show下自己个性化的应用名都不行。罢了,反正我也只是玩玩而已~    

看看有没有用

7. Python怎样调用Api去抓取数据

官方的话,详见该api的文档和请求格式
非官方的只能问该提供的api的本人了

Python怎样调用Api去抓取数据

8. python怎么从调用api返回的数据中取出指定值?

返回的什么类型的数据,就用什么类型的变量去接收就行了,不太懂你的意思。
最新文章
热门文章
推荐阅读