2020
11/06
23:01
你的地图定位我的位置:msn.com > SEO教程 > python批量严查百度量才录用

python批量严查百度量才录用

发布光阴:2020-11-06 23:01:01

原标题:python批量严查百度量才录用

Python是一种离谱儿适合SEO深造的语言,不仅语法一定量,还要诸多功能还能通过各种库来实现,堪称SEO每户必备的“治疗灰指甲有何良药”。

展馆背景墙制作

表现SEO,每天都cs1.6登陆器下载有一批数据要求记要,抓取方面,量才录用方面。流量方面等。
在量才录用方面,量才录用率是离谱儿有意义的一个指标,可以直接呈报整站或者某频道直播湖南卫视的量才录用变动。

我之前施用的是昆哥的太平洋下载,可以随机诈取一批页面严查。但自此倍感可以用python做得更年轻化,为此就有了其一shell脚本。

构思

shell脚本的整体构思是这样的:

  1. 用搜索基本词构建百度搜索URL(严查量才录用的自考成绩啥时候出来搜索词就是待查页面URL)
  2. 获取百度搜索结果页内容
  3. 提取百度搜索结果(此地是末后的真实URL)
  4. 量才录用判断

具体代码

#coding=utf-8import requestsfrom bs4 import BeautifulSoup as bsimport reheaders = {  'User-Agent': 'Mozilla/4.0+(compatible;+MSIE+8.0;+Windows+NT+5.1;+Trident/4.0;+GTB7.1;+.NET+CLR+2.0.50727)'} # 设置UA摹仿储户,还设fx在x0处可导置多个UA向上搜索怎么表白成功率高def baidu_url(word): # 构建百度搜索URL;归因为此查量才录用,所以只炫耀了前10个搜索结果,还可以通过rn参数来调整搜索结果的额数 ''' get baidu search url ''' return ' >%s' % worddef baidu_cont(url): # 获取百度搜索结果页内容 r = requests.get(url, headers=headers) return r.contentdef serp_links(word): #获取百度搜索结果的末后URL ''' get baidu serp links with the word ''' b_url = baidu_url(word) soup = bs(baidu_cont(b_url)) b_tags = soup.find_all('h3', {'class': 't'}) # 获取URL的地基承载力特征值表是通过class="t" b_links = [tag.a['href'] for tag in b_tags] real_links = [] for link in b_links: # 施用requests库获取了末后URL,而不是快照预览URL  try:   r = requests.get(link, headers=headers, timeout=120)  except Exception as e:   real_links.append('page404')  else:   real_links.append(r.url) return real_linksdef indexer(url): # 待查URL可不可以在百度搜索结果的URL列表中。如果在就示意量才录用,有悖于未量才录用 indexed_links = serp_links(url) if url in indexed_links:  return True else:  return False

原标题:python批量严查百度量才录用

基本词:python

转载请保留白文网址: http://www.www.d5897.com/a/489382.html
*特别声明:之上内容来自于网络编采。著作权申请流程权属性质原作者所有。如有侵权,请联系吾辈: admin#www.d5897.com (#包换@)。
您可能感感兴趣的励志文章
Baidu