在线爬取源码（爬取https）

今天给各位分享在线爬取源码的知识，其中也会对爬取https进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、python爬虫怎么获取动态的网页源码
2、python怎么爬取网页源代码
3、如何从github获取源代码

python爬虫怎么获取动态的网页源码

一个月前实习导师布置任务说通过网络爬虫获取深圳市气象局发布的降雨数据，网页如下：

心想，爬虫不太难的，当年跟zjb爬煎蛋网无（mei）聊（zi）图的时候，多么清高。由于接受任务后的一个月考试加作业一大堆，导师也不催，自己也不急。

但是，导师等我一个月都得让我来写意味着这东西得有多难吧。。。今天打开一看的确是这样。网站是基于Ajax写的，数据动态获取，所以无法通过下载源代码然后解析获得。

从某不良少年写的抓取淘宝mm的例子中收到启发，对于这样的情况，一般可以同构自己搭建浏览器实现。phantomJs，CasperJS都是不错的选择。

导师的要求是获取过去一年内深圳每个区每个站点每小时的降雨量，执行该操作需要通过如上图中的历史查询实现，即通过一个时间来查询，而这个时间存放在一个hidden类型的input标签里，当然可以通过js语句将其改为text类型，然后执行send_keys之类的操作。然而，我失败了。时间可以修改设置，可是结果如下图。

为此，仅抓取实时数据。选取python的selenium，模拟搭建浏览器，模拟人为的点击等操作实现数据生成和获取。selenium的一大优点就是能获取网页渲染后的源代码，即执行操作后的源代码。普通的通过 url解析网页的方式只能获取给定的数据，不能实现与用户之间的交互。selenium通过获取渲染后的网页源码，并通过丰富的查找工具，个人认为最好用的就是find_element_by_xpath("xxx")，通过该方式查找到元素后可执行点击、输入等事件，进而向服务器发出请求，获取所需的数据。

[python] view plain copy

# coding=utf-8

from testString import *

from selenium import webdriver

import string

import os

from selenium.webdriver.common.keys import Keys

import time

import sys

default_encoding = 'utf-8'

if sys.getdefaultencoding() != default_encoding:

reload(sys)

sys.setdefaultencoding(default_encoding)

district_navs = ['nav2','nav1','nav3','nav4','nav5','nav6','nav7','nav8','nav9','nav10']

district_names = ['福田区','罗湖区','南山区','盐田区','宝安区','龙岗区','光明新区','坪山新区','龙华新区','大鹏新区']

flag = 1

while (flag 0):

driver = webdriver.Chrome()

driver.get("hianCe/")

# 选择降雨量

driver.find_element_by_xpath("//span[@id='fenqu_H24R']").click()

filename = time.strftime("%Y%m%d%H%M", time.localtime(time.time())) + '.txt'

#创建文件

output_file = open(filename, 'w')

# 选择行政区

for i in range(len(district_navs)):

driver.find_element_by_xpath("//div[@id='" + district_navs[i] + "']").click()

# print driver.page_source

timeElem = driver.find_element_by_id("time_shikuang")

#输出时间和站点名

output_file.write(timeElem.text + ',')

output_file.write(district_names[i] + ',')

elems = driver.find_elements_by_xpath("//span[@onmouseover='javscript:changeTextOver(this)']")

#输出每个站点的数据，格式为：站点名，一小时降雨量，当日累积降雨量

for elem in elems:

output_file.write(AMonitorRecord(elem.get_attribute("title")) + ',')

output_file.write('\n')

output_file.close()

driver.close()

time.sleep(3600)

文件中引用的文件testString只是修改输出格式，提取有效数据。

[python] view plain copy

#Encoding=utf-8

def OnlyCharNum(s, oth=''):

s2 = s.lower()

fomart = 'abcdefghijklmnopqrstuvwxyz0123456789,.'

for c in s2:

if not c in fomart:

s = s.replace(c, '')

return s

def AMonitorRecord(str):

str = str.split(":")

return str[0] + "," + OnlyCharNum(str[1])

一小时抓取一次数据，结果如下：

在线爬取源码（爬取https）,在线爬取源码,信息,源码,浏览器,第1张

python怎么爬取网页源代码

#!/usr/bin/env python3

#-*- coding=utf-8 -*-

import urllib3

if __name__ == '__main__':

http=urllib3.PoolManager()

r=http.request('GET','IP')

print(r.data.decode("gbk"))

可以正常抓取。需要安装urllib3,py版本3.43

如何从github获取源代码

github是当前流行的开源项目托管网站，里面有成千上万的项目值得学习和借鉴，可以把项目源代码下载到本地研究。本文介绍如何获取github的源代码。

方法1 - 克隆(Clone)源代码到本地

克隆之后会把源代码下载到本地，创建一个本地的代码库，可以任意在本地修改代码并使用git所提供的命令操作代码，有代码对应的历史记录和分支。

方法2 - 下载源代码Zip包

只是最新源代码的打包，没有git对象信息，不能查看代码的分支和历史记录。

方法3 - 直接在线浏览代码并复制想要的代码段

项目的源代码可以直接在代码浏览窗口查看，感兴趣的话可以直接复制或者下载

工具/原料

Git

方法1 - 克隆(Clone)源代码到本地

到github.com找到自己感兴趣的项目，比如Jquery，复制项目的Clone URL

在本地打开Git Bash命令行窗口

把复制好的Clone URL粘贴到命令行窗口并回车，执行完Clone命令代码即下载到本地

Git Clone [URL]

END

方法2 - 下载源代码Zip包

找到自己感兴趣的项目，在项目页面点击"Download Zip"按钮，源代码即可下载到本地

END

方法3 - 直接在线浏览代码并复制想要的代码段

项目的源代码可以直接在代码浏览窗口查看，感兴趣的话可以直接复制或者下载

关于在线爬取源码和爬取https的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

源码村长

分享到：

在线爬取源码（爬取https）

python爬虫怎么获取动态的网页源码

python怎么爬取网页源代码

如何从github获取源代码

源码村长

1 评论

发表评论

python爬虫怎么获取动态的网页源码

python怎么爬取网页源代码

如何从github获取源代码

源码村长

相关推荐

1 评论

发表评论