Python之requests+xpath爬取猫眼电影并写入数据库(图文教程)
2020-06-28 11:38:30 来源:易采站长站 作者:易采站长站整理
文章目录一、pyhton连接mysql数据库二、用xpath抓取有用信息说几个比较容易掉坑的地方一二三效果
一、pyhton连接mysql数据库
我是写了一个py文件来封装一下,然后在爬取猫眼的py文件里直接调用,需要使用到pymysql库, 没有安装这个库的同学要事先安装一下,这里直接上代码
#coding=utf-8
import pymysqlclass mysqlConn:
def get_conn(self, dbname):
"""提供你要连接的数据库名,并连接数据库"""
self.conn = pymysql.connect(
host="127.0.0.1",
user="root",
password="你的密码",
db=dbname, #可选择要连接的数据库名
charset="utf8"
)
self.cur = self.conn.cursor()
def exe_sql(self, sql):
"""执行不返回结果的sql语句, 例如增删改"""
self.cur.execute(sql)
self.conn.commit()
# print("事物提交成功")
def select_sql(self, sql):
"""执行查询语句"""
self.cur.execute(sql)
return self.cur.fetchall()
def close_conn(self):
if self.cur:
self.cur.close()
if self.conn:
self.conn.close()
if __name__ == "__main__":
#找一个数据库表来执行一下看能不能行
connection = mysqlConn()
connection.get_conn("school") #连接'school'数据库
sql = '''insert into student2 (name, nickname) values ("赵六", "六娃")'''
connection.exe_sql(sql)
connection.close_conn()
注意文件开头有个#coding=utf-8,不写会提示一个小报错,以前都没写这个的习惯,看来以后要习惯写了
来看看结果
二、用xpath抓取有用信息
猫眼电影网站地址: https://maoyan.com/films?showType=3
先来看最后的数据库,看看我们要抓取哪些信息
从图上可以看出我们要抓取电影名字, 电影海报的链接, 电影详情页的链接, 电影的介绍,以及演员表.
现在看猫眼首页

从这里我们已经能发现他网址变换的规律了
再抓取第一页的网址里不同电影的信息













闽公网安备 35020302000061号