标签:name title self 爬虫 item jianshu article 数据 入库
文章目录
创建数据库的表结构
-- auto-generated definition
drop database if exists jianshu;
create database jianshu default character set utf8;
use jianshu;
drop table if exists article;
create table article
(
id int not null auto_increment,
title varchar(20),
name varchar(20),
url longtext,
collection longtext,
primary key (id)
);
select * from article
实现数据插入功能
首先要在setting.py框架中启用 ITEM_PIPELINES,否则pipelines.py类里面的process_item方法是不会执行的。如果后续想创建连接池提高性能则搜索:adbapi解决方案
import pymysql
class JianshuPipeline(object):
def __init__(self):
dbparam = {
'host': '127.0.0.1',
'port': 3306,
'user': 'root',
'password': 'root',
'database': 'jianshu',
'charset': 'utf8'
}
# 查看源码,看需要哪些参数
self.conn = pymysql.connect(**dbparam)
# 创建一个游标
self.cursor = self.conn.cursor()
def process_item(self, item, spider):
sql = "insert into article(title,name,collection,url) values (%s,%s,%s,%s)"
self.cursor.execute(sql, (item['title'], item['name'],item['collection'], item['url']))
self.conn.commit()
return item
标签:name,title,self,爬虫,item,jianshu,article,数据,入库 来源: https://blog.csdn.net/lsqzedu/article/details/99710101
本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享; 2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关; 3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关; 4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除; 5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。