我可以使用以下代码在
Python(2.7)上的sqlite3中进行非常高效的批量插入:
cur.executemany("INSERT INTO " + tableName + " VALUES (?,?,?);",data)
但我无法获得有效工作的更新.我认为这可能是数据库结构/索引的问题,但即使在只有一个100行表的测试数据库上,更新仍然需要大约2-3秒.
我尝试了不同的代码变体.我的最新代码是从this answer到之前关于更新和执行的问题,但对我来说,这和我做过的其他尝试一样慢:
data = [] for s in sources: source_id = s['source_id'] val = get_value(s['source_attr']) x=[val,source_id] data.append(x) cur.executemany("UPDATE sources SET source_attr = ? WHERE source_id = ?",data) con.commit()
如何有效地改进此代码以进行大量更新?
解决方法
插入记录时,数据库只需要在表的末尾写一行(除非你有类似UNIQUE约束的东西).
更新记录时,数据库需要找到该行.这需要扫描整个表(对于每个命令),除非搜索列上有索引:
CREATE INDEX whatever ON sources(source_id);
但是如果source_id是primary key,你应该只是声明它(它创建一个隐式索引):
CREATE TABLE sources( source_id INTEGER PRIMARY KEY,source_attr TEXT,[...] );