前端之家收集整理的这篇文章主要介绍了
postgresql重复数据的删除,
前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
今天在协助开发导表数据时发现有重复的数据,需要去重。去重的
方法一般是找到重复数据中的一条,以某一唯一条件去掉其他重复值。oracle中常用的是根据rowid来做,PG中也有一个唯一字段ctid,也可以根据此来做,如果表里设置了oid,数据量不大的情况下也可以。当然如果表中有唯一的序列值,就更方便了。下面是以ctid来
删除重复数据的测试。 测试数据
postgres=# create table test(id int,name varchar);
CREATE TABLE
postgres=# insert into test values (1,'kenyon');
INSERT 0 1
postgres=# insert into test values (1,'kenyon');
INSERT 0 1
postgres=# insert into test values (2,'kenyon_test');
INSERT 0 1
postgres=# insert into test values (2,'kenyon_test');
INSERT 0 1
postgres=# insert into test values (3,'test');
INSERT 0 1
postgres=# insert into test values (5,'jackson');
INSERT 0 1
postgres=# select ctid,* from test;
ctid | id | name
-------+----+-------------
(0,1) | 1 | kenyon
(0,2) | 1 | kenyon
(0,3) | 1 | kenyon
(0,4) | 2 | kenyon_test
(0,5) | 2 | kenyon_test
(0,6) | 3 | test
(0,7) | 5 | test
(0,8) | 5 | jackson
(8 rows)
查询要保留的数据,以min(ctid)或max(ctid)为准
postgres=# select ctid,* from test where ctid in (select min(ctid) from test group by id);
ctid | id | name
-------+----+-------------
(0,7) | 5 | test
(4 rows)
删除重复数据,查看最后结果
postgres=# delete from test where ctid not in (select min(ctid) from test group by id);
DELETE 4
postgres=# select ctid,7) | 5 | test
(4 rows)
如果表中已经有标明唯一的序列主键值,可以把该值替换上述的ctid直接
删除。
原文链接:https://www.f2er.com/postgresql/196512.html