频道导航

SQL对冗余数据的删除重复记录只保留单条的说明

2019-01-04 MsSQL 前端之家

前端之家收集整理的这篇文章主要介绍了SQL对冗余数据的删除重复记录只保留单条的说明，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我们先看一下相关数据结构的知识。在学习线性表的时候，曾有这样一个例题。已知一个存储整数的顺序表La，试构造顺序表Lb，要求顺序表Lb中只包含顺序表La中所有值不相同的数据元素。

算法思路：

先把顺序表La的第一个元素付给顺序表Lb，然后从顺序表La的第2个元素起，每一个元素与顺序表Lb中的每一个元素进行比较，如果不相同，则把该元素附加到顺序表Lb的末尾。
<div class="codetitle"><a style="CURSOR: pointer" data="85261" class="copybut" id="copybut85261" onclick="doCopy('code85261')"> 代码如下:

<div class="codebody" id="code85261">
public SeqList Purge(SeqList La)
{
SeqList Lb = new SeqList(La.Maxsize);
//将a表中的第1个数据元素赋给b表
Lb.Append(La[0]);
//依次处理a表中的数据元素
for (int i = 1; i <= La.GetLength() - 1; ++i)
{
int j = 0;
//查看b表中有无与a表中相同的数据元素
for (j = 0; j <= Lb.GetLength() - 1; ++j)
{
//有相同的数据元素
if (La[i].CompareTo(Lb[j]) == 0)
{
break;
}
}
//没有相同的数据元素，将a表中的数据元素附加到b表的末尾。
if (j > Lb.GetLength() - 1)
{
Lb.Append(La[i]);
}
return Lb;
}
}

如果理解了这个思路，那么数据库中的处理就好办了。我们可以做一个临时表来解决问题
<div class="codetitle"><a style="CURSOR: pointer" data="76975" class="copybut" id="copybut76975" onclick="doCopy('code76975')"> 代码如下:

<div class="codebody" id="code76975">
select distinct into #Tmp from tableName
drop table tableName
select into tableName from #Tmp
drop table #Tmp

发生这种重复的原因是表设计不周产生的，增加唯一索引列即可解决。但是你说了，我不想增加任何字段，但这时候又没有显式的标识列，怎么取出标识列呢？（可以是序号列，GUID，等）上个问题先不讲，先看看这个问题。我们分别在三种数据库中看一下处理办法，就是通常我们用的sqlserver2000,sqlserver2005,Oracle 10g.

1. sql Server 2000 构造序号列

方法一：
SELECT 序号=
(SELECT COUNT(客户编号) FROM 客户 AS a WHERE a.客户编号<= b.客户编号),
客户编号,公司名称 FROM 客户 AS b ORDER BY 1;
方法二： SELECT 序号= COUNT(),
a.客户编号,a.公司名称FROM 客户 AS a,客户 AS b
WHERE a.客户编号>= b.客户编号 GROUP BY a.客户编号,b.公司名称 ORDER BY 序号;
2. sql Server 2005 构造序号列
方法一：
SELECT RANK() OVER (ORDER BY 客户编号 DESC) AS 序号,客户编号,公司名称 FROM 客户; 方法二:
WITH TABLE AS
(SELECT ROW_NUMBER() OVER (ORDER BY 客户编号 DESC) AS 序号,公司名称 FROM 客户)
SELECT FROM TABLE
WHERE 序号 BETWEEN 1 AND 3;

3. Oracle 里 rowid 也可看做默认标识列

在Oracle中，每一条记录都有一个rowid，rowid在整个数据库中是唯一的，rowid确定了每条记录是在Oracle中的哪一个数据文件、块、行上。
在重复的记录中，可能所有列的内容都相同，但rowid不会相同，所以只要确定出重复记录中那些具有最大rowid的就可以了，其余全部删除。
<div class="codetitle"><a style="CURSOR: pointer" data="54948" class="copybut" id="copybut54948" onclick="doCopy('code54948')"> 代码如下:

<div class="codebody" id="code54948">
select from test;select from test group by id having count()>1select from test group by idselect distinct from testdelete from test a where a.rowid!=(select max(rowid) from test b where a.id=b.id);扯远了，回到原来的问题，除了采用数据结构的思想来处理，因为数据库特有的事务处理，能够把数据缓存在线程池里，这样也相当于临时表的功能，所以，我们还可以用游标来解决删除重复记录的问题。
declare @max int,
@id int
declare cur_rows cursor local for select id,count() from test group by id having count(*) > 1
open cur_rows
fetch cur_rows into @id,@max
while @@fetch_status=0
begin
select @max = @max -1
set rowcount @max --让这个时候的行数等于少了一行的统计数,想想看,为什么
delete from test where id = @id
fetch cur_rows into @id,@max
end
close cur_rows
set rowcount 0 以上是闪电查阅一些资料写出的想法，有考虑不周的地方，欢迎大家指出。

冗余数据删除重复记录