频道导航

c – 在压缩文本文件中快速搜索

2019-12-30 C&C++ 前端之家

前端之家收集整理的这篇文章主要介绍了c – 在压缩文本文件中快速搜索，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我需要能够在压缩的大量文件(.txt)中搜索文本.压缩可以改为其他东西,甚至可以变成专有的.
我想避免解压缩所有文件并压缩(编码)搜索字符串并在压缩文件中搜索.这应该可以使用霍夫曼压缩与所有文件的相同码本.
我不想重新发明轮子,所以..任何人都知道像这样的库或者实施和测试过的霍夫曼算法,或者更好的想法？

提前致谢

解决方法

大多数文本文件都使用 LZ-family算法之一进行压缩,这些算法将 Dictionary Coder和 Entropy Coder(如Huffman)结合在一起.

因为字典编码器依赖于不断更新的“字典”,其编码结果取决于历史(字典中从输入数据直到当前符号的所有代码),因此无法跳转到某个位置并开始解码,而不首先解码所有先前的数据.

在我看来,你可以使用一个zlib流解码器,它可以随时返回解压缩数据,而无需等待整个文件解压缩.这不会节省执行时间,但会节省内存.

第二个建议是对英语单词进行霍夫曼编码,并忘记字典编码器部分.每个英语单词都映射到一个唯一的无前缀代码.

最后,@ SHODAN给出了最明智的建议,即索引文件,压缩索引并捆绑压缩文本文件.要进行搜索,只需解压缩索引文件并查找单词.这实际上是对单词执行霍夫曼编码的改进 – 一旦找到单词的频率(为了最佳地分配前缀代码),您已经构建了索引,因此您可以保留索引以进行搜索.

上一篇：不允许指向不完整类类型的指针下一篇：ANSI-C语法 – 像[*]等的数组声明

猜你在找的C&C++相关文章

C++11新特性的一些用法举例②

/** C+⬑ * 默认成员函数原来C++类中，有6个默认成员函数：构造函数析...

作者：HJfjfK 时间：2024-09-28

C++特殊类的设计与单例模式

#pragma once // 1. 设计一个不能被拷贝的类/* 解析:拷贝只会放生在两个场景中：拷贝构造函...

作者：HJfjfK 时间：2024-09-28

C++11的类型转换

C类型转换 C语言:显式和隐式类型转换隐式类型转化：编译器在编译阶段自动进行，能转就转，...

作者：HJfjfK 时间：2024-09-28

C++异常的基本概念与用法

//异常的概念/*抛出异常后必须要捕获,否则终止程序(到最外层后会交给main管理,main的行为就...

作者：HJfjfK 时间：2024-09-28

C++的智能指针

#pragma once /*Smart pointer 智能指针;灵巧指针智能指针三大件//1.RAII//2.像指针一样使...

作者：HJfjfK 时间：2024-09-28

C++11标准库原子变量 <atomic> 梳理

目录<atomic>原子操作的概念CAS实现原理CAS操作的伪代码：使用CAS完成变量的...

作者：HJfjfK 时间：2024-09-28

C++11新特性的一些用法举例①

//字符串字面量/*常用:1.原始字符串字面量括号内保持原样输出没有转义字符,如n不再是换行...

作者：HJfjfK 时间：2024-09-28

C++11标准库条件变量 <condition_variable> 梳理

目录<condition_variable>condition_variable类类方法生产者消费者模型 -- ...

作者：HJfjfK 时间：2024-09-28

C++11智能指针 unique_ptr、shared_ptr/weak_ptr、make_shared、循环引用、定制删除器 (万字长文)

目录智能指针场景引入 - 为什么需要智能指针？内存泄漏什么是内存泄漏内存泄漏的危害内存泄...

作者：HJfjfK 时间：2024-09-28

/** 多态/动态调用 * * * 1.虚函数/虚拟函数 * 语法:在函数前面加上virtual * * 1.1虚函数...

作者：HJfjfK 时间：2024-09-28

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章