什么为大型数据集提供更好的性能？嵌套字典还是对象字典？

2024-09-08 • 问答

当我从多个数据库表中获取数据时，我发现自己在重复这种模式：

records = {'p_key': { "record": r,"A": list(),"B": list(),"C" : list() } for r in db_records}

我经常不得不以这种方式对数据进行分组，因为我无法跨数据库进行联接，或者可能存在多个查询比多个联接快的情况。

但是从性能角度来看，我不确定嵌套这样的字典是否会产生大量开销，并且通过创建具有这些属性的对象来成为记录字典中的值是否可以更好地服务我。所谓性能，是指使用大量嵌套字典与对象字典时在空间和时间上的总体成本。

字典和常规类对象之间的性能基本上没有区别，因为内部对象使用字典来处理其属性。

但是，您应该考虑将类与__slots__一起使用。 Here是有关其含义及其性能的详细说明。

另一种选择是使用pandas库处理大型数据集。

本文链接：https://www.f2er.com/3164284.html