频道导航

信息聚合系统的数据库后台（比如RSS订阅，feedly）应该如何设计？

2020-06-26 设计模式前端之家

前端之家收集整理的这篇文章主要介绍了信息聚合系统的数据库后台（比如RSS订阅，feedly）应该如何设计？，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我想起之前有研究生同学曾经参与一个实习项目，他们用sql 数据库来实现一个RSS 订阅聚合系统，结果遇到了扩展性问题：当RSS源达到上千的时候，并发查询性能就已经下降到不可接受。

之后我遇到的实用的信息聚合系统：Google阅读器、以及Feedly。Feedly的官方博客里说它的后台是用HBase来存的。我不禁好奇其数据架构设计到底是怎么做的。

首先，容易想到的是，为每篇博客文章关联RSS源id（博客订阅的RSS URL地址），及文章id（直接使用url，或者数据库生成列），每篇博客文章需要全局顺序的编号，则每个用户的聚合订阅相对于文章id的一个列表。这样用户拉取新文章相对于对前面全局文章列表的一个selective sorted io copy。

不过既然所有的博客文章都是全局序存储的（按更新或RSS爬虫的爬取时间），其物理存储怎么做水平切分呢？

能想到的最简单的，就是对RSS源id做DHT。然后每次拉取用户订阅的聚合源的更新时，需要做一个并行的Fork（Scatter）-Join（Merge）查询。这样大概能够解决问题了。但是仅仅对RSS源id做DHT的话，还不能解决每个不同的RSS源文章数量不同、数据量不均匀，为使得DHT底层物理存储更均衡，可能还要细化设计。。。

上一篇：测试 – 我为什么要练习测试驱动开下一篇：OpenDaylight：虚拟核心和聚合

猜你在找的设计模式相关文章

适配器模式-让不兼容的接口得以适配

适配器模式将一个类的接口转换成客户期望的另一个接口，使得原本接口不兼容的类可以相互合...

作者：前端之家时间：2021-02-24

策略模式-定义一个算法族

策略模式定义了一系列算法族，并封装在类中，它们之间可以互相替换，此模式让算法的变化独...

作者：前端之家时间：2021-02-24

设计模式之高质量代码

设计模式讲的是如何编写可扩展、可维护、可读的高质量代码，它是针对软件开发中经常遇到的...

作者：前端之家时间：2021-02-24

模板方法模式-封装一套算法流程

模板方法模式在一个方法中定义一个算法的骨架，而将一些步骤延迟到子类中，使得子类可以在...

作者：前端之家时间：2021-02-24

迭代器模式-统一集合的遍历方式

迭代器模式提供了一种方法，用于遍历集合对象中的元素，而又不暴露其内部的细节。

作者：前端之家时间：2021-02-24

单例模式的五种实现方式及优缺点

单例模式（Singleton Design Pattern）保证一个类只能有一个实例，并提供一个全局访问点。

作者：前端之家时间：2021-02-24

组合模式-统一的处理个别对象与组合对象

组合模式可以将对象组合成树形结构来表示“整体-部分”的层次结构，使得客户可以用一致的方...

作者：前端之家时间：2021-02-24

装饰者模式-动态的包装原有对象的行为

装饰者模式能够更灵活的，动态的给对象添加其它功能，而不需要修改任何现有的底层代码。

作者：前端之家时间：2021-02-24

观察者模式-将消息通知给观察者

观察者模式（Observer Design Pattern）定义了对象之间的一对多依赖，当对象状态改变的时候...

作者：前端之家时间：2021-02-24

代理模式-访问对象的代理而非其本身

代理模式为对象提供一个代理，来控制对该对象的访问。代理模式在不改变原始类代码的情况下...

作者：前端之家时间：2021-02-24

编程分类

算法设计模式多媒体技术正则表达式 Elasticsearch Flink Hadoop IDE

最新文章