TL; DR
我有一个表,每月有大约200万个WRITE,0个读数.每月的第一天,我需要阅读上个月写的所有行,并生成CSV统计信息.
在这种情况下如何使用DynamoDB?如何选择读取吞吐量?
详细描述
我有一个应用程序记录客户端请求.它有大约200个客户端.客户需要在一个月的每一个第一天收到所有请求的CSV.他们还需要收费,为此,我们需要根据请求计算一些统计信息,并按请求类型进行分组.
所以在月底,客户端会收到如下的报告:
第一个解决方案:好的,每个月的最后一天我增加了读取吞吐量,然后我运行一个地图缩小工作.当作业完成后,我将容量减小到原来的值.
缺点:没有完全自动化,当工作开始时,DynamoDB的容量不可用.
第二个解决方案:我可以以CSV或我可以在S3上存储部分CSV,每月的第一天可以加入这些文件并生成一个新的.统计数据将更容易生成,只是从每日/每小时统计得出的一些计算结果.
缺点:我觉得我把一些简单的东西变成一些复杂的东西.