我们的目标是在集群上实现分布式系统,该集群将使用大量存储I / O执行资源消耗的基于图像的计算,具有以下特征:
>有一个专用的管理器计算机节点和多达100个计算节点.群集必须易于扩展.
>它围绕工作任务概念构建.一份工作可能有一到100,000个任务.
>由用户在管理器节点上启动的作业将导致在计算节点上创建任务.
>任务即时创建其他任务.
>某些任务可能会运行几分钟,而其他任务可能需要几个小时.
>任务根据依赖关系层次结构运行,可以动态更新.
>作业可能会暂停并稍后恢复.
>每个任务都需要cpu(核心),内存和本地硬盘空间方面的特定资源.在安排任务时,经理应该意识到这一点.
>任务将他们的进度和结果告诉经理.
>经理知道任务是活着还是被绞死.
我们发现Windows HPC Server 2008(HPCS)R2的概念与我们的需求非常接近.但是,有一些关键的缺点:
>随着任务数量的增加,任务的创建速度呈指数级增长.提交超过数千个任务在时间上是无法忍受的.
>任务无法将其进度报告给经理,只有工作可以.
>在运行时期间没有与任务进行通信,这使得无法检查任务是否正在运行或是否需要重新启动.
> HPCS仅将节点,cpu核心和内存视为资源单元.我们不能引入自己的资源单元(如可用磁盘空间,自定义硬件设备等).
这是我的问题:有没有人知道和/或有过分布式计算框架的经验可以帮助我们?我们正在使用Windows.