对于Makefiles,有很多不错的选择,屁股很多.
在进行各种项目(我是研究科学家“data scientist”或其他任何事情)时,我经常发现自己从磁盘上的几个数据对象开始,从那些生成各种工件,从这些工件生成工件,等等上.
如果我可以说“这个对象取决于这些其他对象”,“这个对象是以这些对象的以下方式创建的”,然后再问一个Make-like框架来处理实际构建它们的细节,这将是很好的,找出哪些对象需要更新,将工作归功于多个处理器(如Make的-j选项)等等. Makefile可以做到这一切 – 但是巨大的问题是所有的操作都必须写成shell命令.如果我在R或Perl或其他类似的环境中工作,这不方便.此外,Make中的强烈假设是所有目标都是文件 – 有一些例外和解决方法,但如果我的目标是例如数据库中的行,这将是相当痛苦.
要清楚,我不是在一个软件构建系统之后.我对某些(更一般地)处理文物的依赖网页感兴趣.
任何人都知道这些依赖网络的框架?似乎这样可能是做数据科学的好工具,在视觉上显示如何产生结果等.
最近我看到的一个非常有趣的例子是IncPy,但是看起来它在很长一段时间里并没有被触动,它与Python非常紧密地结合在一起.这可能比我希望的更加雄心勃勃,这就是为什么它必须与Python紧密结合在一起.
抱歉的模糊的问题,让我知道如果一些澄清会有所帮助.
今天宣布了一个名为“德雷克”的新系统,针对这个确切情况:
http://blog.factual.com/introducing-drake-a-kind-of-make-for-data.看起来很有希望,虽然我还没有尝试过.