解决方法
Word文档格式(暂时忽略docx)是可怕的,并且不断变化. IMHO就是为什么有这么少(读:零)的
Ruby库来解析它们.
我建议做的是使用JRuby和一些已建立的Java库来阅读文档格式. Google应该帮助你:http://schmidt.devlib.org/java/libraries-word.html.
有一个Java项目,用于阅读MIcrosoft文件格式,POI(http://poi.apache.org/),他们确实有Ruby绑定(http://poi.apache.org/poi-ruby.html),但我不知道这些是最新的.在他们的网站上,它说Ruby绑定是1.8.2 …