http://messymatters.com/calibration.
这个想法是给予置信区间并学习如何进行校准(当你“90%确定”时,你应该是90%的时间).
因此,我们正在寻找理想的数以千计的问题,具有明确的数值解答.
而且,他们不应该太无聊了.
有很多随机的统计数据 – 例如,不同国家的封闭水域 – 这将使游戏心灵麻木.
经典电影发行日期更为有趣(对大多数人来说).
我们发现的其他有趣的包括奥林匹克记录,不同职业的中位数收入,着名发明的日期和名人年龄.
顺便说一下,像上面那样刮东西,是我提出这个问题的原因:
Scrape HTML tables from a given URL into CSV
所以,如果你知道有趣的数字事实的其他来源(在一个可以理解的形式),我渴望指向他们.
谢谢!
解决方法
vgchartz.com有各种视频游戏和硬件性能表.
示例查询:
> Worldwide total sales of video game titles of all time
> Hardware sales between 01/03/2010 to 05/22/2010: Wii-PS3-X360 in America,Japan,UK,Australia
有足够数据的问题,如:
>在Y年/销售第一周销售的硬件/头衔X有多少?
>标题X超出标题Y(在他们各自的前N周的销售额)多少/什么比率?
流行音乐类
billboard.com是你需要的.
维基百科链接
> Billboard charts
> Billboard Hot 100
> Billboard 200
> Billboard Hot 100 50th Anniversary Charts
> List of best-charting U.S. music artists
> List of best-selling music artists
> Best-selling albums in the United States since Nielsen SoundScan tracking began
除了销售数字,您还可以询问关于图表位置的查询,例如:
>在图Z的Y类中,歌曲X放在哪里/艺术家X有多少首歌曲?
充分利用您的数据
您可以在绝大多数列表中做出明确的数字Q / A.以例如TIME.com All Time 100 Novels为例
可以询问的一些通用问题是:
>在给定的时间段内写了多少页?
>十年,一年,在乔治·布什总统9/11之前.
>这样的成对查询真的可以充分利用您的数据!
您可以使用任何给定的前100个列表来完成此操作:
> Time 100
> Time 100: The Most Important People of the Century
> Bravo’s 100 Greatest TV Characters
> TV Guide’s 100 Greatest Episodes of All Time
> List of most-watched television broadcasts
历史类别
historyorb.com就是一个例子. URL和HTML非常划伤.
> Calendar of Famous Birthdays,Deaths,Events
有很多类似的网站,例如brainyhistory.com.
您也可以使用这些日期与其他数据“交叉”(例如上面的前100个小说示例).
电影类别
The Internet Movie Database当然是互联网电影数据库!
> IMDb/USA Video Rentals Archive Calendar,All-Time World Wide Box Office
>“电影X,Y,Z总共多少钱?”
> The plain text data files(可通过FTP获取,请阅读copyright/license)