侵权投诉
订阅
纠错
加入自媒体

大数据:70多个网站让你免费获取大数据存储库

2014-08-25 10:08
Radow
关注

  你是否需要大量的数据来检验你的APP性能?最简单的方法是从网上免费数据存储库下载数据样本。但这种方法最大的缺点是数据很少有独特的内容并且不一定能达到预期的结果。以下是70多家可以获得免费大数据存储库的网站。

  Wikipedia:Database :向感兴趣的用户提供所有可用的内容的免费副本。可以得到多种语言的数据。内容连同图片可以下载。

  Common crawl 建立并维护一个所有人都可以访问的开放的网络。这个数据保存在亚马逊s3bucket中,请求者可能花费一些钱来访问它。

  Common crawl :建立并维护一个开放的网络,向所有人开放。

  EDRM File Formats Data Set:由381个文件夹200种文件格式组成。

  Apache Mahout  TLP项目创建一个可扩展的机器学习算法。Mahout有许多免费的和付费的语料库语料。

  EDRM Enron Email Data Set v2由安然公司邮件信息和附件组成,存在两组可下载的压缩文件中:XML和PST。

  ClueWeb09用来支持信息检索和相关人类语言技术研究的资料库。它包含了从2009年1月到2月间收集的大约10亿个网页,包含10种语言。资料库被若干TREC会议的追踪检测使用。

  DMOZ –最大的、最全面的人工编辑的开放式网站目录。它收集了不同类型的网站链接。Dmoz是互联网搜索引擎的一个主要来源。

  theinfo.org –这是一个大数据集网站,在这里学者、设计师、艺术家等可以交流技巧和窍门,一起开发和共享工具,并开始整合他们独有的项目。

1  2  3  4  5  6  下一页>  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号