大数据应该是…
- 数据规模比处理它的能力增长更快
- 过去一些效果不错的方法和技术需要重做,因为扩展能力不行
- 算法不能假设所有数据都载入内存
- 管理数据本身成为一项主要任务
- 使用计算机集群或者多核处理器是必需品,并不是奢侈品
所以对你来说的大数据,可能在别人眼里就是小数据。but, who cares. 我们只在乎是否有足够的工具来使得,即使一个两三人的团队也可以在短时间构建起处理能力远超过我们普通台式机的集群,使得原本在台式机器上需要花费几个小时甚至几天的任务,在几分钟内就可以完成。
所以对你来说的大数据,可能在别人眼里就是小数据。but, who cares. 我们只在乎是否有足够的工具来使得,即使一个两三人的团队也可以在短时间构建起处理能力远超过我们普通台式机的集群,使得原本在台式机器上需要花费几个小时甚至几天的任务,在几分钟内就可以完成。