使用 MapReduce 创建超大巨型自动机

阅读更多关于《使用 MapReduce 创建超大巨型自动机》

一直以来,自动机的创建程序(adfa_build/dawg_build/kvbin_build 等)性能虽然尚可,以最常用的 adfa_build 来说,根据不同的输入文本,平均吞度量能达到每秒钟 5~20M 。这个速度看上去还不错,至少比竞品要快了许多,但是,如果有非常大的数据 继续阅读

Hadoop.MapReduce.简介

阅读更多关于《Hadoop.MapReduce.简介》

本文是2009年9月为公司内部培训写得的一篇简介。 继续阅读

通过管道向 hadoop put 文件

阅读更多关于《通过管道向 hadoop put 文件》

使用 hadoop file shell 可以方便地向 hdfs put 文件,但是,该 shell 不支持从管道读取数据并放到 hdfs 文件中。它仅支持这样的 put 命令: 继续阅读

MapReduce应该做更少的事情

阅读更多关于《MapReduce应该做更少的事情》

MapReduce 做的事情太多了。相比 unix 思想,它更多的是提供了一种策略(Policy),而非一种机制(Machanism)。

对于并行计算,如果我仅仅需要一种机制,暂且把这种机制叫做S,那么S只需要提供: 继续阅读

MultipleInputs/MultipleOutpus

阅读更多关于《MultipleInputs/MultipleOutpus》

仔细看了一下 Hadoop.MapReduce 的代码,发现了两个新类:MultipleInputs/MultipleOutpus,再仔细看它们的详细文档,的确实现了我想要的功能继续阅读

MapReduce做了多余的事情

阅读更多关于《MapReduce做了多余的事情》

本文假定读者已了解MapReduce

先说 Map

Map阶段一般做三件事情:

继续阅读

MapReduce Key Revert ——特定数据模式的负载均衡

阅读更多关于《MapReduce Key Revert ——特定数据模式的负载均衡》

符号、记法

其中{k,v}指一个Key,Value对,{..} 中第一个分量是Key,第二个是Value

[e]指一个集合,其中的元素为e。 [{k,v}]就指一个{k,v}的集合。

继续阅读