MapReduce | Terark & Topling 创始人雷鹏

使用 MapReduce 创建超大巨型自动机

作者: rockeet 发表日期: 2014年07月08日分类: MapReduce, 自动机评论: 1 条阅读次数: 12,020 次

一直以来，自动机的创建程序（adfa_build/dawg_build/kvbin_build 等）性能虽然尚可，以最常用的 adfa_build 来说，根据不同的输入文本，平均吞度量能达到每秒钟 5~20M 。这个速度看上去还不错，至少比竞品要快了许多，但是，如果有非常大的数据继续阅读 →

作者: csdn-whinah 发表日期: 2011年10月18日分类: MapReduce 评论: 0 条阅读次数: 4,199 次

本文是2009年9月为公司内部培训写得的一篇简介。继续阅读 →

作者: rockeet 发表日期: 2010年02月05日分类: MapReduce, shell 评论: 0 条阅读次数: 3,928 次

使用 hadoop file shell 可以方便地向 hdfs put 文件，但是，该 shell 不支持从管道读取数据并放到 hdfs 文件中。它仅支持这样的 put 命令：继续阅读 →

作者: rockeet 发表日期: 2010年02月05日分类: MapReduce 评论: 0 条阅读次数: 5,271 次

MapReduce 做的事情太多了。相比 unix 思想，它更多的是提供了一种策略(Policy)，而非一种机制(Machanism)。

对于并行计算，如果我仅仅需要一种机制，暂且把这种机制叫做S，那么S只需要提供：继续阅读 →

作者: rockeet 发表日期: 2010年02月05日分类: MapReduce 评论: 0 条阅读次数: 3,264 次

仔细看了一下 Hadoop.MapReduce 的代码，发现了两个新类：MultipleInputs/MultipleOutpus，再仔细看它们的详细文档，的确实现了我想要的功能：继续阅读 →

作者: rockeet 发表日期: 2009年10月27日分类: MapReduce 评论: 0 条阅读次数: 3,766 次

本文假定读者已了解MapReduce。

Map阶段一般做三件事情：

作者: rockeet 发表日期: 2009年10月27日分类: MapReduce 评论: 0 条阅读次数: 3,631 次

其中{k,v}指一个Key,Value对，{..} 中第一个分量是Key，第二个是Value。

[e]指一个集合，其中的元素为e。 [{k,v}]就指一个{k,v}的集合。