Terark & Topling 创始人雷鹏 | 没有上限，只有突破

本网站仅单台服务器: 2核2G 99￥包年，集成兼容 MySQL 的 MyTopling 高压缩高性能数据库

本网站仅单台服务器: MyTopling 2核2G 99￥包年

当搜索词中有错别字时，搜索引擎会尝试纠错

通过相似拼音纠错

搜索引擎把这些字还原成拼音，用一个拼音相同的已知的搜索词代替。

这是一种众所周知的纠错策略，但是，当输错的字是多音字，特别是有多个这样的错误输入时，所有的搜索引擎都尽量绕开这个问题，或者仅使用最常用的那些音去纠错。因为要考虑所有可能的拼音组合，在极端情况下会导致指数爆炸！例如某互联网大厂的实现(枚举多音字全排列)。

基于自动机的算法可以完美解决这个指数爆炸问题

这是自动机应用的又一个绝佳范例，作为演示，这个页面只收录了 800万 条 搜索词+词频，数据也不太干净
该算法全部在内存中运行，使用了 293M 内存，这个数据量，如果用传统方法暴力实现，并且达到这个性能，需要 几十G 的内存
暴力方法是 Query 越长越可怕，该算法则是 Query 越长，优势越大
纠错耗时仅供参考(2核2G 99￥包年)，如果你看到搜索耗时过长，很可能是 mmap 数据被 swap 到了硬盘上，再搜索一次会得到客观的搜索耗时

这个算法也可以用来解决用户输入预测(智能提示)功能

用户只输入Query开头部分，就自动提示出整个Query，例如用户输入举头望，就提示出举头望明月。就像现在各种搜索引擎做的那样。

基于编辑距离的纠错

在已知的搜索词中寻找编辑距离与用户 Query 最小的词，使用我的算法也可以高效解决（还没做演示页面）

创建 DFA Key 与搜索 DFA Key 的耗时包含了收集网页展示需要的信息，耗时占比90%以上！

多正则表达式匹配的应用

作者: rockeet 发表日期: 2014年12月10日分类: 自动机评论: 0 条阅读次数: 6,433 次

搜索引擎 Query 分析

Query 意图分析

定义一批规则（正则表达式），每条规则表达一种搜索的意图，例如问路、吃饭、看病、查找ip、查找电话、小说、软件下载…… 继续阅读 →

奇简软件名字的故事

作者: rockeet 发表日期: 2014年11月23日分类: 未分类评论: 0 条阅读次数: 3,157 次

奇简软件，“奇简”谐音“旗舰”，“那艘最顶级的船”就是圣经中的“诺亚方舟”了，英文名: Noah’s Ark ，可以简称 nark。继续阅读 →

支持并、交、差的正则表达式引擎

作者: rockeet 发表日期: 2014年09月08日分类: 自动机评论: 0 条阅读次数: 17,588 次

先强调一点，在我的引擎中，所有正则表达式的语法结构，包括并、交、差、补都是在编译时完成的，对匹配性能无任何影响，切记！…… 现在可以开始了：

正则表达式，描述的是正则语言，学过形式语言与自动机理论的人应该都知道，正则语言在并、交、差、补运算下都是封闭的；但是，根据 Wikipedia 的描述，到目前为止，还没有任何一个已知的正则流派(Flavor)将交和差纳入正则语法。理论与实践之间竟然隔着这么巨大的鸿沟！

并：	A \|\| B	能匹配 A 或者能匹配 B	这三种操作都可以编译为 DFA，从而非常高效地执行匹配
交：	A && B	能匹配 A 并且能匹配 B
差：	A &! B	能匹配 A 但不能匹配 B，即从 A 中排除 B

继续阅读 →

nark 序列化与 C++14 的新特性

作者: rockeet 发表日期: 2014年08月26日分类: C++ 评论: 0 条阅读次数: 5,321 次

nark C++ 序列化库尽管性能优异，但是C++14以前，在某些情况下想要完全发挥性能优势，需要额外声明 DATA_IO_DUMP_RAW_MEM。

只是因为受制于 C++ 的语法限制，无法实现自动推导所有的 Dumpable 对象——可以 memcpy 的对象：继续阅读 →

发现 gcc bug: error: non-static data member declared ‘auto’

作者: rockeet 发表日期: 2014年08月26日分类: 未分类评论: 0 条阅读次数: 5,778 次

在使用 C++14 的新特性改进 febird dataio 序列化库时(参见: febird 序列化与 C++14 的新特性)，发现了一个 gcc 的 bug，可以抽象出精简代码如下：继续阅读 →

C++ 实现容器时，写 iterator 很烦

作者: rockeet 发表日期: 2014年07月24日分类: 未分类评论: 0 条阅读次数: 4,154 次

实现一个 C++ 容器时，都要提供 iterator, const_iterator, 一般情况下 iterator 和 const_iterator 几乎完全一样，不一样的地方仅在于：继续阅读 →

用自动机表达嵌套的数据

作者: rockeet 发表日期: 2014年07月14日分类: 自动机评论: 0 条阅读次数: 6,922 次

嵌套数据的典型就是文件系统的目录层次，XML，JSON 等，它们都有专门的存储方式。不过，如果用自动机来存储，更是恰到好处，在这种应用场景中，使用这篇文章中提到的 map2：将路径的每层目录用分隔符隔开，比如用 / 分隔。继续阅读 →

一个模式识别问题

作者: rockeet 发表日期: 2014年07月10日分类: 算法评论: 0 条阅读次数: 3,967 次

任意两个字符串 s, t，如果能找到一种替换方式，对 t 中的每个字符 a ，用 s 中的一个字符 b 替换，最后得到一个字符串 t’，如果 t’ 与 s 相同，用符号计作 s->t；如果 s->t 且 t->s，我们称 s 与 t 等价。

例如，下面 4 个字符串就是（互相）等价的：继续阅读 →

使用 MapReduce 创建超大巨型自动机

作者: rockeet 发表日期: 2014年07月08日分类: MapReduce, 自动机评论: 1 条阅读次数: 8,669 次

一直以来，自动机的创建程序（adfa_build/dawg_build/kvbin_build 等）性能虽然尚可，以最常用的 adfa_build 来说，根据不同的输入文本，平均吞度量能达到每秒钟 5~20M 。这个速度看上去还不错，至少比竞品要快了许多，但是，如果有非常大的数据继续阅读 →

binary tree walk

作者: rockeet 发表日期: 2014年07月08日分类: 算法评论: 0 条阅读次数: 3,497 次

简单，优美，的代码，你能看出来哪些是二叉树的后序、前序、中序遍历吗？你还知道二叉树有什么遍历方法？继续阅读 →

本网站仅单台服务器: 2核2G 99￥包年，集成兼容 MySQL 的 MyTopling 高压缩高性能数据库

本网站仅单台服务器: MyTopling 2核2G 99￥包年

当搜索词中有错别字时，搜索引擎会尝试纠错

通过相似拼音纠错

基于自动机的算法可以完美解决这个指数爆炸问题

这个算法也可以用来解决用户输入预测(智能提示)功能

基于编辑距离的纠错

创建 DFA Key 与搜索 DFA Key 的耗时包含了收集网页展示需要的信息，耗时占比90%以上！

多正则表达式匹配的应用

搜索引擎 Query 分析

Query 意图分析

奇简软件名字的故事

支持并、交、差的正则表达式引擎

nark 序列化与 C++14 的新特性

发现 gcc bug: error: non-static data member declared ‘auto’

C++ 实现容器时，写 iterator 很烦

用自动机表达嵌套的数据

一个模式识别问题

使用 MapReduce 创建超大巨型自动机

binary tree walk

近期文章

近期评论

文章归档

分类目录

功能

本网站仅单台服务器: 2核2G 99￥包年，集成兼容 MySQL 的 MyTopling 高压缩高性能数据库

本网站仅单台服务器: MyTopling 2核2G 99￥包年

当搜索词中有错别字时，搜索引擎会尝试纠错

通过相似拼音纠错

基于自动机的算法可以完美解决这个指数爆炸问题

这个算法也可以用来解决用户输入预测(智能提示)功能

基于编辑距离的纠错

创建 DFA Key 与 搜索 DFA Key 的 耗时 包含了 收集网页展示需要的信息，耗时占比90%以上！

搜索引擎 Query 分析

Query 意图分析

近期文章

近期评论

文章归档

分类目录

功能

创建 DFA Key 与搜索 DFA Key 的耗时包含了收集网页展示需要的信息，耗时占比90%以上！