2月 | Terark & Topling 创始人雷鹏

自动机解压中的非递归算法

作者: rockeet 发表日期: 2015年02月14日分类: 未分类评论: 0 条阅读次数: 7,543 次

之前，自动机词典仅用来存储自然语言处理的语料、url、query 等单条数据很小的数据集，为了简单，解压算法用的是递归实现。前段时间对自动机进行了一个改进，可以压缩存储单条数据很大的数据集。于是，该发生的事情终于发生了：堆栈溢出，也叫爆栈！继续阅读 →

作者: rockeet 发表日期: 2015年02月01日分类: 自动机评论: 0 条阅读次数: 17,354 次

nark 数据库最重要的特性：高压缩并且拥有丰富、高效的查询能力。特别是高压缩，其他数据库都没有这个能力，你可能对此表示怀疑，本文提供的内容会打消你的疑虑。

实现上，不同于普通 Hash 或 Tree 结构的数据库，nark 数据库是基于自动机的，这决定了 nark 的强大与简洁，但是，最重要的是，nark 为大家提供了一整套解决方案。

因为自动机只有离线(offline)创建成只读数据库，才能为在线(online)计算提供最节省内存 并且 高速查找 的功能。从而，绝大部分 nark 组件都分为离线(offline)建库 和 在线(online)搜索 两部分。

目前，离线建库以可执行程序的形式向所有用户开放，在线搜索以 C++ API 的形式仅向付费用户开放。

为了让所有用户在付费前体验 nark 的高性能，下载包中也包含了一些示例程序，大部分示例程序同时也是 benchmark 程序，所有用户都可以在自己的机器上运行这些示例程序。继续阅读 →