自动机解压中的非递归算法
之前,自动机词典仅用来存储自然语言处理的语料、url、query 等单条数据很小的数据集,为了简单,解压算法用的是递归实现。前段时间对自动机进行了一个改进,可以压缩存储单条数据很大的数据集。于是,该发生的事情终于发生了:堆栈溢出,也叫爆栈! 继续阅读
之前,自动机词典仅用来存储自然语言处理的语料、url、query 等单条数据很小的数据集,为了简单,解压算法用的是递归实现。前段时间对自动机进行了一个改进,可以压缩存储单条数据很大的数据集。于是,该发生的事情终于发生了:堆栈溢出,也叫爆栈! 继续阅读
nark 数据库最重要的特性:高压缩并且拥有丰富、高效的查询能力。特别是高压缩,其他数据库都没有这个能力,你可能对此表示怀疑,本文提供的内容会打消你的疑虑。
实现上,不同于普通 Hash 或 Tree 结构的数据库,nark 数据库是基于自动机的,这决定了 nark 的强大与简洁,但是,最重要的是,nark 为大家提供了一整套解决方案。
因为自动机只有离线(offline)创建成只读数据库,才能为在线(online)计算 提供 最节省内存 并且 高速查找 的 功能。从而,绝大部分 nark 组件都分为离线(offline)建库 和 在线(online)搜索 两部分。
目前,离线建库以可执行程序的形式向所有用户开放,在线搜索以 C++ API 的形式仅向付费用户开放。
为了让所有用户在付费前体验 nark 的高性能,下载包中也包含了一些示例程序,大部分示例程序同时也是 benchmark 程序,所有用户都可以在自己的机器上运行这些示例程序。 继续阅读