关于我们

我们已使用 terark.com 进行商业化运营

公司简介

这个世界上有太多哗众取宠的产品,太多华而不实的技术,也应该有一家专注于技术的公司……

我们的产品

NoSQL
数据库

不同于普通 Hash 或 Tree 结构的数据库,nark 数据库是基于自动机

  1. 提供普通数据库的精确查找、范围查找、前缀查找
  2. 高效支持正则表达式查找,仅用几十微秒,就能在包含数亿条记录的数据库中找到结果
  3. 内存用量非常低,索引结构(即全部数据)是高度压缩的!
    • 因为高度压缩,整个数据库完全装在内存中,查找过程无任何硬盘访问
    • 使用 mmap ,瞬间即可加载整个数据库,真正实现“一次建库,到处使用”
    • 支持 MapReduce 并行建库,适应高速创建超大数据库的需求
  4. 举个极端的例子:一个841M 的 url 列表,被压缩到只有6.4M,压缩率高达131:1
    • 哪怕是只比较压缩率,都远超主流压缩软件(bzip2只压缩到37M,压缩率23:1
    • 而与此同时,从中查找一条 url 只需要600纳秒

智能纠错

Demo 见首页,这本质上可以认为是用正则表达式查找数据库,不过这个“正则表达式”不是人手写的,而是从搜索词创建了一个DFA, 这个DFA自然有某正则表达式与它对应。

规则引擎

每条规则是一个高级正则表达式,假如配置了10万条规则,现在有一个字符串(比如一条网络消息),要看这个字符串能匹配那个(或哪些)规则,我们的规则引擎只需要几微秒的时间就能得到结果。应用案例:某互联网公司的查询词分类(Query意图识别)、某公司的短信网关、某网络设备商的入侵检测……
一个简化的场景是规则只包含需要精确匹配的二进制串,可以使用我们实现的AC自动机,Benchmark 中 2000 个 pattern , 匹配性能高达 720MB/s

联系我们

email: rockeet at 163 dot com
qq: 20409170

我们已使用 terark.com 进行商业化运营

发表评论

您必须 登录 后才能发表评论。