全局压缩-革命性的数据库技术
全局压缩-革命性的数据库技术
背景
作为数据库,在系统资源(cpu, 内存, ssd, 磁盘 …) 一定的前提下,我们希望:
- 存储的数据更多:采用压缩,这个世界上有各种各样的压缩算法……
- 访问的速度更快:更快的 压缩(写)/解压(读) 算法,更大的缓存……
作为数据库,在系统资源(cpu, 内存, ssd, 磁盘 …) 一定的前提下,我们希望:
Mongodb 虽然是 schemaless (不需要 schema) 的文档数据库,但是,同一个表中的数据一般都有相同的结构,我们需要将这样的结构抽象出来,用以提高数据库的性能
terichdb 的数据有以下类型: 继续阅读
找了很多地方,最终的解决方案: 继续阅读
之前,自动机词典仅用来存储自然语言处理的语料、url、query 等单条数据很小的数据集,为了简单,解压算法用的是递归实现。前段时间对自动机进行了一个改进,可以压缩存储单条数据很大的数据集。于是,该发生的事情终于发生了:堆栈溢出,也叫爆栈! 继续阅读
奇简软件,“奇”字本身有“奇妙”、“奇特”,还有“非常”的意思,“简”字有“简单”、“简洁”,另外,还有“竹简”,也就是“书”、“知识”的意思,放在一起,有多重含义。
另外,“奇简”谐音“旗舰”,“那艘最顶级的船”就是圣经中的“诺亚方舟”了,英文名: Noah’s Ark ,可以简称 nark。 继续阅读
在使用 C++14 的新特性改进 febird dataio 序列化库时(参见: febird 序列化与 C++14 的新特性),发现了一个 gcc 的 bug,可以抽象出精简代码如下: 继续阅读
实现一个 C++ 容器时,都要提供 iterator, const_iterator, 一般情况下 iterator 和 const_iterator 几乎完全一样,不一样的地方仅在于: 继续阅读
为了保证输入效率,我们需要有一个从 词条拼音 到 词条汉字 的映射表,比如,拼音序列 ZiDongJi 对应的词条是 自动机 , 自冻鸡 ;从而,逻辑上讲,这是一个 map<string,list<string> >。 继续阅读