本网站仅单台服务器: 2核2G 99￥包年，集成兼容 MySQL 的 MyTopling 高压缩高性能数据库

本网站仅单台服务器: MyTopling 2核2G 99￥包年

当搜索词中有错别字时，搜索引擎会尝试纠错

通过相似拼音纠错

搜索引擎把这些字还原成拼音，用一个拼音相同的已知的搜索词代替。

这是一种众所周知的纠错策略，但是，当输错的字是多音字，特别是有多个这样的错误输入时，所有的搜索引擎都尽量绕开这个问题，或者仅使用最常用的那些音去纠错。因为要考虑所有可能的拼音组合，在极端情况下会导致指数爆炸！例如某互联网大厂的实现(枚举多音字全排列)。

基于自动机的算法可以完美解决这个指数爆炸问题

这是自动机应用的又一个绝佳范例，作为演示，这个页面只收录了 800万 条 搜索词+词频，数据也不太干净
该算法全部在内存中运行，使用了 293M 内存，这个数据量，如果用传统方法暴力实现，并且达到这个性能，需要 几十G 的内存
暴力方法是 Query 越长越可怕，该算法则是 Query 越长，优势越大
纠错耗时仅供参考(2核2G 99￥包年)，如果你看到搜索耗时过长，很可能是 mmap 数据被 swap 到了硬盘上，再搜索一次会得到客观的搜索耗时

这个算法也可以用来解决用户输入预测(智能提示)功能

用户只输入Query开头部分，就自动提示出整个Query，例如用户输入举头望，就提示出举头望明月。就像现在各种搜索引擎做的那样。

基于编辑距离的纠错

在已知的搜索词中寻找编辑距离与用户 Query 最小的词，使用我的算法也可以高效解决（还没做演示页面）

创建 DFA Key 与搜索 DFA Key 的耗时包含了收集网页展示需要的信息，耗时占比90%以上！

popcount & google.sparsegroup

作者: rockeet 发表日期: 2010年02月22日分类: C++, HashTable 评论: 0 条阅读次数: 4,447 次

ubuntu+gcc4.3 ，尝试修改 google.sparsetable 中的 sparsegroup，修改完成，不启用 -mpopcnt，sparsetable_unittest 和 hashtable_unittest 都通过了。启用-mpopcnt以后，发现硬件不支持，报非法指令错误，公司的电脑太烂了！继续阅读 →

google.sparsegroup 可以更好

作者: rockeet 发表日期: 2010年02月22日分类: C++, HashTable 评论: 1 条阅读次数: 4,329 次

sparsegroup 是 google.sparseXXXX （sparsehashmap）系列中最底层的一个数据结构，sparseXXX 的互相依赖如下: 继续阅读 →

google.tcmalloc 要点

作者: rockeet 发表日期: 2010年02月22日分类: C++ 评论: 0 条阅读次数: 3,119 次

线程缓存(thread cache)

加锁(locking)

加锁的开销是比较大的（cpu要同步 cache），一般要几十个时钟周期，特别是 cpu 较多的时候，锁冲突概率大大增加。继续阅读 →

[cmd] <<word
here-document
delimiter

继续阅读 →

通过管道向 hadoop put 文件

作者: rockeet 发表日期: 2010年02月05日分类: MapReduce, shell 评论: 0 条阅读次数: 3,896 次

使用 hadoop file shell 可以方便地向 hdfs put 文件，但是，该 shell 不支持从管道读取数据并放到 hdfs 文件中。它仅支持这样的 put 命令：继续阅读 →

shell 中验证管道是否正确执行

作者: rockeet 发表日期: 2010年02月05日分类: shell 评论: 0 条阅读次数: 3,908 次

象这样的 shell 代码： prog1 | prog2 | prog3 | prog4

$? 只能得到最后一个命令的返回值，该如何检查整个命令是否全部正确执行？

有一个数组变量PIPESTATUS，保存了最近一个管道命令中所有子命令的返回值

该返回值与 $? 一样，每次命令都会改写它，因此，要保存它就必须马上！

用以下代码可以检查管道命令:

prog1 | prog2 | prog3 | prog4
if [[ "0 0 0 0" == ${PIPESTATUS[*]} ]]
then
    echo success
else
    echo failed &gt;&amp;2
fi

prog1 | prog2 | prog3 | prog4

if [[ "0 0 0 0" == ${PIPESTATUS[*]} ]]

then

echo success

else

echo failed >&2

本网站仅单台服务器: 2核2G 99￥包年，集成兼容 MySQL 的 MyTopling 高压缩高性能数据库

本网站仅单台服务器: MyTopling 2核2G 99￥包年

当搜索词中有错别字时，搜索引擎会尝试纠错

通过相似拼音纠错

基于自动机的算法可以完美解决这个指数爆炸问题

这个算法也可以用来解决用户输入预测(智能提示)功能

基于编辑距离的纠错

创建 DFA Key 与搜索 DFA Key 的耗时包含了收集网页展示需要的信息，耗时占比90%以上！

popcount & google.sparsegroup

google.sparsegroup 可以更好

google.tcmalloc 要点

线程缓存(thread cache)

加锁(locking)

这样反贪如何？

google.sparsetable 实现细节

gcc 4.5

终于可以优雅的捕获 shell heredoc 内容了

shell heredoc 微妙之处

通过管道向 hadoop put 文件

shell 中验证管道是否正确执行

近期文章

近期评论

文章归档

分类目录

功能

本网站仅单台服务器: 2核2G 99￥包年，集成兼容 MySQL 的 MyTopling 高压缩高性能数据库

本网站仅单台服务器: MyTopling 2核2G 99￥包年

当搜索词中有错别字时，搜索引擎会尝试纠错

通过相似拼音纠错

基于自动机的算法可以完美解决这个指数爆炸问题

这个算法也可以用来解决用户输入预测(智能提示)功能

基于编辑距离的纠错

创建 DFA Key 与 搜索 DFA Key 的 耗时 包含了 收集网页展示需要的信息，耗时占比90%以上！

线程缓存(thread cache)

加锁(locking)

近期文章

近期评论

文章归档

分类目录

功能

创建 DFA Key 与搜索 DFA Key 的耗时包含了收集网页展示需要的信息，耗时占比90%以上！