算法 | Terark & Topling 创始人雷鹏

通用的 LoserTree

作者: rockeet 发表日期: 2008年04月22日分类: C++, 算法评论: 0 条阅读次数: 3,110 次

– 共有 n 个内部结点，n 个外部结点
– winner 只用于初始化时计算败者树，算完后即丢弃
– winner/loser 的第 0 个单元都不是内部结点，不属于树中的一员
– winner 的第 0 个单元未用
– m_tree 的第 0 个单元用于保存最终的赢者, 其它单元保存败者

– 该初始化需要的 n-1 次比较，总的时间复杂度是 O(n)

– 严蔚敏&吴伟民的 LoserTree 初始化复杂度是 O(n*log(n))，并且还需要一个 min_key,
但是他们的初始化不需要额外的 winner 数组

– 并且，这个实现比严蔚敏&吴伟民的 LoserTree 初始化更强壮

其中引用的一些代码比较长，故未贴出

#define LT_iiter_traits typename std::iterator_traits<typename std::iterator_traits<RandIterOfInput>::value_type>

template< class RandIterOfInput

, class KeyType = LT_iiter_traits::value_type

, bool StableSort = false //!< same Key in various way will output by way order

, class Compare = std::less<KeyType>

, class KeyExtractor = typename boost::mpl::if_c<

boost::is_same<KeyType,

LT_iiter_traits::value_type

>::value,

boost::multi_index::identity<KeyType>,

MustProvideKeyExtractor

>::type

, CacheLevel HowCache = cache_default

>

class LoserTree :

public CacheStrategy< typename std::iterator_traits<RandIterOfInput>::value_type

, KeyType

, KeyExtractor

, HowCache

>,

public MultiWay_SetOP< LT_iiter_traits::value_type

, KeyType

, LoserTree<RandIterOfInput, KeyType, StableSort, Compare, KeyExtractor, HowCache>

>

{

DECLARE_NONE_COPYABLE_CLASS(LoserTree)

typedef CacheStrategy< typename std::iterator_traits<RandIterOfInput>::value_type

, KeyType

, KeyExtractor

, HowCache

>

super;

friend class MultiWay_SetOP< LT_iiter_traits::value_type

, KeyType

, LoserTree<RandIterOfInput, KeyType, StableSort, Compare, KeyExtractor, HowCache>

>;

public:

typedef typename std::iterator_traits<RandIterOfInput>::value_type way_iter_t;

typedef typename std::iterator_traits<way_iter_t >::value_type value_type;

typedef KeyType key_type;

typedef KeyExtractor key_extractor;

typedef boost::integral_constant<bool, StableSort> is_stable_sort;

typedef typename super::cache_category cache_category;

typedef typename super::cache_item_type cache_item_type;

public:

/**

@brief construct

@par 图示如下：

@code

RandIterOfInput this is guard value

|| ||

/ /

first–> 0 way_iter_t [min_value…………………….max_value]

/ 1 way_iter_t [min_value…………………….max_value] <— 每个序列均已

| 2 way_iter_t [min_value…………………….max_value] 按 comp 排序

| 3 way_iter_t [min_value…………………….max_value]

< 4 way_iter_t [min_value…………………….max_value]

| 5 way_iter_t [min_value…………………….max_value]

| 7 way_iter_t [min_value…………………….max_value]

8 way_iter_t [min_value…………………….max_value]

last—> end

@endcode

@param comp value 的比较器

@note 每个序列最后必须要有一个 max_value 作为序列结束标志，否则会导致未定义行为

*/

LoserTree(RandIterOfInput first, RandIterOfInput last,

const KeyType& max_key,

const Compare& comp = Compare(),

const KeyExtractor& keyExtractor = KeyExtractor())

{

init(first, last, max_key, comp, keyExtractor);

}

LoserTree(RandIterOfInput first, int length,

const KeyType& max_key,

const Compare& comp = Compare(),

const KeyExtractor& keyExtractor = KeyExtractor())

{

init(first, first + length, max_key, comp, keyExtractor);

}

// LoserTree(RandIterOfInput first, RandIterOfInput last,

// const cache_item_type& min_item,

// const cache_item_type& max_item,

// const KeyType& max_key,

// const Compare& comp = Compare(),

// const KeyExtractor& keyExtractor = KeyExtractor())

// {

// init_yan_wu(first, last, min_item, max_item, comp, keyExtractor);

// }

// LoserTree(RandIterOfInput first, int length,

// const cache_item_type& min_item, // yan_wu init need

// const cache_item_type& max_item,

// const KeyType& max_key,

// const Compare& comp = Compare(),

// const KeyExtractor& keyExtractor = KeyExtractor())

// {

// init_yan_wu(first, first + length, min_item, max_item, comp, keyExtractor);

// }

LoserTree()

{

}

/**

@brief 初始化

– 共有 n 个内部结点，n 个外部结点

– winner 只用于初始化时计算败者树，算完后即丢弃

– winner/loser 的第 0 个单元都不是内部结点，不属于树中的一员

– winner 的第 0 个单元未用

– m_tree 的第 0 个单元用于保存最终的赢者, 其它单元保存败者

– 该初始化需要的 n-1 次比较，总的时间复杂度是 O(n)

– 严蔚敏&吴伟民的 LoserTree 初始化复杂度是 O(n*log(n))，并且还需要一个 min_key,

但是他们的初始化不需要额外的 winner 数组

– 并且，这个实现比严蔚敏&吴伟民的 LoserTree 初始化更强壮

*/

void init(RandIterOfInput first, RandIterOfInput last,

const KeyType& max_key,

const Compare& comp = Compare(),

const KeyExtractor& keyExtractor = KeyExtractor())

{

m_comp = comp;

m_key_extractor = keyExtractor;

m_beg = first;

m_end = last;

m_max_key = max_key;

int len = int(last – first);

if (0 == len)

{

throw std::logic_error("LoserTree: way sequence must not be empty");

}

m_tree.resize(len);

this->resize_cache(len);

int i;

for (i = 0; i != len; ++i)

{

// read first value from every sequence

this->input_cache_item(i, *(first+i));

}

if (1 == len)

{

m_tree[0] = 0;

return;

}

int minInnerToEx = len / 2;

std::vector<int> winner(len);

for (i = len – 1; i > minInnerToEx; —i)

{

exter_loser_winner(m_tree[i], winner[i], i, len);

}

int left, right;

if (len & 1) // odd

{ // left child is last inner node, right child is first external node

left = winner[len–1];

right = 0;

}

else

{

left = 0;

right = 1;

}

get_loser_winner(m_tree[minInnerToEx], winner[minInnerToEx], left, right);

for (i = minInnerToEx; i > 0; i /= 2)

{

for (int j = i–1; j >= i/2; —j)

{

inner_loser_winner(m_tree[j], winner[j], j, winner);

}

m_tree[0] = winner[1];

}

//! 严蔚敏&吴伟民的 LoserTree 初始化

//! 复杂度是 O(n*log(n))，并且还需要一个 min_key

void init_yan_wu(RandIterOfInput first, RandIterOfInput last,

const cache_item_type& min_item,

const cache_item_type& max_item,

const Compare& comp = Compare(),

const KeyExtractor& keyExtractor = KeyExtractor())

{

//! this function do not support cache_none

BOOST_STATIC_ASSERT(HowCache != cache_none);

assert(first < last); // ensure that will not construct empty loser tree

m_comp = comp;

m_key_extractor = keyExtractor;

m_beg = first;

m_end = last;

m_max_key = this->key_from_cache_item(max_item);

int len = int(last – first);

m_tree.resize(len);

this->resize_cache(len+1);

this->set_cache_item(len, min_item);

int i;

for (i = 0; i != len; ++i)

{

m_tree[i] = len;

// read first value from every sequence

this->input_cache_item(i, *(first+i));

}

for (i = len–1; i >= 0; —i)

ajust(i);

// 防止 cache 的最后一个成员上升到 top ??…..

//

this->set_cache_item(len, max_item);

// assert(!m_tree.empty());

// if (m_tree[0] == len)

// ajust(len); // 会导致在 ajust 中 m_tree[parent] 越界

}

const value_type& current_value() const

{

assert(!m_tree.empty());

// assert(!is_end()); // 允许访问末尾的 guardValue, 便于简化 app

return current_value_aux(cache_category());

}

/**

@brief return current way NO.

*/

int current_way() const

{

assert(!m_tree.empty());

assert(!is_end());

return m_tree[0];

}

size_t total_ways() const

{

return m_tree.size();

}

bool is_any_way_end() const

{

return is_end();

}

bool is_end() const

{

assert(!m_tree.empty());

const KeyType& cur_key = get_cache_key(m_tree[0], cache_category());

return !m_comp(cur_key, m_max_key); // cur_key >= max_value

}

void increment()

{

assert(!m_tree.empty());

assert(!is_end());

int top = m_tree[0];

input_cache_item(top, ++*(m_beg + top));

ajust(top);

}

void ajust_for_update_top()

{

assert(!m_tree.empty());

int top = m_tree[0];

input_cache_item(top, *(m_beg + top));

ajust(top);

}

way_iter_t& top()

{

assert(!m_tree.empty());

return *(m_beg + m_tree[0]);

}

void reserve(int maxTreeSize)

{

m_tree.reserve(maxTreeSize);

resize_cache(maxTreeSize);

}

protected:

void ajust(int s)

{

int parent = int(s + m_tree.size()) >> 1;

while (parent > 0)

{

if (comp_cache_item(m_tree[parent], s, cache_category(), is_stable_sort()))

{

std::swap(s, m_tree[parent]);

}

parent >>= 1;

}

m_tree[0] = s;

}

void exter_loser_winner(int& loser, int& winner, int parent, int len) const

{

int left = 2 * parent – len;

int right = left + 1;

get_loser_winner(loser, winner, left, right);

}

void inner_loser_winner(int& loser, int& winner, int parent, const std::vector<int>& winner_vec) const

{

int left = 2 * parent;

int right = 2 * parent + 1;

left = winner_vec[left];

right = winner_vec[right];

get_loser_winner(loser, winner, left, right);

}

void get_loser_winner(int& loser, int& winner, int left, int right) const

{

if (comp_cache_item(left, right, cache_category(), is_stable_sort()))

{

loser = right;

winner = left;

}

else

{

loser = left;

winner = right;

}

const value_type& current_value_aux(tag_cache_none) const

{

assert(m_tree[0] < int(m_tree.size()));

return **(m_beg + m_tree[0]);

}

const value_type& current_value_aux(tag_cache_key) const

{

assert(m_tree[0] < int(m_tree.size()));

return **(m_beg + m_tree[0]);

}

const value_type& current_value_aux(tag_cache_value) const

{

assert(m_tree[0] < int(m_tree.size()));

return this->m_cache[m_tree[0]];

}

using super::get_cache_key;

inline const KeyType get_cache_key(int nth, tag_cache_none) const

{

return this->m_key_extractor(**(m_beg + nth));

}

template<class CacheCategory>

inline bool comp_cache_item(int x, int y,

CacheCategory cache_tag,

boost::true_type isStableSort) const

{

return comp_key_stable(x, y,

get_cache_key(x, cache_tag),

get_cache_key(y, cache_tag),

typename HasTriCompare<Compare>::type());

}

bool comp_key_stable(int x, int y, const KeyType& kx, const KeyType& ky,

boost::true_type hasTriCompare) const

{

int ret = m_comp.compare(kx, ky);

if (ret < 0)

return true;

if (ret > 0)

return false;

ret = m_comp.compare(kx, m_max_key);

assert(ret <= 0);

if (0 == ret)

return false;

else

return x < y;

}

bool comp_key_stable(int x, int y, const KeyType& kx, const KeyType& ky,

boost::false_type hasTriCompare) const

{

if (m_comp(kx, ky))

return true;

if (m_comp(ky, kx))

return false;

if (!m_comp(kx, m_max_key)) // kx >= max_key –> kx == max_key

{ // max_key is the max, so must assert this:

assert(!m_comp(m_max_key, kx));

return false;

}

else return x < y;

}

template<class CacheCategory>

inline bool comp_cache_item(int x, int y,

CacheCategory cache_tag,

boost::false_type isStableSort) const

{

return m_comp(get_cache_key(x, cache_tag), get_cache_key(y, cache_tag));

}

protected:

KeyType m_max_key;

std::vector<int> m_tree;

RandIterOfInput m_beg;

RandIterOfInput m_end;

Compare m_comp;

};

使用示例：

// test_multi_way.cpp : Defines the entry point for the console application.

//

#include "stdafx.h"

using namespace std;

using namespace febird;

//using namespace febird::prefix_zip;

using namespace febird::multi_way;

template<class _Cont>

void printResult(const char* title, const _Cont& result)

{

cout << title << ": ";

for (typename _Cont::const_iterator i = result.begin(); i != result.end(); ++i)

cout << *i << ",";

cout << endl;

}

template<class _Cont>

void printKeyValue(const char* title, const _Cont& result)

{

cout << title << ": ";

for (typename _Cont::const_iterator i = result.begin(); i != result.end(); ++i)

cout << "(" << result.key(i) << "," << *i << "),";

cout << endl;

}

template<class _Cont>

void printPairCont(const char* title, const _Cont& result)

{

cout << title << ": ";

for (typename _Cont::const_iterator i = result.begin(); i != result.end(); ++i)

cout << "(" << i->first << "," << i->second << "),";

cout << endl;

}

int main(int argc, char* argv[])

{

// cout << setw(5) << setiosflags(ios::right) << 100 << setw(20) << setiosflags(ios::left) << "abcd" << endl;

// cout << setw(5) << setiosflags(ios::right) << 100 << setw(20) << left << "abcd" << endl;

int ivals[][11] =

{

{1, 8, 20, 31, 47, 54, 75, 82, 93, 99, INT_MAX},

{1, 7, 20, 30, 48, 53, 76, 81, 95, 98, INT_MAX},

{3, 6, 17, 20, 35, 42, 49, 73, 90, 91, INT_MAX},

{2, 4, 19, 20, 46, 51, 73, 88, 96, 97, INT_MAX},

{2, 4, 15, 20, 46, 51, 73, 88, 96, 97, INT_MAX},

};

vector<int> intersect;

vector<int> unionvec;

vector<int*> ilower, iupper;

for (int i = 0; i < 5; ++i) ilower.push_back(ivals[i]);

for (int i = 0; i < 5; ++i) iupper.push_back(ivals[i] + 10);

LoserTree<vector<int*>::iterator> loserTree(ilower.begin(), ilower.end(), INT_MAX);

loserTree.intersection(back_inserter(intersect));

for (int i = 0; i < 5; ++i) ilower.push_back(ivals[i]);

loserTree.init(ilower.begin(), ilower.end(), INT_MAX);

loserTree.union_set(back_inserter(unionvec));

vector<int> v1;

copy(&ivals[0][0], &ivals[5][0], back_inserter(v1));

printResult("all_values", v1);

printResult("intersection_result", intersect);

printResult("union_result", unionvec);

vector<pair<int*, int*> > range, range2;

for (int i = 0; i < 5; ++i)

{

range.push_back(make_pair(ivals[i], ivals[i] + 10));

}

intersect.clear();

range2 = range;

HeapMultiWay<vector<pair<int*, int*> >::iterator> heap(range.begin(), range.end());

heap.intersection(back_inserter(intersect));

printResult("intersection_result2", intersect);

range = range2;

{

vector<int> copyset;

heap.init(range.begin(), range.end());

heap.copy_if2(back_inserter(copyset), MultiWay_CopyAtLeastDup(3));

printResult("MultiWay_CopyAtLeastDup(3)", copyset);

}

range = range2;

{

map<int, int> counting;

heap.init(range.begin(), range.end());

heap.copy_if2((int*)(0), MultiWay_GetCountTable(counting, 2));

printPairCont("MultiWay_GetCountMap", counting);

}

range = range2;

{

vector<pair<int, int> > counting;

heap.init(range.begin(), range.end());

heap.copy_if2((int*)(0), MultiWay_GetCountSequence(counting, 2));

printPairCont("MultiWay_GetCountSequence", counting);

}

range = range2;

{

// MultiWayTable<int, int> counting(16);

map<int, int> counting;

heap.init(range.begin(), range.end());

heap.copy_if2((int*)(0), MultiWay_GetCountTable(counting, 2));

// printKeyValue("MultiWay_GetCountTable", counting);

printPairCont("MultiWay_GetCountTable", counting);

}

range = range2;

{

// PackedTable<int, int> counting;

map<int, int> counting;

heap.init(range.begin(), range.end());

heap.copy_if2((int*)(0), MultiWay_GetCountTable(counting, 2));

// printKeyValue("MultiWay_GetCountTable", counting);

printPairCont("MultiWay_GetCountTable", counting);

}

return 0;

}

数据库集合查询的优化

作者: rockeet 发表日期: 2008年01月12日分类: 算法评论: 0 条阅读次数: 2,775 次

有一个应用，需要经常做类似这样的查询 select * from SomeTable where key in (KeySet) ，其中 KeySet 可能很大，比如包含几百甚至几千个元素。理想中的情况，数据库应该先在 BTree 中查找到 KeySet 中的 Key 所在的物理页面地址，然后再对这物理地址排序，最后按顺序读入这些页面内容并填充结果。如果这样做，那么在最坏情况下，KeySet 中元素的逻辑排序完全不等于其物理顺序，并且，每个Key所在的页面还不在相同的磁盘柱面上，这样，查询集合中所有 key 所花的磁盘时间就等于 Key 的数目乘以磁盘的“平均潜伏时间”(Average Latency)再加上“柱面切换时间”(Cylinder Switch Time) 和传输时间（Transfer Time）：

T = KeySet.size * (al + cst + tt)

其中 al = Average Latency, cst = Cylinder Switch Time，实际上我这里说的 cst 比Cylinder Switch Time要大一些，因为柱面不一定相邻，中间可能像个几十个甚至上百的柱面，但这个时间跟cst应该比较接近。

这里假定内部处理所花的时间基本上可以忽略，在一般情况下也的确如此。一般情况下一个物理页面很小，如8K到16K。

对于高速的每分钟15000转的服务器硬盘，Average Seek Time 是8ms，连续传输速度是 200M，al=2ms，cst=1ms，使用16K的页面尺寸，则 tt = 0.025ms，因此可以先忽略tt。

如果KeySet中有4000个元素，并且BTree的所有内部节点（索引结点）都已经缓存，那么一次这样的查询需要 4000*(2ms + 1ms) = 12 秒！

而如果每查找一个key都启动一次在整个 BTree 上的查找，也假定BTree的所有内部节点（索引结点）都已经缓存，那么这个时间就是：4000*(al+ast) = 4000 * 10ms = 40秒

虽然经过优化，这个优化版的时间仍然很长，但是，这是查询4000个Key的最坏情况，很可能这些Key有一些局部性，比如他们只位于200个不同的柱面上（平均每个柱面20个key），这是非常可能的。这样，这个时间就缩短到了0.6秒，如果我们把数据库进行集群，比如10个服务器结点，那么这个数据可以缩短到0.06秒，这个时间就基本上可以接受了。对于传统方法，在这种情况下是0.2秒。

我在一个项目中碰到这样的瓶颈（数据量大约2T，使用磁盘阵列），找不到支持这种优化的系统。使用BDB(BerkeleyDB)，最多也只能减少数据拷贝和网络传输的时间，这样的一个查询经常需要40秒以上的时间。让我难以忍受，因为事先根据我的分析和计算，Key是有一定局部性的，这个时间应该在2秒以内，再不行也应该在5秒内。最后我自己写了一个只读的BTree索引系统（完整的BTree处理太复杂），使用了这种优化，查询时间一下子缩短到了1秒以内，最后使用了10个分开的阵列，时间缩短到了0.1秒，基本可以满足需求。这个效果比我预先估计的要快很多，因为基于BerkeleyDB的效果，我猜想可能也就比BerkeleyDB快4倍的时间。

不过这个结果也证实了我之前的猜想：数据有一定的局部性，虽然KeySet中有4000个Key，但是这些Key中有很多是相邻的。并且，BerkeleyDB的实现可能也没有我想象的好，也有可能是其它原因，比如可能每次查询的间隔时间较大，使得即使数据相邻，也需要重新调度磁头等等。

如果随着技术的发展，磁盘最终被其它介质（如Flash）代替，这种方法是不是就没了用武之地？

前缀压缩词典

作者: rockeet 发表日期: 2007年02月09日分类: C++, 算法评论: 0 条阅读次数: 2,651 次

包含多个固定索引，一个可变索引，

固定索引使用一个内存池和一个数组保存项目在内存中的偏移，并且使用前缀压缩，使用空间最小（每个词条4个字节的索引空间）

可变索引不压缩，并且可以动态插入词条，占用空间较大（每个词条20个字节的索引空间）

存储 1000 万个词，占用内存 100M 左右，平均每个词10个字节（包括了字符串空间和索引空间）。

接口采用 stl 容器的风格

按序号索引二叉树的应用

作者: rockeet 发表日期: 2006年03月05日分类: 算法评论: 0 条阅读次数: 2,695 次

主要是快速计数。

可以从Index得到相应结点，也就可以从相应结点得到 Index。

如果有两个结点，通过彼此间的 Index 相减，就可以得到他们之间的结点个数。

这种算法可以推广到使用 B+Tree 或其它更复杂的树。

自适应Lru（最近最少使用）算法

作者: rockeet 发表日期: 2005年11月05日分类: 操作系统, 算法评论: 0 条阅读次数: 3,174 次

在缓存管理算法中，Lru 几乎是公认的最优的算法。然而它也有一些缺陷，主要是因为：它假定对实体的访问有局部特性。当访问模式没有局部特性的时候，它就会退化为FIFO（先进先出）算法。继续阅读 →

按序号索引二叉树

作者: rockeet 发表日期: 2005年11月03日分类: 算法评论: 0 条阅读次数: 2,267 次

　　理论上，一个平衡的二叉树，可以在 O(logn)时间内，按中序遍历的顺序号（或者说下标）完成对结点的搜索。不过，这需要在每个结点上存储以该结点为根的子树的大小，通过增加存储的途径，来改善性能。

　　如果这是一棵排序树，那么这个序号就是按大小排列的顺序号。

　　但是如果这颗树在程序运行过程中有对结点的动态插入和删除（插入和删除时，以及调整平衡性时，都需要调整插入/删除结点路径上的Node.count，时间复杂度为O(logn)），那么每个结点的序号就是变化的。

　　因此，不能把序号存储在某个地方，然后又企图根据这一序号，重新找到该序号先前对应的那个结点。可能时因为这个原因，在很多时候，没有对这种计算的需求。我目前还没有在什么地方看到过这方面的文章。自己苦思冥想，竟也完成了。

class Node
{
public:
Node* getByIndex(int index)
{
  Node* p = this;
  while (p)
  {
   Node* q = p->left;
   while (q && q->count > index)
   {
    p = q;
    q = q->left;
   }
   if (0 == q || q->count == index) return p;

   p = p->right;
   index–;
   if (q) index -= q->count;
  }
  return 0;
}
private:
Node *left, *right;
int count; // node count of ‘this’ and its subtree
};

通用的 LoserTree

数据库集合查询的优化

前缀压缩词典

按序号索引二叉树的应用

自适应Lru（最近最少使用）算法

按序号索引二叉树

近期文章

近期评论

文章归档

分类目录

功能