– 共有 n 个内部结点,n 个外部结点
– winner 只用于初始化时计算败者树,算完后即丢弃
– winner/loser 的第 0 个单元都不是内部结点,不属于树中的一员
– winner 的第 0 个单元未用
– m_tree 的第 0 个单元用于保存最终的赢者, 其它单元保存败者
– 该初始化需要的 n-1 次比较,总的时间复杂度是 O(n)
– 严蔚敏&吴伟民 的 LoserTree 初始化复杂度是 O(n*log(n)),并且还需要一个 min_key,
但是他们的初始化不需要额外的 winner 数组
– 并且,这个实现比 严蔚敏&吴伟民 的 LoserTree 初始化更强壮
其中引用的一些代码比较长,故未贴出
#define LT_iiter_traits typename std::iterator_traits<typename std::iterator_traits<RandIterOfInput>::value_type>

template< class RandIterOfInput

, class KeyType = LT_iiter_traits::value_type

, bool StableSort = false //!< same Key in various way will output by way order

, class Compare = std::less<KeyType>

, class KeyExtractor = typename boost::mpl::if_c<
boost::is_same<KeyType,
LT_iiter_traits::value_type
>::value,
boost::multi_index::identity<KeyType>,
MustProvideKeyExtractor
>::type

, CacheLevel HowCache = cache_default
>
class LoserTree :
public CacheStrategy< typename std::iterator_traits<RandIterOfInput>::value_type
, KeyType
, KeyExtractor
, HowCache
>,
public MultiWay_SetOP< LT_iiter_traits::value_type
, KeyType
, LoserTree<RandIterOfInput, KeyType, StableSort, Compare, KeyExtractor, HowCache>
>

…{
DECLARE_NONE_COPYABLE_CLASS(LoserTree)

typedef CacheStrategy< typename std::iterator_traits<RandIterOfInput>::value_type
, KeyType
, KeyExtractor
, HowCache
>
super;

friend class MultiWay_SetOP< LT_iiter_traits::value_type
, KeyType
, LoserTree<RandIterOfInput, KeyType, StableSort, Compare, KeyExtractor, HowCache>
>;
public:
typedef typename std::iterator_traits<RandIterOfInput>::value_type way_iter_t;
typedef typename std::iterator_traits<way_iter_t >::value_type value_type;
typedef KeyType key_type;
typedef KeyExtractor key_extractor;
typedef boost::integral_constant<bool, StableSort> is_stable_sort;

typedef typename super::cache_category cache_category;
typedef typename super::cache_item_type cache_item_type;

public:

/**//**
@brief construct

@par 图示如下:
@code

RandIterOfInput this is guard value
|| ||
|| ||
/ /
first–> 0 way_iter_t [min_value…………………….max_value]
/ 1 way_iter_t [min_value…………………….max_value] <— 每个序列均已
| 2 way_iter_t [min_value…………………….max_value] 按 comp 排序
| 3 way_iter_t [min_value…………………….max_value]
< 4 way_iter_t [min_value…………………….max_value]
| 5 way_iter_t [min_value…………………….max_value]
| 7 way_iter_t [min_value…………………….max_value]
8 way_iter_t [min_value…………………….max_value]
last—> end

@endcode

@param comp value 的比较器

@note 每个序列最后必须要有一个 max_value 作为序列结束标志,否则会导致未定义行为
*/
LoserTree(RandIterOfInput first, RandIterOfInput last,
const KeyType& max_key,
const Compare& comp = Compare(),
const KeyExtractor& keyExtractor = KeyExtractor())

…{
init(first, last, max_key, comp, keyExtractor);
}
LoserTree(RandIterOfInput first, int length,
const KeyType& max_key,
const Compare& comp = Compare(),
const KeyExtractor& keyExtractor = KeyExtractor())

…{
init(first, first + length, max_key, comp, keyExtractor);
}

// LoserTree(RandIterOfInput first, RandIterOfInput last,
// const cache_item_type& min_item,
// const cache_item_type& max_item,
// const KeyType& max_key,
// const Compare& comp = Compare(),
// const KeyExtractor& keyExtractor = KeyExtractor())
// {
// init_yan_wu(first, last, min_item, max_item, comp, keyExtractor);
// }
// LoserTree(RandIterOfInput first, int length,
// const cache_item_type& min_item, // yan_wu init need
// const cache_item_type& max_item,
// const KeyType& max_key,
// const Compare& comp = Compare(),
// const KeyExtractor& keyExtractor = KeyExtractor())
// {
// init_yan_wu(first, first + length, min_item, max_item, comp, keyExtractor);
// }

LoserTree()

…{
}


/**//**
@brief 初始化
– 共有 n 个内部结点,n 个外部结点
– winner 只用于初始化时计算败者树,算完后即丢弃
– winner/loser 的第 0 个单元都不是内部结点,不属于树中的一员
– winner 的第 0 个单元未用
– m_tree 的第 0 个单元用于保存最终的赢者, 其它单元保存败者

– 该初始化需要的 n-1 次比较,总的时间复杂度是 O(n)

– 严蔚敏&吴伟民 的 LoserTree 初始化复杂度是 O(n*log(n)),并且还需要一个 min_key,
但是他们的初始化不需要额外的 winner 数组

– 并且,这个实现比 严蔚敏&吴伟民 的 LoserTree 初始化更强壮
*/
void init(RandIterOfInput first, RandIterOfInput last,
const KeyType& max_key,
const Compare& comp = Compare(),
const KeyExtractor& keyExtractor = KeyExtractor())

…{
m_comp = comp;
m_key_extractor = keyExtractor;

m_beg = first;
m_end = last;

m_max_key = max_key;

int len = int(last – first);
if (0 == len)

…{
throw std::logic_error("LoserTree: way sequence must not be empty");
}

m_tree.resize(len);

this->resize_cache(len);

int i;
for (i = 0; i != len; ++i)

…{
// read first value from every sequence
this->input_cache_item(i, *(first+i));
}
if (1 == len)

…{
m_tree[0] = 0;
return;
}

int minInnerToEx = len / 2;

std::vector<int> winner(len);

for (i = len – 1; i > minInnerToEx; —i)

…{
exter_loser_winner(m_tree[i], winner[i], i, len);
}
int left, right;
if (len & 1) // odd

…{ // left child is last inner node, right child is first external node
left = winner[len–1];
right = 0;
}
else

…{
left = 0;
right = 1;
}
get_loser_winner(m_tree[minInnerToEx], winner[minInnerToEx], left, right);

for (i = minInnerToEx; i > 0; i /= 2)

…{
for (int j = i–1; j >= i/2; —j)

…{
inner_loser_winner(m_tree[j], winner[j], j, winner);
}
}
m_tree[0] = winner[1];
}

//! 严蔚敏&吴伟民 的 LoserTree 初始化
//! 复杂度是 O(n*log(n)),并且还需要一个 min_key
void init_yan_wu(RandIterOfInput first, RandIterOfInput last,
const cache_item_type& min_item,
const cache_item_type& max_item,
const Compare& comp = Compare(),
const KeyExtractor& keyExtractor = KeyExtractor())

…{
//! this function do not support cache_none
BOOST_STATIC_ASSERT(HowCache != cache_none);

assert(first < last); // ensure that will not construct empty loser tree

m_comp = comp;
m_key_extractor = keyExtractor;

m_beg = first;
m_end = last;

m_max_key = this->key_from_cache_item(max_item);

int len = int(last – first);
m_tree.resize(len);

this->resize_cache(len+1);
this->set_cache_item(len, min_item);

int i;
for (i = 0; i != len; ++i)

…{
m_tree[i] = len;

// read first value from every sequence
this->input_cache_item(i, *(first+i));
}
for (i = len–1; i >= 0; —i)
ajust(i);

// 防止 cache 的最后一个成员上升到 top ??…..
//
this->set_cache_item(len, max_item);

// assert(!m_tree.empty());
// if (m_tree[0] == len)
// ajust(len); // 会导致在 ajust 中 m_tree[parent] 越界
}

const value_type& current_value() const

…{
assert(!m_tree.empty());
// assert(!is_end()); // 允许访问末尾的 guardValue, 便于简化 app
return current_value_aux(cache_category());
}


/**//**
@brief return current way NO.
*/
int current_way() const

…{
assert(!m_tree.empty());
assert(!is_end());
return m_tree[0];
}

size_t total_ways() const

…{
return m_tree.size();
}

bool is_any_way_end() const

…{
return is_end();
}

bool is_end() const

…{
assert(!m_tree.empty());
const KeyType& cur_key = get_cache_key(m_tree[0], cache_category());
return !m_comp(cur_key, m_max_key); // cur_key >= max_value
}

void increment()

…{
assert(!m_tree.empty());
assert(!is_end());
int top = m_tree[0];
input_cache_item(top, ++*(m_beg + top));
ajust(top);
}

void ajust_for_update_top()

…{
assert(!m_tree.empty());
int top = m_tree[0];
input_cache_item(top, *(m_beg + top));
ajust(top);
}

way_iter_t& top()

…{
assert(!m_tree.empty());
return *(m_beg + m_tree[0]);
}

void reserve(int maxTreeSize)

…{
m_tree.reserve(maxTreeSize);
resize_cache(maxTreeSize);
}

protected:
void ajust(int s)

…{
int parent = int(s + m_tree.size()) >> 1;
while (parent > 0)

…{
if (comp_cache_item(m_tree[parent], s, cache_category(), is_stable_sort()))

…{
std::swap(s, m_tree[parent]);
}
parent >>= 1;
}
m_tree[0] = s;
}

void exter_loser_winner(int& loser, int& winner, int parent, int len) const

…{
int left = 2 * parent – len;
int right = left + 1;
get_loser_winner(loser, winner, left, right);
}
void inner_loser_winner(int& loser, int& winner, int parent, const std::vector<int>& winner_vec) const

…{
int left = 2 * parent;
int right = 2 * parent + 1;
left = winner_vec[left];
right = winner_vec[right];
get_loser_winner(loser, winner, left, right);
}
void get_loser_winner(int& loser, int& winner, int left, int right) const

…{
if (comp_cache_item(left, right, cache_category(), is_stable_sort()))

…{
loser = right;
winner = left;
}
else

…{
loser = left;
winner = right;
}
}

const value_type& current_value_aux(tag_cache_none) const

…{
assert(m_tree[0] < int(m_tree.size()));
return **(m_beg + m_tree[0]);
}
const value_type& current_value_aux(tag_cache_key) const

…{
assert(m_tree[0] < int(m_tree.size()));
return **(m_beg + m_tree[0]);
}
const value_type& current_value_aux(tag_cache_value) const

…{
assert(m_tree[0] < int(m_tree.size()));
return this->m_cache[m_tree[0]];
}

using super::get_cache_key;
inline const KeyType get_cache_key(int nth, tag_cache_none) const

…{
return this->m_key_extractor(**(m_beg + nth));
}

template<class CacheCategory>
inline bool comp_cache_item(int x, int y,
CacheCategory cache_tag,
boost::true_type isStableSort) const

…{
return comp_key_stable(x, y,
get_cache_key(x, cache_tag),
get_cache_key(y, cache_tag),
typename HasTriCompare<Compare>::type());
}

bool comp_key_stable(int x, int y, const KeyType& kx, const KeyType& ky,
boost::true_type hasTriCompare) const

…{
int ret = m_comp.compare(kx, ky);
if (ret < 0)
return true;
if (ret > 0)
return false;
ret = m_comp.compare(kx, m_max_key);
assert(ret <= 0);
if (0 == ret)
return false;
else
return x < y;
}
bool comp_key_stable(int x, int y, const KeyType& kx, const KeyType& ky,
boost::false_type hasTriCompare) const

…{
if (m_comp(kx, ky))
return true;
if (m_comp(ky, kx))
return false;
if (!m_comp(kx, m_max_key)) // kx >= max_key –> kx == max_key

…{ // max_key is the max, so must assert this:
assert(!m_comp(m_max_key, kx));
return false;
}
else return x < y;
}

template<class CacheCategory>
inline bool comp_cache_item(int x, int y,
CacheCategory cache_tag,
boost::false_type isStableSort) const

…{
return m_comp(get_cache_key(x, cache_tag), get_cache_key(y, cache_tag));
}

protected:
KeyType m_max_key;
std::vector<int> m_tree;
RandIterOfInput m_beg;
RandIterOfInput m_end;
Compare m_comp;
};


使用示例:
// test_multi_way.cpp : Defines the entry point for the console application.
//

#include "stdafx.h"

using namespace std;
using namespace febird;
//using namespace febird::prefix_zip;
using namespace febird::multi_way;

template<class _Cont>
void printResult(const char* title, const _Cont& result)

…{
cout << title << ": ";
for (typename _Cont::const_iterator i = result.begin(); i != result.end(); ++i)
cout << *i << ",";
cout << endl;
}

template<class _Cont>
void printKeyValue(const char* title, const _Cont& result)

…{
cout << title << ": ";
for (typename _Cont::const_iterator i = result.begin(); i != result.end(); ++i)
cout << "(" << result.key(i) << "," << *i << "),";
cout << endl;
}

template<class _Cont>
void printPairCont(const char* title, const _Cont& result)

…{
cout << title << ": ";
for (typename _Cont::const_iterator i = result.begin(); i != result.end(); ++i)
cout << "(" << i->first << "," << i->second << "),";
cout << endl;
}

int main(int argc, char* argv[])

…{
// cout << setw(5) << setiosflags(ios::right) << 100 << setw(20) << setiosflags(ios::left) << "abcd" << endl;
// cout << setw(5) << setiosflags(ios::right) << 100 << setw(20) << left << "abcd" << endl;

int ivals[][11] =

…{

…{1, 8, 20, 31, 47, 54, 75, 82, 93, 99, INT_MAX},

…{1, 7, 20, 30, 48, 53, 76, 81, 95, 98, INT_MAX},

…{3, 6, 17, 20, 35, 42, 49, 73, 90, 91, INT_MAX},

…{2, 4, 19, 20, 46, 51, 73, 88, 96, 97, INT_MAX},

…{2, 4, 15, 20, 46, 51, 73, 88, 96, 97, INT_MAX},
};
vector<int> intersect;
vector<int> unionvec;
vector<int*> ilower, iupper;
for (int i = 0; i < 5; ++i) ilower.push_back(ivals[i]);
for (int i = 0; i < 5; ++i) iupper.push_back(ivals[i] + 10);
LoserTree<vector<int*>::iterator> loserTree(ilower.begin(), ilower.end(), INT_MAX);
loserTree.intersection(back_inserter(intersect));

for (int i = 0; i < 5; ++i) ilower.push_back(ivals[i]);
loserTree.init(ilower.begin(), ilower.end(), INT_MAX);
loserTree.union_set(back_inserter(unionvec));

vector<int> v1;
copy(&ivals[0][0], &ivals[5][0], back_inserter(v1));
printResult("all_values", v1);
printResult("intersection_result", intersect);
printResult("union_result", unionvec);

vector<pair<int*, int*> > range, range2;
for (int i = 0; i < 5; ++i)

…{
range.push_back(make_pair(ivals[i], ivals[i] + 10));
}
intersect.clear();
range2 = range;
HeapMultiWay<vector<pair<int*, int*> >::iterator> heap(range.begin(), range.end());

heap.intersection(back_inserter(intersect));
printResult("intersection_result2", intersect);

range = range2;

…{
vector<int> copyset;
heap.init(range.begin(), range.end());
heap.copy_if2(back_inserter(copyset), MultiWay_CopyAtLeastDup(3));
printResult("MultiWay_CopyAtLeastDup(3)", copyset);
}

range = range2;

…{
map<int, int> counting;
heap.init(range.begin(), range.end());
heap.copy_if2((int*)(0), MultiWay_GetCountTable(counting, 2));
printPairCont("MultiWay_GetCountMap", counting);
}

range = range2;

…{
vector<pair<int, int> > counting;
heap.init(range.begin(), range.end());
heap.copy_if2((int*)(0), MultiWay_GetCountSequence(counting, 2));
printPairCont("MultiWay_GetCountSequence", counting);
}

range = range2;

…{
// MultiWayTable<int, int> counting(16);
map<int, int> counting;
heap.init(range.begin(), range.end());
heap.copy_if2((int*)(0), MultiWay_GetCountTable(counting, 2));
// printKeyValue("MultiWay_GetCountTable", counting);
printPairCont("MultiWay_GetCountTable", counting);
}

range = range2;

…{
// PackedTable<int, int> counting;
map<int, int> counting;
heap.init(range.begin(), range.end());
heap.copy_if2((int*)(0), MultiWay_GetCountTable(counting, 2));
// printKeyValue("MultiWay_GetCountTable", counting);
printPairCont("MultiWay_GetCountTable", counting);
}

return 0;
}


作者:
rockeet
发表日期:
2008年01月12日
分类:
算法
评论:
0 条
阅读次数: 2,195 次
有一个应用,需要经常做类似这样的查询 select * from SomeTable where key in (KeySet) ,其中 KeySet 可能很大,比如包含几百甚至几千个元素。理想中的情况,数据库应该先在 BTree 中查找到 KeySet 中的 Key 所在的物理页面地址,然后再对这物理地址排序,最后按顺序读入这些页面内容并填充结果。如果这样做,那么在最坏情况下,KeySet 中元素的逻辑排序完全不等于其物理顺序,并且,每个Key所在的页面还不在相同的磁盘柱面上,这样,查询集合中所有 key 所花的磁盘时间就等于 Key 的数目乘以磁盘的“平均潜伏时间”(Average Latency)再加上“柱面切换时间”(Cylinder Switch Time) 和 传输时间(Transfer Time):
T = KeySet.size * (al + cst + tt)
其中 al = Average Latency, cst = Cylinder Switch Time,实际上我这里说的 cst 比Cylinder Switch Time要大一些,因为柱面不一定相邻,中间可能像个几十个甚至上百的柱面,但这个时间跟cst应该比较接近。
这里假定内部处理所花的时间基本上可以忽略,在一般情况下也的确如此。一般情况下一个物理页面很小,如8K到16K。
对于高速的每分钟15000转的服务器硬盘,Average Seek Time 是8ms,连续传输速度是 200M,al=2ms,cst=1ms,使用16K的页面尺寸,则 tt = 0.025ms,因此可以先忽略tt。
如果KeySet中有4000个元素,并且BTree的所有内部节点(索引结点)都已经缓存,那么一次这样的查询需要 4000*(2ms + 1ms) = 12 秒!
而如果每查找一个key都启动一次在整个 BTree 上的查找,也假定BTree的所有内部节点(索引结点)都已经缓存,那么这个时间就是:4000*(al+ast) = 4000 * 10ms = 40秒
虽然经过优化,这个优化版的时间仍然很长,但是,这是查询4000个Key的最坏情况,很可能这些Key有一些局部性,比如他们只位于200个不同的柱面上(平均每个柱面20个key),这是非常可能的。这样,这个时间就缩短到了0.6秒,如果我们把数据库进行集群,比如10个服务器结点,那么这个数据可以缩短到0.06秒,这个时间就基本上可以接受了。对于传统方法,在这种情况下是0.2秒。
我在一个项目中碰到这样的瓶颈(数据量大约2T,使用磁盘阵列),找不到支持这种优化的系统。使用BDB(BerkeleyDB),最多也只能减少数据拷贝和网络传输的时间,这样的一个查询经常需要40秒以上的时间。让我难以忍受,因为事先根据我的分析和计算,Key是有一定局部性的,这个时间应该在2秒以内,再不行也应该在5秒内。最后我自己写了一个只读的BTree索引系统(完整的BTree处理太复杂),使用了这种优化,查询时间一下子缩短到了1秒以内,最后使用了10个分开的阵列,时间缩短到了0.1秒,基本可以满足需求。这个效果比我预先估计的要快很多,因为基于BerkeleyDB的效果,我猜想可能也就比BerkeleyDB快4倍的时间。
不过这个结果也证实了我之前的猜想:数据有一定的局部性,虽然KeySet中有4000个Key,但是这些Key中有很多是相邻的。并且,BerkeleyDB的实现可能也没有我想象的好,也有可能是其它原因,比如可能每次查询的间隔时间较大,使得即使数据相邻,也需要重新调度磁头等等。
如果随着技术的发展,磁盘最终被其它介质(如Flash)代替,这种方法是不是就没了用武之地?
包含多个固定索引,一个可变索引,
固定索引使用一个内存池和一个数组保存项目在内存中的偏移,并且使用前缀压缩,使用空间最小(每个词条4个字节的索引空间)
可变索引不压缩,并且可以动态插入词条,占用空间较大(每个词条20个字节的索引空间)
存储 1000 万个词,占用内存 100M 左右,平均每个词10个字节(包括了字符串空间和索引空间)。
接口采用 stl 容器的风格
作者:
rockeet
发表日期:
2006年03月05日
分类:
算法
评论:
0 条
阅读次数: 2,093 次
主要是快速计数。
可以从Index得到相应结点,也就可以从相应结点得到 Index。
如果有两个结点,通过彼此间的 Index 相减,就可以得到他们之间的结点个数。
这种算法可以推广到使用 B+Tree 或其它更复杂的树。
在缓存管理算法中,Lru 几乎是公认的最优的算法。然而它也有一些缺陷,主要是因为:它假定对实体的访问有局部特性。当访问模式没有局部特性的时候,它就会退化为FIFO(先进先出)算法。 继续阅读 →
作者:
rockeet
发表日期:
2005年11月03日
分类:
算法
评论:
0 条
阅读次数: 1,903 次
理论上,一个平衡的二叉树,可以在 O(logn)时间内,按中序遍历的顺序号(或者说下标)完成对结点的搜索。不过,这需要在每个结点上存储以该结点为根的子树的大小,通过增加存储的途径,来改善性能。
如果这是一棵排序树,那么这个序号就是按大小排列的顺序号。
但是如果这颗树在程序运行过程中有对结点的动态插入和删除(插入和删除时,以及调整平衡性时,都需要调整插入/删除结点路径上的Node.count,时间复杂度为O(logn)),那么每个结点的序号就是变化的。
因此,不能把序号存储在某个地方,然后又企图根据这一序号,重新找到该序号先前对应的那个结点。可能时因为这个原因,在很多时候,没有对这种计算的需求。我目前还没有在什么地方看到过这方面的文章。自己苦思冥想,竟也完成了。
class Node
{
public:
Node* getByIndex(int index)
{
Node* p = this;
while (p)
{
Node* q = p->left;
while (q && q->count > index)
{
p = q;
q = q->left;
}
if (0 == q || q->count == index) return p;
p = p->right;
index–;
if (q) index -= q->count;
}
return 0;
}
private:
Node *left, *right;
int count; // node count of ‘this’ and its subtree
};