Russian Qt Forum

Программирование => Базы данных => Тема начата: Anonymous от Апрель 08, 2004, 12:00



Название: Быстрое индексирование 140 млн. текстовых ключей
Отправлено: Anonymous от Апрель 08, 2004, 12:00
Нужно быстро(до 5 часов) проиндексировать(и удалить дубликаты) 140.000.000 текстовых ключей размером 32 байта.

Базы данных(Oracle, MySql, со всей известной оптимизацией) даже не успевают загрузить в таблицу за время < 5 часов. Perl-вые файловые базы тоже отдыхают, вместе с Berkeley DB.

Кто нибудь знает библиотеку или алгоритм на хэшах, способные справиться с данной задачей за время < 5 часов?


Название: Быстрое индексирование 140 млн. текстовых ключей
Отправлено: Slaven от Апрель 09, 2004, 12:50
140 млн. * 32 байта ~ 4,5 Гб. Т.е. если имеется сервер с 6Гб памяти - обработку можно будет провести быстро и красиво.
Если нет - то надо разделить исходные данные (например, по первому символу) на отдельные наборы данных, их отдельно обрабатывать, а потом сливать.

P.S. А что значит "проиндексировать и удалить дубли"?