Russian Qt Forum
Ноябрь 23, 2024, 08:32 *
Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.
Вам не пришло письмо с кодом активации?

Войти
 
  Начало   Форум  WIKI (Вики)FAQ Помощь Поиск Войти Регистрация  

Страниц: [1]   Вниз
  Печать  
Автор Тема: Быстрое индексирование 140 млн. текстовых ключей  (Прочитано 6058 раз)
Anonymous
Гость
« : Апрель 08, 2004, 12:00 »

Нужно быстро(до 5 часов) проиндексировать(и удалить дубликаты) 140.000.000 текстовых ключей размером 32 байта.

Базы данных(Oracle, MySql, со всей известной оптимизацией) даже не успевают загрузить в таблицу за время < 5 часов. Perl-вые файловые базы тоже отдыхают, вместе с Berkeley DB.

Кто нибудь знает библиотеку или алгоритм на хэшах, способные справиться с данной задачей за время < 5 часов?
Записан
Slaven
Гость
« Ответ #1 : Апрель 09, 2004, 12:50 »

140 млн. * 32 байта ~ 4,5 Гб. Т.е. если имеется сервер с 6Гб памяти - обработку можно будет провести быстро и красиво.
Если нет - то надо разделить исходные данные (например, по первому символу) на отдельные наборы данных, их отдельно обрабатывать, а потом сливать.

P.S. А что значит "проиндексировать и удалить дубли"?
Записан
Страниц: [1]   Вверх
  Печать  
 
Перейти в:  


Страница сгенерирована за 0.045 секунд. Запросов: 21.