Быстрое индексирование 140 млн. текстовых ключей

Russian Qt Forum

Ноябрь 23, 2024, 08:32

Добро пожаловать, Гость. Пожалуйста, войдите или зарегистрируйтесь.
Вам не пришло письмо с кодом активации?

Начало

Форум

WIKI (Вики)

FAQ

Помощь

Поиск

Войти

Регистрация

Russian Qt Forum > Forum > Программирование > Базы данных > Быстрое индексирование 140 млн. текстовых ключей

Страниц: [1] Вниз

« предыдущая тема следующая тема »

Печать

Автор

Тема: Быстрое индексирование 140 млн. текстовых ключей (Прочитано 6058 раз)

Anonymous

Гость

Быстрое индексирование 140 млн. текстовых ключей

« : Апрель 08, 2004, 12:00 »

Нужно быстро(до 5 часов) проиндексировать(и удалить дубликаты) 140.000.000 текстовых ключей размером 32 байта.

Базы данных(Oracle, MySql, со всей известной оптимизацией) даже не успевают загрузить в таблицу за время < 5 часов. Perl-вые файловые базы тоже отдыхают, вместе с Berkeley DB.

Кто нибудь знает библиотеку или алгоритм на хэшах, способные справиться с данной задачей за время < 5 часов?


	Записан

Slaven

Гость

Быстрое индексирование 140 млн. текстовых ключей

« Ответ #1 : Апрель 09, 2004, 12:50 »

140 млн. * 32 байта ~ 4,5 Гб. Т.е. если имеется сервер с 6Гб памяти - обработку можно будет провести быстро и красиво.
Если нет - то надо разделить исходные данные (например, по первому символу) на отдельные наборы данных, их отдельно обрабатывать, а потом сливать.

P.S. А что значит "проиндексировать и удалить дубли"?


	Записан

Страниц: [1] Вверх

Печать

« предыдущая тема следующая тема »

Перейти в:

Страница сгенерирована за 0.045 секунд. Запросов: 21.