Название: Быстрое индексирование 140 млн. текстовых ключей Отправлено: Anonymous от Апрель 08, 2004, 12:00 Нужно быстро(до 5 часов) проиндексировать(и удалить дубликаты) 140.000.000 текстовых ключей размером 32 байта.
Базы данных(Oracle, MySql, со всей известной оптимизацией) даже не успевают загрузить в таблицу за время < 5 часов. Perl-вые файловые базы тоже отдыхают, вместе с Berkeley DB. Кто нибудь знает библиотеку или алгоритм на хэшах, способные справиться с данной задачей за время < 5 часов? Название: Быстрое индексирование 140 млн. текстовых ключей Отправлено: Slaven от Апрель 09, 2004, 12:50 140 млн. * 32 байта ~ 4,5 Гб. Т.е. если имеется сервер с 6Гб памяти - обработку можно будет провести быстро и красиво.
Если нет - то надо разделить исходные данные (например, по первому символу) на отдельные наборы данных, их отдельно обрабатывать, а потом сливать. P.S. А что значит "проиндексировать и удалить дубли"? |