Для начала опишите по каким _критериям_ вы определяете идентичность двух документов.
Например:
Идентичны, если их текст на 90% совпадает.
Идентичны, если имеют схожую структуру.
Я полагаю, речь идет о нечетком сравнении документов?
В свое время использовал вот такой подход:
http://habrahabr.ru/blogs/algorithm/65944/Если заинтересуют, могу кое-чем помочь.