Доброй ночи, форумчанам. Я работаю с файлами html-справки, которые создавались ранее другими людьми в Microsoft Word-е, в результате чего в разметке страницы появилось множество тегов <span> типа: <span аргументы="">Текст</span>. Мне необходимо достать сам текст. Решил просто используя регулярное выражение просто удалить тег <span>. Но пока не знаю как правильно записать регулярное выражение, чтобы удалился открывающий тег с внутренними аргументами и закрывающий тег, а текст остался. Пробовал следующим образом:
QString str = "<span ang=RU style='mso-ansi-language:RU'>Текст</span>";
str = str.remove(QRegExp("<span(.*)>")).remove(QRegExp("</span>"));
увы не сработало.
Решил тогда загонять текст в QTextDocument и пользуясь методом toPlainText() убирать теги, но в случаи с тегом <span> текст тоже удаляется.
Может кто уже решал подобную задачу?