Удалять:
0) class='MsoNormal' (MS Word)
1) <o:p></o:p> (MS Word)
2) перенос строки перед концом тега
3) <script></script>
4) class="" (все классы элементов)
5) множественные пробелы
6) пробелы в конце тега, например <p >
7) <p> </p> (пустые абзацы)
8) style="" (все стили элементов)
9) <br><br> (двойные переносы строк) заменять на </p>\n<p> (абзацы)
10) <br> (переносы строк) заменять на </p>\n<p> (абзацы)
11) <img> (все картинки)
Похожие онлайн-сервисы:
Интерактивный счётчик знаков текста
Парсинг постов Вконтакте по списку за исключением выбранных стен групп и пользователей
-» Очистка HTML-текста