Rambler's Top100
 
 
  01 октября 2008 года Компьюлента
CIO
Терралаб
Бизнес-журнал
в поле зрения| обзоры и тесты| своя игра| интерактив
Преобразование документов Word в HTML
Автор: Петр Каньковски
Опубликовано 13 сентября 2004 года

При сохранении документа в формате HTML редактор MS Word записывает в файл множество ненужной информации. Существует несколько способов уменьшить размер веб-страниц, созданных в Word.

В Word 2002/2003 можно отключить сохранение ключевых слов, лишних стилей и прочих бесполезных тэгов, которые не обрабатываются браузерами. Для этого нажмите "Сервис > Параметры > Общие > Параметры веб-документа", выберите версию браузера Internet Explorer 3.0, а затем сохраните файл ("Файл > Сохранить как веб-страницу"), указав формат "Веб-страница с фильтром (*.htm)". Эта несложная процедура уменьшает размер файла на 5-10 килобайт.

Окно параметров веб-документа
Окно параметров веб-документа

Чтобы сделать веб-страницу еще компактнее, установите Word 97 и сохраните страницу в нем. В результате, вы избавитесь от CSS и атрибута class=MsoNormal у каждого абзаца.

При каждом переключении раскладки Word 97 вставляет в веб-страницу тэг <FONT face>. Если документ содержит как русские, так и английские слова, то таких лишних тэгов накапливается немало. Убрать их помогут программы для группового поиска-замены, например, BK Replace Em (572 кб).

Программа BK Replace Em
Программа BK Replace Em

Тэг, начинающийся символами <FONT и заканчивающийся закрывающей угловой скобкой >, нужно заменить на пустую строку. В BK Replace Em для этого создайте новую группу (Replace > Add group), щелкните список замен правой кнопкой, выберите Advanced Edit, укажите тип замены Range Search, введите начало и конец тэга (<FONT и >), а поле Replace Text оставьте пустым. Затем добавьте нужные файлы (Replace > Insert files to) и выполните замену (Replace > Start Replacing).

В других программах нужно указать регулярное выражение <FONT *> с "нежадным" (non-greedy) модификатором. Используя поиск-замену, вы можете не только избавиться от ненужных тэгов, но и переоформить текст или установить созданный вами стиль для определенных абзацев.

Можно ли сделать веб-страницу еще меньше, сохранив оформление исходного документа Word? Оказывается, можно. В пакет макросов "Перестройка 2002" (974 кб) входит конвертор документов Word в HTML. Он выдает самый "чистый" HTML-код, не содержащий никаких лишних тэгов.

Конвертор поддерживает CSS, вложенные списки, отступы, таблицы, сохраняет рисунки в GIF, выделяет заголовки обычными тэгами <H1>, <H2>, а не увеличенным размером шрифта, как Word 97. Не обрабатываются лишь объединенные ячейки таблиц и сложное форматирование (вроде двойного подчеркивания, цветных границ таблицы). Обычные же документы конвертор преобразует без каких-либо проблем.

Конвертор из Перестройки
Конвертор из "Перестройки"

Этот макрос незаменим для веб-мастеров, которым приходится иметь дело с файлами Word. На скриншоте показан обработанный им HTML-файл (слева) и тот же файл, сохраненный в Word 2003 в режиме фильтрации (справа).


Слева - страница после конвертора "Перестройки", справа - после Word 2003

Нетрудно заметить, что конвертор генерирует намного более компактный код, который в дальнейшем легче редактировать и вставлять в свои веб-страницы.

ТАКЖЕ В РАЗДЕЛЕ
 
/  бумажный номер

Маленькая сопровождающая картинка к журналу Читайте на сайте тему номера "Плоская Земля" и другие статьи из журнала "Компьютерра" от 09 сентября 2008 года
  Архив номеров журнала

О проекте | Реклама на сайте | Рассылки сайта | КПК–версия | RSS-трансляция

© ООО «Компьютерра–Онлайн», 1997 — 2008.
При цитировании и использовании любых материалов ссылка на портал «Компьютерра–Онлайн» обязательна (для Интернет–изданий — www.computerra.ru)
Редакция сайта: site@computerra.ru
Техподдержка сайта: websupport@computerra.ru
Редакция журнала: inform@computerra.ru
Отдел рекламы: reklama@computerra.ru
Телефон: (495) 232–22–61, (495) 232–22–63
Работает на «Битрикс: Управление сайтом»
Почта защищена сервером «СПАМОРЕЗ»
Трилан — продвижение сайта,
поисковая оптимизация сайта

Сайт работает на сервере DEPO Computers
Rambler's Top100