Results not found

По вашему запросу ничего не найдено

Попробуйте отредактировать запрос и поискать снова

HR-советы

Автоматизация коррекции ошибок в текстах, содержащих TeX-нотации, при наполнении баз данных и построении указателей

Article Thumbnail

Введение

Цель данной статьи дать описание некоторых вариантов действующих технологий ввода и обработки большого количества однотипных составных многоязыковых документов, содержащих TeX-нотации. Подобного рода задачи возникают при наполнении политематических баз данных и при построении указателей. Обработка потока документов предъявляет повышенные требования к автоматизации контроля и обнаружения различного рода ошибок по сравнению.
 

Классификация ошибок и методов их устранения

В процессе преобразования документов в рамках некоторой технологии возможно возникновение и может быть выявление следующих типов ошибок (список не претендует на полноту):
 

  1. Орфографические ошибки — необходима возможность проверки для каждого встречающегося в документе языка при игнорировании операторов языка разметки документов.
  2. Синтаксические ошибки.
  3. Ошибки при заполнении полей документов, например, вместо числа в некотором поле стоит буква и т.п. Ошибки при разборе документов на поля. Такие ошибки должны выявляться на этапах Формально Логического Контроля.
  4. Отсутствие или неправильные ссылки на некоторые части составного документа.
  5. Ошибки в разметке документов, т.е. ошибки в операторах и конструкциях языка разметки документа.

Ошибки могут порождаться на разных стадиях создания и обработки документа как операторами (людьми) — ошибки набора , так и в результате не штатного действия программ, сбоев оборудования, в результате не согласованного изменения технологии и операционной обстановки. Кроме того на разных этапах технологической цепочки одна и та же ситуация может рассматриваться как ошибка, как предупреждение о возможной ошибке и как допустимое событие. Важно так построить последовательность операций обработки документов, чтобы по возможности минимизировать число возвратов и повторных действий в процессе устранения последствий ошибок.

Для устранения ошибок применяются следующие способы:
 

  1. Меры направленные на предотвращение появления ошибок.
  2. Методы прямого поиска ошибок: препроцессирование, компиляция исходных файлов, одна или несколько корректур.
  3. Методы сквозного контроля и маркировки документов для прослеживание цепочек распространения ошибок.

Количество ошибок набора может быть уменьшено с помощью организационных и технических мероприятий: обучением и дообучением операторов; улучшением организации типовых рабочих мест; введением и расширением продуманного набора макроопределений для наборщиков; направлением набранного материала на повторную правку после корректуры тому же наборщику. При введении новых программ в технологический цикл требуется отслеживание и документирования нежелательных побочных эффектов.

Далее будем рассматривать в основном ошибки связанные с кодированием документов с помощью издательской системы TeX :
 

  1. Ошибки набора, приводящие к синтаксическим ошибкам, диагностируемым во время трансляции TeX-файла как ошибки.
  2. Ошибки набора, приводящие к погрешностям в полиграфическом оформлении документа.
  3. Ошибки, возникающие из-за изменения в процессе «жизни» документа форматных и стилевых файлов, введение новых символов и макроопределений, изменения шрифтового набора, изменение разрешения выводных устройств.
  4. Ошибки возникающие в процессе преобразования текстов различными программами.
  5. Использование конструкций снижающих возможности переносимости документа. Выход за рамки разрешенных в данной системе ограничений языка, макросов, набора шрифтов и т.п. Использование в составных документов не разрешенных графических форматов.
  6. «Ошибки», приводящие к не правильному или не однозначному процессу преобразования текста в другие форматы представления документов. Например, в форматы IBM TechExplorer, HTML, MathML, форматы баз данных ISO и т.п.

Здесь надо отметить, что синтаксическая правильность TeX-документа определяется только в процессе компиляции. Мы будем говорить, что .tex файл синтаксически правильный для данной TeX среды, если после компиляции в .log файле нет ошибок, имеются только предупреждения о плохом размещении текста на странице, и создан не пустой .dvi файл, который визуализуется и может быть распечатан на некотором выводном устройстве.

Для некоторых макропакетов существуют автономные программы для проверки синтаксиса, например, TeXchk [1] для LaTeX’а.

Синтаксическая правильность документа не означает его правильность его полиграфического оформления. Для исправления часто встречающихся ошибок в оформлении документов в формате LaTeX используется, например, программа ChkTeX v. 1.5 [2]. Возможность применения двух указанных программ в автоматическом режиме будет обсуждаться ниже.

Полиграфическая правильность документа может рассматриваться в рамках некоторого набора выводных устройств и требований к оформлению документов.

В разных ситуациях неизбежным и необходимым этапом является устранение синтаксических ошибок, приводящих к не возможности создания dvi-файла. Более того для сохранения неизменного полиграфического вида документа зачастую приходится архивировать dvi-файл, наряду с исходным текстом документа и стилевыми файлами. Если предполагается изменение шрифтового набора или воспроизведение документа в условиях отсутствия необходимых шрифтов, то документ хранят в PostScript и/или PDF формате.

TeX как издательская система и основанные на TeX’е производные от этого формата документы широко используются для предоставления научной информации в сети Internet. Здесь надо отметить электронный архив е-print [3,4]. Этот Web-сервер предоставляет через автоматически действующую поисковую систему доступ к громадному архиву статей по физике, математике и смежным дисциплинам, документы пересылаются по ftp и е-mail в исходных текстах в формате TeX’a (src), dvi-формате (dvi), PostScript формате (ps) для свободного и коммерческого наборов шрифтов. Имеется доступ к обширному набору макросов TeX’а. Накопление архива продолжается с 1992 года.

При разумном ограничении используемых возможности LaTeX’а помимо стандартной схемы обработки TeX-документов (исходный текст, трансляция, dvi-файл, обработка dvi файла программой DVIPS, PostScript файл) осуществляется возможность последующего непосредственного использования содержимого полей для генерации гипертекстовых документов в формате IBM’s TechEhplorer Hypermedia browser [7], MathML [8], WebEQ [8], IDVI [9] или других в, формах гипертекста [5].

Существуют два предельных случая при формировании большого количества текстов, содержащих математические (физические, химические) выражения, записанные с помощью TeX-нотаций.

Это, во-первых, ввод текстов профессиональными операторами специально и одинаково обученными набору математических текстов. Тексты набираются по общим зафиксированным правилам кодирования. Такой подход реализован в Производственно Издательского Комбинате ВИНИТИ (ПИК ВИНИТИ) при наборе и верстке реферативных журналов, наборов указателей к ним, комплектовании тематических баз данных. Набор «сырья» для рефератов осуществляется по полям с мнемоническими метками. Реализован полный технологический цикл производства журналов, включающий три корректуры.

Второй подход предполагает набор текстов структурированных по полям документов не профессиональными операторами при минимальных ограничениях на правила набора формул, сбор текстов в электронном и бумажном виде. Предполагается функционирование некоторой технологии полнотекстового контроля и редактирования текстов (отчетов) и синтаксического контроля TeX-нотаций. Конечным продуктом является база данных, из которой при необходимости можно генерировать различного вида отчеты. Такая база данных по своей сути является политематической и должна обеспечивать полнотекстовый поиск.

Этот подход реализовывался в рамках проекта РФФИ 96-07-89548 сотрудниками ИПИ РАН. В 1997 году была разработка и внедрение в опытную эксплуатацию технология обеспечивающая редактирования и синтаксического контроля полнотекстовых полей отчетов РФФИ, содержащих ТЕХ-нотации в технологическом комплексе ввода и регистрации заявок, поступающих на конкурсы, объявленные РФФИ, и отчетов, поддержанных РФФИ. В этой работе принимал участие автор статьи. В соответствии с рекомендацией Экспертного совета основные усилия авторов проекта были сосредоточены на проблеме обеспечения достоверности электронных информационных ресурсов, которые формируются на основе форм заявок и отчетов, поступающих в РФФИ. Проверка корректности документов осуществляется операторами комплекса.

В обоих случаях предполагается наличие большого потока структурированных по полям документов, допускающих формально логический контроль. Требуется организация типовых рабочих мест операторов (набора, верстки, контролеров). Данные рабочие места подключены к локальной сети. В отличие от книжного набора такие технологические комплексы должны допускать обработку больших потоков документов с максимально достижимой степенью достоверности получаемых электронных ресурсов. Выходная форма документов (полнотекстовых полей) должна быть приведена к стандартизованному виду, в том числе должны быть выдержаны принятые ограничения входного языка для кодирования математических и иных формул.

В конце технологической цепочки получается следующая продукция: журнал, отчет, технологическая база данных с полнотекстовыми полями, содержащими TeX-нотации. Полученные поля технологической базы данных должны по возможности однозначно конвертироваться в форматы пригодные для просмотра с помощью www-броузеров, возможно снабженных дополнительными модулями, в файлы баз данных в некоторых, заранее оговоренных стандартных форматах, а так же в виде dvi и ps -файлов.
 

Основные TeX-особенности технологического 
комплекса ПИК ВИНИТИ

Набор библиографических описаний документов производится с макетированных страниц операторами набора [8]. Текстовый файл состоит из документов, разделенных на поля. Каждому полю предшествует мнемоническая текстовая метка, записанная русскими буквами. Имеется специальный стилевой файл для распечатки гранок из набора таких файлов. Проводятся две корректуры гранок и одна корректура готового журнала.

Реферативные журналы набираются в LaTeX 2.09 с NFSS release 1. Используется русифицированный форматный файл rlplain.fmt, позволяющий применять русские буквы в TeX-командах. Основу русского шрифтового набора составляют шрифты семейства XCM*, разработанные в ИФВЭ [11,12]. Рабочие места операторов набора и верстки интегрированы с помощью редактора ME 7.0IP, реализован большой набор макропределений, поддерживающих все необходимые операции с TeX файлами. Командные файлы, запускающие технологические программы, привязаны к меню или ассоциированы с расширениями файлов в рамках Norton Comander’а. Состав командных файлов и макроопределений у операторов набора и верстки частично различается. В частности, операторы набора в обязательном порядке используют программы проверки орфографии. Все машины оснащены операционной системой MS-DOS 6.22 c сетевым клиентом Microsoft, используется сеть на базе протокола TCP/IP c серверами с операционной системой Windows NT 4.0. Для распечатки dvi-файлов на различных высокоскоростных сетевых устройствах фирмы Xerox используются специально разработанные командные файлы. Имеются также технологические рабочие места с операционной системой MS Windows 95. Используются пакеты программ EmTeX, dvips и большое количество, разработанных в ПИК специализированных программ, обеспечивающих технологический процесс, в частности, сборку и конвертацию файлов баз данных, формально логический контроль.

Рисунки представлены в виде pcx-файлов с разрешением 300 dpi, при выводе на устройства с разрешением 600 dpi производится автоматическое преобразование pcx-файлов к этому разрешению.

Текстовые файлы проходят несколько этапов формально логического контроля, в том числе после каждой корректуры гранок и правки. Как правило правит файл тот оператор, который его набирал. Это обстоятельство резко уменьшает количество ошибок в наборе. При наборе операторы пользуются большим количеством стандартных клавиатурных макросов, что также уменьшает число ошибок.

Журналы собираются в полуавтоматическом режиме из файлов баз данных промежуточного формата, полнотекстовые поля которых содержат TeXнотации. Затем файлы журналов правятся операторами верстки. Разработанные С.М. Львовским стили для реферативного журнала обеспечивают малое число ошибок в полиграфическом оформлении. Действует обратная связь обнаружения и коррекции систематических ошибок, в стилях и программах. Эти ошибки в оперативном режиме устраняются программистами и технологами.

Несколькими способами генерируются ряд указателей к реферативным журналам: 

  1. Авторские указатели получаются из текста журнала.
  2. Различные указатели не по математике, например, химии создаются из файлов баз данных.
  3. Для реферативного журнала «Математика» указатели формируются из текстовых файлов, набранных по полям минуя базу данных.

Данное обстоятельство диктует повышенные требования к автоматическому выявлению ошибок в процессе построения указателей по математике [13,14].

Коррекция ошибок производится как на уровне программы извлечение данных из файлов c рефератами со структурой метка-поле , где производится частичный синтаксический контроль полнотекстовых полей с TeX-нотациями, так и на всех этапах преобразования текстов. Все программы преобразование и проверки реализованы на языке Perl. Их отладка и подгонка к потоку рефератов потребовали значительного времени, т.к. они должны парировать не только пропущенные на других этапах контроля ошибки набора, но и учитывать длительность цикла накопления сырья для годового указателя. За это время происходят изменения в стилевых файлах, появляются или изменяются некоторые макросы, вводятся или отменяются отдельные типовые приемы набора. Тем не менее время от времени появляются неучтенные ошибки, наведенные изменениями в технологическом процессе. Типичный источник ошибок — появление новых символов, реализованных для быстроты в виде LaTeX’овской картинки, а не в виде символа шрифта. Это приводит к остановке компиляции TeX-файла с сырыми ключами для указателей, в то время как при сборке журнала операторы протолкнули бы процесс компиляции руками. Кроме того происходит рассогласование управляющих таблиц программы DVISPELL, порождающей ключи для указателей в двухбуквенной кодировке.

При описанном построении технологического процесса основная доля ошибок выявляется на этапе набора и корректуры файлов, набираемых по полям, и на этапах формально логического контроля. Важную роль играет правильно организованный процесс корректуры. Полиграфическое оформление журналов фиксированно и реализовано в весьма «интеллектуальном» наборе стилевых файлов.
 

TeX-особенности подсистемы «Регистрация»

В 1997 году проводились работы развитию информационной системы РФФИ (проект РФФИ 96-07-89548) для регистрации заявок и отчетов РФФИ и технологии создания собственных архивных БД РФФИ. Было выделено подмножество языка TeX для использования в некомплектных документах пригодное для дальнейшего конвертирования в различные гипертекстовые форматы.

На комплексе РФФИ проведена инсталляция (экспериментальной) версии интегрированной корректирующей TeX-системы, включающей в себя: русификации пакета EmTeX 96-года c помощью LH*-шрифтов ассоциации CYRTUG и XCM*-шрифтов разработанных в Институте Физики высоких энергий (Протвино); рабочее место оператора-корректора в издательской системы TeX на базе редактора MultiEditor.

Разработана и введена в эксплуатацию программа для сбора (и накопления) статистики TeX-документов. Операторами регистрируются и кодируются в файлах со статистикой различные виды ошибок в документах.

Силами сотрудников ИПИ РАН на комплексе РФФИ проведена опытная эксплуатация рабочего месте оператора подсистемы «Регистрация» в процессе регистрации заявок и отчетов, содержащих TeX-нотации. Обрабатывались потоки заявок и отчетов по физике.

Характерной чертой данного проекта является направленность на разработку такой технологии создания промышленной политематической базы данных документов, где в едином в технологическом цикле решены проблемы регистрации документов, их коррекции и вопросы создания БД, которые содержат математические формулы (в виде TeX-нотации), подготовленные не профессиональными операторами, (т.е. заявителями и грантополучателями).

Основные особенности и трудности при обработке полнотекстовых полей заявок и отчетов РФФИ, содержащих TeX-нотации, состоят в следующем:
 

  1. Правила оформления формул в заявках и отчетах РФФИ не включают необходимость трансляции файла через какую нибудь TeX-систему.
  2. Поля набираются заявителями и грантополучателями, которые не являются профессиональными наборщиками, что приводит к ошибкам в наборе и различным вариантам написания одной и той же формулы, отсутствует правильное полиграфическое оформление ( что вообще говоря не требуется от заявителей и грантополучателей).
  3. В России эксплуатируется не менее восьми различных слабо совместимых между собой русификаций системы TeX и столько же, если не больше наборов русских шрифтов. Русификации одного и того же макропакета (форматные файлы), например, LaTeX’а могут быть не совместимы. При русификации широко используется, как аппарат виртуальных шрифтов, так и составные русско-латинские шрифты, иногда с названиями совпадающими с названиями шрифтов семейства Computer Modern.
  4. Часто текст отчета готовят в каком-либо привычном редакторе (Word, ChiWriter и т.д.), а затем делают файл с TeX-нотацией, при этом, в лучшем случае получаются разные начертания одних и тех же символов, а в худшем и символы получаются разные и в написании формул содержатся ошибки, т.к. не была проведена компиляция TeX-файла, не был получен и просмотрен dvi-файл. В результате эта задача ложится на оператора-контролера TeX-нотаций подсистемы «Регистрация».

Поэтому разработан способ оформления отчетов удовлетворяющий минимальным требования по заполнению форм в файлах заявок и отчетов. Данные требования увязаны с технологическими возможностями комплекса РФФИ, в том числе с возможностями, инсталлированной TeX-системы.

Текущие правила оформления можно, повидимому, интерпретировать следующим образом. Бумажный вариант отчета(заявки) предоставляется на бумаге формата A4 (210 х 297 мм). Размеры текстового поля не должны превышать: ширина 170 мм, высота 255 мм; номер страницы расположен внизу по центру страницы и отстоит от нижней границы текстового поля не более чем на 7 мм; правое поле 25 мм; верхнее поле 20 мм;каждый рисунок или таблица располагаются на отдельном листе после основного текста формы, сначала таблицы, затем рисунки; возможно расположение отдельных таблиц и рисунков при ландшафтной ориентации страницы; текст должен быть напечатан через 1.5 интервала шрифтом 12 кегля (12pt); для моноширинного шрифта число символов в строке не более 65, число строк не более 64.

В правилах оговорена возможность вставки в документ фрагментов ASCII текста, включающих псевдографику. Эти фрагменты используются для представления таблиц и не сложных математических и химических формул и рассматриваются как единое целое. Выделение этих фрагментов производится с помощью разметки в стиле HTML.

Допускается возможность применение TeX-нотации. В правилах оформления отчетов за 1997 не разрешается применение макросов. При этом в правилах больше ничего о TeX-системе не оговаривается! Представьте себе головную боль операторов, которые должны обрабатывать tex-тексты не известно в каких макропакетах набранные, и скорее всего не прошедшие компиляцию!?

Для целей составления отчетов и заявок предлагается использовать широко распространенный макропакет LaTeX 2.09 c NFSS1, например, версию CyrTUG-EmTeX (форматный файл lhnfss), стиль VERBATIM.STY созданный Rainer Sch\»opf. В этом стиле сделана замена шрифта \tt на шрифт \ttascii, который определяется в стилевом файле GRANT98.STY. В это моноширинный шрифт в 866 кодировке, сделанный с помощью PS2PK из PostScrit шрифта фирмы IBM. При этом при использовании окружения verbatim будет нормально воспроизводится псевдографика.

В этом файле определены макрокоманды для отсылки к рисункам, размещенным в отдельных файлах ( эти рисунки не обязаны воспроизводится средствами TeX’а и его драйверов), а также макроопределения для кавычек и знака номера.

Фрагменты заявки, не содержащие TeX-нотации, заключаются в окружение verbatim и воспроизводятся как обычный текст пишущей машинки.

При использовании NFSS1 возможно использование стилевых файлов AMSFONTS.STY или AMSSYMB из AMS-LaTeX версии 1.1. Другие стилевые файлы, кроме перечисленных выше не допускаются (см. ниже пример файла со статистикой); все макросы (макроопределения) пользователя должны быть определены в преамбуле документа; применение макросов не желательно. Фрагменты с псевдографикой предваряются командами подавления межстрочного интервала.

На комплексе РФФИ была проведена инсталляция и опытная эксплуатация экспериментальной версии интегрированной корректирующей TeX-системы, включающей в себя: русификации пакета EmTeX 96-года c помощью LH*-шрифтов ассоциации CYRTUG и XCM*-шрифтов разработанных в Институте Физики высоких энергий (Протвино); рабочее место оператора верстки в издательской системы TeX на базе редактора MultiEditor v. 7.0IP, где используя TeX-Menu можно выполнить основные операции с TeX-файлами, причем оператору предоставляется возможность выбора трансляции с помощью 8-ми форматных файлов для макропакетов:

  1. lhnfss — LaTeX 2.09 (NFSS1), LH* fonts
  2. lhlatex — LaTeX 2e, LH* fonts
  3. lhamstex — AMS-TeX, LH* fonts
  4. rlplain — LaTeX 2.09 (NFSS1), XCM* fonts
  5. lhplain — Plain TeX, LH* fonts
  6. lhlplain — LaTeX 2.09, LH* fonts
  7. lhplain — Plain TeX, XCM* fonts
  8. prlatex — LaTeX 2e, XCM* fonts

Разработана и введена в эксплуатацию программа для сбора (и накопления) статистики TeX-документов. Операторами регистрируются и включаются в файлы со статистикой следующие виды ошибок:
 

  1. Есть TeX-нотации в файле, нет на бумаге.
  2. Есть на бумаге формулы, нет TeX-нотаций в файле.
  3. Есть формулы на бумаге и в файле в ASCII виде.
  4. Формула на бумаге не соответствует формуле, странслированной на экране (сравнить).
  5. Есть ошибки, выявленные при трансляции, без учета специальных действий оператора. Сосчитать количество.
  6. Формула не проходит трансляцию в LaTeX 2.09 из-за того, что применен другой макропакет.
  7. Удалось ли скорректировать документ для трансляции в LaTeX 2.09: документ странслировался сразу; документ странслировался после коррекции.

После предварительного анализа документов, было принято решение проводить трансляцию всех форм заявок и отчетов с использованием пакета LaTeX 2.09. Однако, существует возможность на основе анализа файла со статистикой выдать оператору рекомендации по выбору макропакета и форматного файла, которые предположительно использовал автор документов.

Ниже приведен пример фрагмента файла со статистикой, из которого также видно какая преамбула и постамбула применялись для трансляции документов. В данный файл включается TeX-структура документа и все встречные формулы. Трансляция проводилась для всех документов с использованием форматного файла lhnfss .

 Форма513: Текст документа не загружен в базу !!!Форма514: Текст документа не загружен в базу !!!Форма515:7 Текст документа не загружен в базу !!!Форма516: Текст документа не загружен в базу !!!Форма517: Текст документа не загружен в базу !!!Число рисунков: 0 Номер п/п: 5. Учетный номер: 960xxxx Номер проекта: 96-03-yyyyy Вид проекта: а Область знаний: 03 Оператор ФЛК: 026 Номера форм: форма501 форма502 форма503 форма506 форма509 форма512 форма510 0  2Форма501: !STATISTICS {{{}}}\Форма 3317000 {{{}}}\TexТолькоНаБумаге    [0,1] {{{}}}\TexТолькоВФайле      [0,1] {{{}}}\Таблицы              [0,N] {{{}}}\НаБумагеПоДругому    [0,1] {{{}}}\КоличествоОшибок     [N] {{{}}}\НеЛаТеХДваНольДевять [Plain Tex, AMSTeX, LaTeX 2.09, LaTex 2e] {{{}}}\Странслирован        [0,1,2] {{{}}}\Файл 3317000.tex {{{}}}\Структура \documentstyle[12pt,russian,verbasci,amsfonts,amssymb]{article} %\documentstyle[12pt,russian,verbasci]{article} \setlength{\textheight}{255mm} \setlength{\textwidth}{170mm} \hoffset=-3cm \voffset=-3cm \footskip=7mm \newcommand{\fig}[2]{(см. рис. #2 в файле #1)} %% CyrTUG - LH fonts % Знак номера %\newcommand{\No}{\No} % кавычки типа ,,лапки'' \newcommand{\glqq}{<<} \newcommand{\grqq}{>>} % кавычки типа <<елочки>> \newcommand{\flqq}{\qr} \newcommand{\frqq}{''} \newfont{\ttascii}{cour at 12pt} \begin{document} \thispagestyle{plain} \normalsize \end{document} {{{}}}\Команды \begin 1 \end 1 \newcommand 6 \newfont 1 \normalsize 1 \setlength 2 \thispagestyle 1 {{{}}}\СтрочныеФормулы $$$$ $А_aМХ_2$ $МХ_2$ $TaSe_2$ $d_{z^2}$ $d^1$ $Ga_aTaSe_2$ $Ta_4$ $t_{2g}$ $Ta_xRe_{1-x}Se_2$ $Ta_xRe_{1-x}Se_2$ {{{}}}\ВыключныеФормулы $$$$$$$$ {{{}}}\ФайлВход Q:\TEX\3317000.tex {{{}}}\СтрокФайлВход 46 {{{}}}\ФайлВыход Q:\TEX\3317000.sta {{{}}}\ЗаписейВФайлВыход 43 {{{}}}\ДлинаФайлВход 2950 {{{}}}\ДлинаTeXКоманд 116 {{{}}}\ДлинаВыключных 0 {{{}}}\ДлинаСтрочных 99 {{{}}}\КонецФормы 3317000

В процессе опытной эксплуатация рабочего месте оператора подсистемы «Регистрация» при регистрации заявок и отчетов, содержащих TeX-нотации; было отобрано 54 отчета по физике за 1997 год. После соответствующей обработки TeX-нотаций и исправления ошибок были получены следующие данные:

1) Два документа не содержали формул. В документах практически не содержалось выключных формул.
2) Наибольшее число ошибок содержала 503 форма. Именно в ней чаще всего встречались неправильно оформленные таблицы, которые почти все пришлось кодировать заново.
3) Достаточно часто формулы были представлены только в бумажном варианте отчета. В электронном варианте TeX-разметка отсутствовала. Именно этот вариант порождает массу ошибок при компиляции и требует от операторов полного перенабора формул. Для 503 формы таких отчетов было 36 процентов.
4) Наиболее часто встречались отчеты, в бумажных вариантах которых вместо формул была представлена их TeX-разметка. Для 509 формы 8 процентов.
5) Встречались отчеты, в бумажном варианте которых формулы были кодированы не с помощью TeX’а.

В связи с большим количеством ошибок кодирования формул или отсутствием оных в электронных вариантах документов на операторов-контролеров комплекса ложится большая работа по кодированию и правке таблиц и формул для совпадения с бумажным вариантом. Оператор одновременно должен выполнять и функции корректора. При таком подходе общее качество выходных документов не может быть очень высоким. В тоже время общий объем документов, содержащих кодированные математические формулы не велик. Тем не менее, желательно снабдить рабочие места операторов дополнительными средствами автоматизации синтаксического контроля и процедурой для помощи в распознавании применяемых заявителями макропакетов.

Были испробованы две программы. Первая TEXCHK (автор JP Massar), входящая в состав пакета EmTeX. Эта программа не плохо справляется с анализом не слишком больших файлов, не содержащих \input , проверяет синтаксис конструкций LaTeX, быстро работает. Однако, программа останавливается на первой найденной ошибке. Ее применение на сравнительно коротких файлах с отчетами оказалось не оправданным, быстрее выполнить несколько компиляций с проталкиванием ошибок, и затем двигаться по ошибкам в среде ME

Вторая программа — ChkTeX v. 1.5 (автор Jens T. Berger Thielmann) использовалась для приведения выходных файлов, прошедших компиляцию и правку, к стандартизованному полиграфическому оформлению. Программа легко настраивается с помощью конфигурационного файла, позволяет выявлять нежелательные конструкции языка LaTeX. Была использована настройка на некоторое подмножество операторов LaTeX, входящее в набор операторов языка броузера IBM TechExplorer. Формат выходного файла конфигурировался в стиле «File», line Line: Warning message . Выходной файл использовался либо автоматическим корректором некоторых конструкций, написанным на языке Perl, либо в редакторе ME для указания местоположения ошибок, аналогично использованию .log файла TeX компилятора.

В результате опытной эксплуатации экспериментальной версии интегрированной корректирующей TeX-системы можно сделать вывод, что данная технология позволяет обрабатывать политематический поток документов. A при введении в правила оформления РФФИ разумных ограничений на используемые макропакеты и способы кодирования формул ввести в эксплуатацию полуавтоматические средства улучшения и стандартизации полиграфического вида документов.


Источник: hr-portal.ru