Скопируйте и вставьте тамильский шрифт из PDF в MS Word

Вопрос или проблема

Я использую Windows 10, и у меня есть PDF с текстом на тамильском языке. При нажатии Ctrl + D и затем на вкладке ‘Шрифты’, я замечаю, что используются следующие шрифты:

  • TAB-LFS-Kamban (встроенный поднабор)
  • TAMLKamban (встроенный поднабор)

Когда я пытаюсь скопировать текст в Word, я вижу другие символы.

Где я могу скачать вышеуказанные шрифты? Есть ли другой способ скопировать тамильский текст из PDF в Word?

Вы можете скачать шрифт здесь

Что касается копирования, вы можете попробовать выделить текст в Word и установить шрифт, который поддерживает тамильский набор символов (с высокой вероятностью Arial и Times New Roman поддерживают такие символы)

Если я правильно помню, Kamban использует собственное кодирование – tab/tam или TSCII (не помню, какое именно), и шрифт встроен. Я подозреваю, что Word использует только Unicode.

Для дополнительного ‘удовольствия’ – существовало несколько ‘стандартных’ текстовых процессоров, предшествовавших Unicode для данного языка – это может быть кодирование TSCII или TAB/TAM, поэтому наличие примера для тестирования может быть полезным.

Разработчики Kamban, похоже, выпустили свое программное обеспечение бесплатно – существует программное обеспечение для конвертации, которое возьмет текстовый файл, позволит вам указать шрифт и преобразовать в Unicode. Копирование/вставка вашего текста в блокнот и испытание этих форматов, пока один из них не подойдет, – ваши наилучшие шансы.

Тамильские шрифты часто основаны на суперкодировке Unicode и TACE16, которые не всегда хорошо обрабатываются PDF или буфером обмена. Чтобы узнать больше на эту тему и получить распознаваемые шрифты, обратитесь к https://www.tamilvu.org/ta/tkbd-index-341488

Важно, чтобы авторы проверяли свои PDF с помощью “Чтение вслух”, чтобы гарантировать, что вывод шрифта не “звучит” искаженно, поскольку если он не подходит для аудиочитателей, то не мог быть правильно встроен в PDF в качестве шрифта (простой графики).

К сожалению, даже у респектабельных источников могут быть ошибки.
введите описание изображения здесь
введите описание изображения здесь

PDF обычно используется в качестве графического медиа для справки в OpenTamil, поскольку извлечение из PDF является худшей стороной во всем этом.
https://github.com/search?q=repo%3AEzhil-Language-Foundation%2Fopen-tamil+pdf&type=code

Для инструмента транслитерации см. https://tamilpesu.us/en/tsci/

Одним из лучших блокнотов для использования с тамильским является Notepad++, и для настройки смотрите https://sourceforge.net/p/notepad-plus/patches/516/ Также посмотрите, может ли https://github.com/ThaniThamizhAkarathiKalanjiyam/AnyTaFont2UTF8 помочь улучшить это использование

Для другого вопроса, также касающегося таких проблем, смотрите не могу скопировать конкретные символы из PDF. В чем причина и как мне это диагностировать?

Ответ или решение

Копирование текста на тамильском языке из PDF в Microsoft Word может быть проблематичным, если шрифты использованы в PDF не поддерживают стандартный кодировщик Unicode. Ниже приведен полный ответ на ваш вопрос, чтобы помочь вам с этой задачей.

1. Установка необходимых шрифтов:

Для начала вам стоит установить шрифты, которые, как вы упомянули, используются в вашем PDF-документе. Шрифты, такие как TAMLKamban и TAB-LFS-Kamban, могут быть скачаны из интернета. Например, вы можете загрузить TAMLKamban здесь.

2. Проблема с кодировкой:

Как вы отметили, многие тамильские шрифты основаны на собственных кодировках, таких как TSCII или TAB/TAM, которые не всегда хорошо обрабатываются PDF или буфером обмена. Если при копировании текста из PDF в Word вы видите искаженные символы, это может быть связано с тем, что PDF использует специфические для этих шрифтов коды, которые не интерпретируются стандартными текстовыми редакторами.

3. Альтернативные способы копирования текста:

  • Использование текстового редактора: Пожалуй, самый простой способ — это попробовать выделить текст в PDF и вставить его в текстовый редактор (например, Notepad или Notepad++), а затем сохранить его в удобном формате. Убедитесь, что редактируете текст в кодировке, поддерживающей тамильские символы. Notepad++ может помочь с этой задачей благодаря поддержке множества кодировок.

  • Конвертация шрифтов: Еще одним вариантом является использование конвертеров шрифтов, таких как Kamban Unicode Converter, которые могут преобразовать текст из нестандартного формата (например, TSCII) в Unicode. Вы можете создать текстовый файл, указать соответствующий шрифт и выполнить конвертацию.

  • Проверка параметров PDF: Проверьте, правильно ли шрифты в вашем PDF-документе встроены. Если они встроены некорректно, это может приводить к искажению текста при копировании.

4. Использование ресурсов и инструментов:

Вы также можете воспользоваться онлайн-ресурсами и инструментами, такими как:

  • TamilPesu для инструментов транслитерации.
  • Платформой для просмотра различных кодировок тамильских шрифтов на TamilVU.
  • Ссылки на GitHub для решений кода, связанных с тамильскими шрифтами, вполне могут оказаться полезными.

5. Проверка PDF-документов:

Рекомендуется проверить PDF-документы с помощью функции "Чтение вслух", чтобы убедиться, что шрифты правильно встроены и для сопоставления с экранами чтения.

Таким образом, учитывая вышеизложенное, имеется несколько путей для успешного копирования и использования тамильского текста из PDF-документов в Word. Это может потребовать некоторых усилий в зависимости от специфики документа и шрифтов.

Оцените материал
Добавить комментарий

Капча загружается...