Вопрос или проблема
Я использую Windows 10, и у меня есть PDF с текстом на тамильском языке. При нажатии Ctrl + D и затем на вкладке ‘Шрифты’, я замечаю, что используются следующие шрифты:
- TAB-LFS-Kamban (встроенный поднабор)
- TAMLKamban (встроенный поднабор)
Когда я пытаюсь скопировать текст в Word, я вижу другие символы.
Где я могу скачать вышеуказанные шрифты? Есть ли другой способ скопировать тамильский текст из PDF в Word?
Вы можете скачать шрифт здесь
Что касается копирования, вы можете попробовать выделить текст в Word и установить шрифт, который поддерживает тамильский набор символов (с высокой вероятностью Arial и Times New Roman поддерживают такие символы)
Если я правильно помню, Kamban использует собственное кодирование – tab/tam или TSCII (не помню, какое именно), и шрифт встроен. Я подозреваю, что Word использует только Unicode.
Для дополнительного ‘удовольствия’ – существовало несколько ‘стандартных’ текстовых процессоров, предшествовавших Unicode для данного языка – это может быть кодирование TSCII или TAB/TAM, поэтому наличие примера для тестирования может быть полезным.
Разработчики Kamban, похоже, выпустили свое программное обеспечение бесплатно – существует программное обеспечение для конвертации, которое возьмет текстовый файл, позволит вам указать шрифт и преобразовать в Unicode. Копирование/вставка вашего текста в блокнот и испытание этих форматов, пока один из них не подойдет, – ваши наилучшие шансы.
Тамильские шрифты часто основаны на суперкодировке Unicode и TACE16, которые не всегда хорошо обрабатываются PDF или буфером обмена. Чтобы узнать больше на эту тему и получить распознаваемые шрифты, обратитесь к https://www.tamilvu.org/ta/tkbd-index-341488
Важно, чтобы авторы проверяли свои PDF с помощью “Чтение вслух”, чтобы гарантировать, что вывод шрифта не “звучит” искаженно, поскольку если он не подходит для аудиочитателей, то не мог быть правильно встроен в PDF в качестве шрифта (простой графики).
К сожалению, даже у респектабельных источников могут быть ошибки.
PDF обычно используется в качестве графического медиа для справки в OpenTamil, поскольку извлечение из PDF является худшей стороной во всем этом.
https://github.com/search?q=repo%3AEzhil-Language-Foundation%2Fopen-tamil+pdf&type=code
Для инструмента транслитерации см. https://tamilpesu.us/en/tsci/
Одним из лучших блокнотов для использования с тамильским является Notepad++, и для настройки смотрите https://sourceforge.net/p/notepad-plus/patches/516/ Также посмотрите, может ли https://github.com/ThaniThamizhAkarathiKalanjiyam/AnyTaFont2UTF8 помочь улучшить это использование
Для другого вопроса, также касающегося таких проблем, смотрите не могу скопировать конкретные символы из PDF. В чем причина и как мне это диагностировать?
Ответ или решение
Копирование текста на тамильском языке из PDF в Microsoft Word может быть проблематичным, если шрифты использованы в PDF не поддерживают стандартный кодировщик Unicode. Ниже приведен полный ответ на ваш вопрос, чтобы помочь вам с этой задачей.
1. Установка необходимых шрифтов:
Для начала вам стоит установить шрифты, которые, как вы упомянули, используются в вашем PDF-документе. Шрифты, такие как TAMLKamban и TAB-LFS-Kamban, могут быть скачаны из интернета. Например, вы можете загрузить TAMLKamban здесь.
2. Проблема с кодировкой:
Как вы отметили, многие тамильские шрифты основаны на собственных кодировках, таких как TSCII или TAB/TAM, которые не всегда хорошо обрабатываются PDF или буфером обмена. Если при копировании текста из PDF в Word вы видите искаженные символы, это может быть связано с тем, что PDF использует специфические для этих шрифтов коды, которые не интерпретируются стандартными текстовыми редакторами.
3. Альтернативные способы копирования текста:
-
Использование текстового редактора: Пожалуй, самый простой способ — это попробовать выделить текст в PDF и вставить его в текстовый редактор (например, Notepad или Notepad++), а затем сохранить его в удобном формате. Убедитесь, что редактируете текст в кодировке, поддерживающей тамильские символы. Notepad++ может помочь с этой задачей благодаря поддержке множества кодировок.
-
Конвертация шрифтов: Еще одним вариантом является использование конвертеров шрифтов, таких как Kamban Unicode Converter, которые могут преобразовать текст из нестандартного формата (например, TSCII) в Unicode. Вы можете создать текстовый файл, указать соответствующий шрифт и выполнить конвертацию.
-
Проверка параметров PDF: Проверьте, правильно ли шрифты в вашем PDF-документе встроены. Если они встроены некорректно, это может приводить к искажению текста при копировании.
4. Использование ресурсов и инструментов:
Вы также можете воспользоваться онлайн-ресурсами и инструментами, такими как:
- TamilPesu для инструментов транслитерации.
- Платформой для просмотра различных кодировок тамильских шрифтов на TamilVU.
- Ссылки на GitHub для решений кода, связанных с тамильскими шрифтами, вполне могут оказаться полезными.
5. Проверка PDF-документов:
Рекомендуется проверить PDF-документы с помощью функции "Чтение вслух", чтобы убедиться, что шрифты правильно встроены и для сопоставления с экранами чтения.
Таким образом, учитывая вышеизложенное, имеется несколько путей для успешного копирования и использования тамильского текста из PDF-документов в Word. Это может потребовать некоторых усилий в зависимости от специфики документа и шрифтов.