Как извлечь характеристики из длинных химических названий?

Question 1

У меня есть интересная проблема, не знаю даже, с чего начать. Я работаю над бинарным классификатором, который будет принимать химическое название, закодированное в виде строки, и прогнозировать, является ли оно ‘хорошим’ или ‘плохим’. Мне удалось достичь довольно хороших результатов, исследуя структуру химического вещества напрямую, но я хотел бы изучить, можно ли извлечь что-то из самого названия химического вещества (так как имя может содержать информацию о структуре молекулы, которую моя кодировка молекулярной структуры не учитывает). Я искал информацию о встроенных в sklearn методах извлечения текстовых признаков. Существует довольно много таких методов, но в основном они, кажется, предназначены для кодирования целых предложений или абзацев. Мой вход будет представлять собой очень длинные отдельные слова, такие как:

1-(аминимоидинометил)-N’-[2,3,6-три-O-бензоил-4-O-(2,3,4,6-тетра-O-бензоил-α-D-глюкопиранозил)-β-D-глюкопиранозил]-

2,4,5-тридеоксид-2-[(16-меркапто-1-оксогексадецил)амино]-1,3-O-(1-метилетилиден)-6-O-ундеканил-

октахидро-7-гидрокси-1-[[2-O-(4-гидроксибензоил)-α-D-аллопиранозил]окси]-7-метил-

Поэтому я не уверен, что мешок слов или одноразовое кодирование строк сможет сработать. Может быть, кто-то может указать мне правильное направление по методологиям или алгоритмам, которые могли бы извлечь признаки из этих строк, чтобы я мог обучить на них бинарный классификатор?

Question 2

Процесс разделения текста на мелкие единицы называется токенизацией.

Большинство систем токенизации представляют собой комбинации жестко закодированных правил (например, методы строк или регулярные выражения) и обучаемых правил (например, машинное обучение). Многие токенизации можно решить с помощью жестко закодированных правил.

Затем токены могут быть закодированы методом one-hot.

Вот небольшой код для начала:

import re

words = ["1-(аминимоидинометил)-N'-[2,3,6-три-O-бензоил-4-O-(2,3,4,6-тетра-O-бензоил-α-D-глюкопиранозил)-β-D-глюкопиранозил]-",

"2,4,5-тридеоксид-2-[(16-меркапто-1-оксогексадецил)амино]-1,3-O-(1-метилетилиден)-6-O-ундеканил-",
         "октахидро-7-гидрокси-1-[[2-O-(4-гидроксибензоил)-α-D-аллопиранозил]окси]-7-метил-",]
tokens = []

for word in words:
    # Удаляем неинформативные символы
    word = word.replace("[", "").replace("]", "").replace("(", "").replace(")", "")
    # Разделяем
    tokens.append(re.split(r"-", word))

Question 3

Вы можете обучить РНН с помощью векторов символов. Это можно сделать, разбив название на последовательности символов и векторизовав их численно. Если вы работаете с Keras, вы можете передать их в слой Embedding(), который научится представлять символы. Слои РНН затем будут обрабатывать их последовательность. На выходном узле ваша сеть выполнит классификацию (‘хороший’ / ‘плохой’).

Как извлечь характеристики из длинных химических названий?

Вопрос или проблема

Ответ или решение

1. Токенизация названий

2. Преобразование токенов в числовые векторы

3. Обучение модели

4. Оценка и валидация модели

Заключение