Определение нейронной сети для состояния кэша

Question

Я работаю над проектом, связанным с набором данных примеров промахов кэша. Входные признаки модели структурированы следующим образом:

Особенности для каждого пути и входящей строки:

[Индекс пути, адрес памяти, будущий RD, рейтинг давно не использовавшихся, количество обращений, тип последнего доступа, количество загрузок, количество RFO, количество предвыборок]

Чтобы идентифицировать входящую строку, мы присваиваем ей way_index = 16, что также помогает, потому что если не производится выселение, симулятор возвращает victim_way = 16, следуя тому же механизму.

Тем не менее, учитывая, что всего есть 17 путей (включая входящую строку), это приводит к общему количеству 153 признаков на пример (17 × 9).

Особенности уровня набора:

Набор, вовлеченный в этот пример, представлен вектором, содержащим:

[Индекс набора, будущий RD набора, коэффициент промаха набора, коэффициент попадания набора]

Это приводит к 4 признакам на набор на пример.

Информация, связанная с доступом

Операция доступа, вызвавшая промах, кодируется со следующими атрибутами:

[Адрес ПК доступа, количество обращений, количество обращений с момента промаха, тип доступа] 4 признака на доступ на пример

Решение эксперта – Метка

Для каждого примера мы включаем выселенный путь, который представляет решение эксперта. Он кодируется в виде двоичного вектора, где индекс, соответствующий выселенному пути, устанавливается в 1.

Я попробовал следующую модель:
{
class BCModel(nn.Module):
def init(self):
super(BCModel, self).init()

    # Кодировщики
    self.set_encoder = nn.Linear(4, 16)  # Кодировщик уровня набора
    self.cache_encoder = nn.Linear(153, 64)  # Кодировщик кэш-пути
    self.access_encoder = nn.Linear(4, 16)  # Кодировщик уровня доступа
    
    # Нормализация после кодировщиков
    self.bn_set = nn.BatchNorm1d(16)
    self.bn_cache = nn.BatchNorm1d(64)
    self.bn_access = nn.BatchNorm1d(16)

    # Слой внимания
    self.set_attention = nn.Linear(16 + 64, 32)  # Слой внимания уровня набора
    self.access_attention = nn.Linear(16 + 64, 32)  # Слой внимания уровня доступа
    
    # Полностью связанная сеть (FNN)
    self.fc1 = nn.Linear(32 + 32, 64) # объединяет выходы внимания
    self.fc2 = nn.Linear(64, 32) # сокращает сложность
    self.output_layer = nn.Linear(32, 17)  # прогнозирует вероятности выселения для 17 путей выселения
    
def forward(self, set_features, cache_features, access_features):
    """
    Прямой проход модели.
    :param set_features: Тензор формы (batch_size, 4)
    :param cache_features: Тензор формы (batch_size, 153)
    :param access_features: Тензор формы (batch_size, 4)
    :return: Ранжирование выселения для каждого пути кэша (batch_size, 17)
    """

    batch_size = cache_features.shape[0]  # Получить размер пакета
    cache_features = cache_features.view(batch_size, -1)  # Изменить форму с (batch_size, 17, 9) → (batch_size, 153)

    # Кодировочные слои
    set_encoded = F.relu(self.set_encoder(set_features))
    cache_encoded = F.relu(self.cache_encoder(cache_features))
    access_encoded = F.relu(self.access_encoder(access_features))
    
    # Слой внимания
    set_attention_out = F.relu(self.set_attention(torch.cat([set_encoded, cache_encoded], dim=1)))
    access_attention_out = F.relu(self.access_attention(torch.cat([access_encoded, cache_encoded], dim=1)))
    
    # Слой слияния для комбинирования выходов внимания 
    fused = torch.cat([set_attention_out, access_attention_out], dim=1)
    
    # Полностью связанные слои
    x = F.relu(self.fc1(fused))
    x = F.relu(self.fc2(x))

    # Генерация начальных оценок выселения (логиты)
    probabilities = self.output_layer(x) 
    
    # Конвертация вероятностей в ранги выселения
    _, eviction_ranks = torch.sort(probabilities, descending=True, dim=1)  # Сортировка в порядке убывания
    
    return probabilities, eviction_ranks

}

Я постоянно наблюдаю высокий уровень потерь на валидации (около 2.3), что заставляет меня сомневаться, правильно ли моя модель структурирована для этой задачи. Есть ли у вас какие-либо предложения по ее улучшению?

Определение нейронной сети для состояния кэша

Вопрос или проблема

Ответ или решение

Теория

Пример

Применение

Заключение