Адреса сетей в JSON

 AI Fine Tuning Qwen2.5

Prompt


В этих примерах использованы конкретные адреса сетей. Надо ли создавать примеры для fine tuning, в которых будет использован какой-то "шаблон" адресов сетей? Или эти примеры должны быть составлены для всех используемых адресов сетей?

Ответ ИИ

Отличный вопрос! Он касается генерализации модели. Вот подробный ответ:


Не нужно создавать примеры для всех возможных адресов сетей. Но и не нужно использовать абстрактные "шаблоны" вроде {network1}. Лучший подход — разнообразие реальных адресов из разных диапазонов, чтобы модель выучила структуру, а не конкретные числа.


Почему не нужны все адреса

Модель Qwen2.5 (7B) достаточно умна, чтобы обобщать:


Она поймёт, что 192.168.x.x, 10.x.x.x, 172.16-31.x.x — это частные сети


Она выучит паттерны: "если next-hop via X, то должен существовать connected-маршрут, покрывающий X"


Абсолютные значения адресов не важны, важна связность между записями


Почему не нужны шаблоны

Использовать плейсхолдеры {network1}, {next-hop} в training set — плохая идея:


JSON


ПЛОХО - модель выучит буквальный текст {network}

{"input": "C {network} is directly connected... S {network} via {next-hop}"}

Проблемы:


Модель не увидит реальных чисел и не поймёт синтаксис Cisco


При инференсе вы не сможете подставить реальные адреса в промпт (или придётся писать сложный pre-processing)


Fine-tuning с шаблонами ухудшает способность к реальному анализу


Правильный подход: разнообразие без покрытия всех адресов

Вот достаточное разнообразие для training set (20-30 примеров):


1. Разные классы адресов

Class A частные: 10.0.0.0/8, 10.1.1.0/24, 10.88.88.0/24


Class B частные: 172.16.0.0/16, 172.31.1.0/24, 172.18.0.0/16


Class C частные: 192.168.0.0/24, 192.168.100.0/24, 192.168.254.0/24


Публичные: 8.8.8.0/24, 203.0.113.0/24, 198.51.100.0/24


2. Разные длины масок

/8, /16, /24, /32 (host route)


3. Разные интерфейсы

GigabitEthernet0/0, FastEthernet0/1, Ethernet0/0, Vlan1, Loopback0, Eth0/0


4. Разные next-hop в пределах одной connected-сети

text

C 10.0.0.0/24

→ via 10.0.0.1, via 10.0.0.2, via 10.0.0.254, via 10.0.0.100



AI Fine Tuning Qwen2.5





Комментарии

Популярные сообщения из этого блога

Рекомендуемый размер датасета

Fine Tuning Data Set