Промт-инъекция, видео Карпатого и пара быстрых моделей
Начал проходить курс “AI Safety fundamentals”, и там есть видео Андрея Карпатого про LLM. Больше половины инфы оттуда я знал, но:
- идея про то, что языковые модели как класс программ ведут себя аналогично операционным системам (LLM OS). Подробности по ссылке (видео на английском).
- там очень классное описание возможных атак на LLM (промт-инъекций и не только), со ссылками на статьи. Понятно, что это всё прикрывается достаточно быстро.
- Jailbroken: How Does LLM Safety Training Fail?
- оттуда, например - про base64 кодирование как метод обхода. LLM умеют читать base64, но не защищены.
- ещё пара статей про отдельные виды атак (ссылка с таймкодом на последнюю часть видео про это), в том числе на мультимодальные модели.
- Universal and Transferable Adversarial Attacks on Aligned Language Models - про универсальный, выглядящий набором мусора промт-суффикс. Это надо смотреть.
- Jailbroken: How Does LLM Safety Training Fail?
Пара (ныне недоступных) быстрых моделей⌗
- Groq (ixbt) - ASIC (специализированная микросхема) для быстрого инференса LLM. Потыкать можно тут, (там Llama, Mistral, есть платное АПИ), это впечатляет скоростью. В какой-то момент без прокси перестало быть доступным.
- https://fastsdxl.ai - это быстрая генерация картинок, со скоростью ввода. Скорость достигнута в т.ч. благодаря использованию маленькой модели SD XL Lightning. Сейчас недоступна, обещают вернуться.
Остальные записи