Large Language Models

Хоча перші моделі GenAI були зосереджені на створенні зображень, справжній «вибух» у впровадженні ШІ стався з появою large language models | LLMs (великих мовних моделей). Ці моделі навчаються на величезних обсягах текстових даних, що дозволяє їм генерувати відповіді, подібні до людських, і допомагати у виконанні різноманітних завдань від відповідей на запитання до написання коду. LLMs є основою популярних рішень на базі штучного інтелекту, зокрема ChatGPT від OpenAI та Gemini від Google.

Large language models обробляють текст, розбиваючи його на менші одиниці, які називаються токенами. Це можуть бути слова, фрагменти слів або навіть символи, залежно від дизайну моделі.

Коли велику мовну модель просять щось згенерувати, вона обчислює найімовірніший наступний токен на основі того, що вона «бачила» під час навчання. По суті, вона передбачає наступне слово в реченні на основі мовних закономірностей. Ти, напевно, користувався(лась) автодоповнювачем на телефоні. Наприклад, коли ти набираєш «З днем народження…», клавіатура підказує «тебе!».

LLMs «вгадують» наступний токен у набагато більших масштабах, ніж автодоповнювач. Вони не зберігають заздалегідь написані відповіді, не «розуміють» тебе і не «знають» факти, як це роблять люди. Вони статистично прогнозують наступний токен на основі вивчених шаблонів у величезних обсягах текстових даних. Ось чому деякі люди жартома називають великі мовні моделі «автодоповнювачами на максималках».

LLMs також можуть бути інтегровані з іншими спеціалізованими моделями, які обробляють різні типи даних, такі як зображення, аудіо чи відео. Такі комбіновані системи називаються multimodal models (мультимодальні моделі).