Multimodal Models

Якщо LLM навчаються працювати виключно з текстом, то мультимодальні моделі (multimodal models) — це наступний етап розвитку штучного інтелекту, який поєднує різні типи даних: текст, зображення, аудіо й навіть відео. Вони здатні проаналізувати зображення, врахувати підпис до нього, розпізнати голосовий запит — і об'єднати всю цю інформацію, щоб сформувати цілісну й контекстуальну відповідь.

Multimodal models навчаються на поєднаних наборах даних, наприклад, на зображеннях із підписами або відео з озвученням. Це дозволяє їм розуміти взаємозв’язки між різними «модальностями» (тобто типами інформації). Завдяки цьому такі моделі можуть, наприклад, зчитати фото рукописного тексту, зрозуміти його зміст і переказати його вголос або у вигляді структурованого тексту.

Можна сказати, що multimodal models — це ШІ, який «бачить», «чує» і «читає» одночасно. Вони не просто «розуміють» окремо текст або картинку, а й поєднують ці джерела інформації в одне цілісне уявлення про контекст. Multimodal models стали основою інструментів, які вміють не лише відповідати на запити в чаті, а й аналізувати зображення, генерувати картинки за текстовим описом, створювати відео, озвучувати текст або навіть відповідати на питання на основі фото.

У 2025 році провідні інструменти, такі як ChatGPT, Gemini, Claude та Copilot стали мультимодальними.