Глосарій

AI Node (Вузол ШІ)

Глибинне навчання

Точка обробки в архітектурі ШІ — часто синонім штучного нейрона в нейронних мережах, але також загальніше: специфічна точка в графі обробки. У сучасних підходах, таких як Graph of Thoughts або Tree of Thoughts, Node представляє крок мислення або міркування, який обробляє вхідні дані та передає виходи повʼязаним вузлам.

Приклад:

У нейронній мережі кожен вузол — це маленька обчислювальна одиниця: вона отримує зважені вхідні дані, підсумовує їх, застосовує функцію активації та передає результат далі. У системі Tree of Thoughts кожен вузол представляє можливий шлях міркування — як гілки на дереві, де модель паралельно досліджує різні підходи до вирішення.

Інструменти

Claude Code — це агентний інструмент командного рядка від Anthropic для розробки програмного забезпечення, що базується на великій мовній моделі Claude. Він працює переважно в терміналі (командний рядок, CLI) і може додатково інтегруватися у середовища розробки (наприклад, розширення для VS Code); сам по собі він не є IDE. Claude Code дає змогу розробникам керувати складними програмними проектами та створювати їх за допомогою природної мови. ШІ здатний автономно генерувати код, проводити рефакторинг, налагоджувати і приймати архітектурні рішення. Claude Code вирізняється здатністю розуміти цілі структури проектів, дотримуватися послідовних стандартів кодування й виконувати складні операції з кількома файлами. Система підтримує різні мови програмування та фреймворки, з особливою силою у веб-розробці (Angular, React), бекенд-розробці та автоматизації DevOps. Ключова особливість — 'context engineering' (контекстна інженерія): розробники можуть використовувати структуровану проектну документацію та директиви, щоб давати Claude Code точні інструкції для конкретних завдань розробки. Це уможливлює нову форму розробки програмного забезпечення за підтримки ШІ, де ШІ виступає повноцінним партнером у розробці.

Приклад:

Розробник може попросити Claude Code: 'Створи Angular-компонент для профілю користувача на TypeScript, інтегруй компоненти PrimeNG і переконайся, що всі тексти локалізовані через TranslationService.' Claude Code не лише генерує код, а й дотримується проектних конвенцій, оновлює пов'язані файли та документує зміни.

CLI

Основи

CLI (Command Line Interface) — це текстовий інтерфейс користувача, за допомогою якого можна керувати програмами та функціями операційної системи, вводячи команди. На відміну від графічного інтерфейсу (GUI), CLI забезпечує точне, скриптоване управління і активно використовується розробниками та адміністраторами.

Також відомий як:Командний рядок, Консольний інтерфейс, Термінал

Приклад:

Командою "python train.py --epochs 50" можна запустити навчання AI прямо з командного рядка, не відкриваючи жодного графічного інтерфейсу.

Clustering Validation

Машинне навчання

Clustering Validation (валідація кластеризації) — оцінювання якості результатів кластеризації в ненаглядному машинному навчанні. Оскільки при кластеризації відсутні достовірні мітки, спеціальні метрики мають оцінити якість знайдених кластерів. Основні категорії: внутрішня валідація (лише структура даних), зовнішня валідація (з опорними даними) та відносна валідація (порівняння результатів одного методу при різних параметрах, передусім різній кількості кластерів k; порівняння різних алгоритмів є окремим випадком). Важливі внутрішні метрики: силуетний коефіцієнт (вимірює згуртованість і відокремленість, значення від -1 до +1), індекс Девіса-Болдіна (нижчі значення = кращі кластери) та індекс Калінського-Харабаша. Поширений відносний метод для визначення кількості кластерів — метод ліктя, який відстежує динаміку інерції (WCSS) для різних значень k. Ці методи допомагають визначити оптимальну кількість кластерів і порівняти результати кластеризації. Хороші кластери є внутрішньо однорідними (схожі точки даних) та зовнішньо відокремленими (різні кластери далеко один від одного).

Також відомий як:Валідація кластеризації, Оцінювання кластеризації, Вимірювання якості кластерів, Clustervalidierung

Приклад:

При застосуванні K-Means до даних клієнтів розраховують силуетний коефіцієнт для k=2 до k=10 кластерів. При k=3 коефіцієнт досягає 0.72, при k=5 — лише 0.45. Водночас метод ліктя показує чіткий злам при k=3. Обидві метрики валідації підтверджують: 3 кластери є оптимальними для цієї сегментації клієнтів.

Collaborative Filtering

Машинне навчання

Collaborative Filtering (колаборативна фільтрація) — мистецтво рекомендацій через колективний інтелект. Основна ідея: рекомендації формуються на основі поведінки багатьох користувачів без необхідності аналізувати самі об'єкти. Три підходи домінують у цій сфері. При CF на основі користувачів система знаходить тих, чиї вподобання схожі ('Користувачі A і B обидва сподобалися фільми X і Y — якщо A подобається Z, то й B, мабуть, сподобається'). При CF на основі об'єктів замість цього пов'язують схожі елементи ('хто купив цю книгу, купив і ту') — це канонічний шаблон функції 'Покупці також придбали' від Amazon. При CF на основі моделі, наприклад матричній факторизації, система навчає латентні фактори з матриці оцінок; цей варіант прославився завдяки конкурсу Netflix Prize. Спільне для всіх підходів: лише дані про поведінку, жодного аналізу вмісту.

Приклад:

Netflix бачить: ви оцінили 'Breaking Bad' на 5 зірок. Тисячі інших користувачів зі схожим смаком також високо оцінили 'Better Call Saul' (на основі користувачів). Функція Amazon 'Покупці також придбали' працює навпаки — на основі об'єктів: хто придбав один товар, отримує пропозицію часто куплених разом предметів — не тому що вміст було проаналізовано, а тому що це підказують шаблони покупок.

Computer Science

Основи

Інформатика (Computer Science) — наука про систематичне, зокрема автоматичне, опрацювання інформації за допомогою алгоритмів і комп'ютерів. У центрі стоять такі поняття, як алгоритм, структури даних, обчислюваність і складність — тобто питання, які задачі взагалі можна обчислити і яких витрат це потребує. Традиційно розрізняють теоретичну, практичну, технічну та прикладну інформатику. Для штучного інтелекту інформатика є фундаментальною дисципліною: машинне навчання спирається на алгоритми, структури даних і міркування про складність.

Приклад:

Алгоритм сортування — класичний приклад з інформатики: його можна сформулювати у вигляді точного алгоритму, перевірити на коректність і оцінити за часом виконання (складністю). Саме ці інструменти — аналіз алгоритмів, оцінювання витрат, вибір відповідних структур даних — застосовує й метод навчання при тренуванні моделі ШІ.

Computer Vision

Комп'ютерний зір

Computer Vision — це спроба навчити комп'ютери бачити: захоплюючий проєкт, що є приблизно настільки ж амбітним, як пояснити незрячій людині, що таке синій колір. Але — вражаючим чином це працює: системи ШІ аналізують цифрові зображення та відео з точністю, що вже перевершує людське сприйняття в окремих областях. Як невтомний асистент-радіолог, який ніколи не втомлюється і не має поганих днів, Computer Vision розпізнає патерни, об'єкти й аномалії у візуальних даних. Технологія базується на глибоких нейронних мережах — класично на згорткових нейронних мережах (CNN), але дедалі більше також на Vision Transformers (ViT) та архітектурах на основі механізму уваги або гібридних підходах. Ці мережі діють як цифрові фільтри і поетапно розпізнають дедалі складніші ознаки — від простих країв до цілих облич або медичних діагнозів. Примітне тут те, що для нас потрібен лише один погляд, а для комп'ютера це — високоскладна математична операція з мільйонами обчислень за секунду.

Також відомий як:Машинний зір, Розпізнавання зображень, Візуальний ШІ, Цифровий зір, Аналіз зображень

Приклад:

Автономний автомобіль у реальному часі розпізнає пішоходів, дорожні знаки та інші машини. Або: медична система аналізує рентгенівські знімки і виявляє пухлини, які людські лікарі могли б пропустити.

Conditional Generation

Генеративний ШІ

Conditional Generation (умовна генерація) — це генерування виходів, орієнтованих на заданий керувальний сигнал, тобто умову. Умовою може бути текстовий промпт, мітка класу або зображення. Протилежністю є некондиційна генерація, при якій модель без жодних вхідних вказівок просто генерує 'щось правдоподібне'. Формально умовна генерація моделює ймовірність p(вихід | умова) замість просто p(вихід): умова цілеспрямовано звужує простір можливих виходів. Цей принцип лежить в основі сучасних дифузійних моделей перетворення тексту на зображення, а також промптингу мовних моделей.

Приклад:

Перетворення тексту на зображення: промпт 'кіт у скафандрі' є умовою — модель генерує не довільне зображення, а таке, що точно відповідає цій вказівці. Інші випадки: генерація зображень, обумовлена класом (мітка 'собака' породжує зображення собаки), або переклад, де вихідне речення зумовлює цільове.

Комп'ютерний зір

ControlNet — техніка для дифузійних моделей, яка забезпечує точний просторовий контроль над генерацією зображень. Тоді як текстові підказки залишаються абстрактними ('людина під дощем'), ControlNet дозволяє точне керування через структурну інформацію: карти країв (Edges), карти глибини (Depth Maps), скелети пози або маски сегментації. Додаткова нейронна мережа обробляє цю контрольну інформацію паралельно із замороженою дифузійною моделлю. Результат: можна з міліметровою точністю задати композицію, перспективу та структуру згенерованого зображення, тоді як модель додає деталі, стиль і текстуру. Контрольована креативність.

Приклад:

Ви завантажуєте схематичний скелет танцювальної пози. ControlNet використовує його як задану позу і генерує фотореалістичне зображення людини саме в цій позі — одяг, обличчя, фон модель доповнює на основі текстового запиту 'балерина на сцені'.

Conversational AI

Галузі застосування ШІ

Conversational AI (розмовний ШІ) — це системи штучного інтелекту, здатні вести діалог з людьми природною мовою: текстом або голосом. В основі лежить конвеєр: спочатку відбувається розуміння вхідних даних (при мовленні — через розпізнавання мови, потім через Natural Language Understanding, що витягує намір і релевантні відомості користувача). Управління діалогом підтримує контекст протягом кількох раундів розмови, вирішує, який наступний крок, і за потреби звертається до джерел знань або функцій. Потім генерація відповіді (Natural Language Generation) формулює доречну відповідь, яка для голосових помічників додатково озвучується через синтез мовлення. Технічно спектр охоплює як системи на основі правил і пошуку, що спираються на заготовлені блоки, так і генеративні системи на базі LLM, що вільно формулюють відповіді. Conversational AI — це загальний термін; чат-боти і голосові помічники є конкретними його різновидами.

Приклад:

Голосові помічники, як-от Siri або Alexa, приймають голосові команди, розуміють намір і відповідають голосом. Чат-бот служби підтримки банку з'ясовує питання клієнта в кілька повідомлень, запам'ятовує попередній хід розмови і лише в разі потреби передає клієнта живому оператору.

Глибинне навчання

Впливовий клас дифузійних моделей для генерації зображень — представлений у 2020 році Джонатаном Хо, Аджаєм Джейном та Пітером Аббелем. DDPMs навчають нейронну мережу поступово видаляти шум із зображень (denoising). Суть у тому, що модель вивчає зворотний процес поступового зашумлення. Під час тренування до зображення поступово додається гаусів шум (Forward Process), доки не залишиться чистий шум. Потім модель навчається обертати цей процес (Reverse Process) — з чистого шуму поступово генерується чітке зображення. Ця архітектура є основою сучасних генераторів зображень, таких як Stable Diffusion та DALL-E 2. У публікації NeurIPS 2020 Ho et al. досягли помітних результатів: Inception Score 9.46 та FID 3.17 на CIFAR10 — на той час найкращі показники для цього бенчмарка.

Приклад:

Stable Diffusion використовує архітектуру DDPM у латентному просторі: замість роботи у високорозмірному піксельному просторі процес дифузії застосовується до стиснутих репрезентацій — ефективніше та швидше при порівнянній якості.

Debate

Етика

Запропонований підхід до вирівнювання ШІ через Scalable Oversight — представлений у 2018 році Джеффрі Ірвінгом, Полом Крістіано та Даріо Амодеї. Основна ідея: два агенти ШІ ведуть дебати між собою, намагаючись переконати людського суддю у своїй позиції. Суддя оцінює лише сам процес дебатів, а не складність питання, яке потрібно вирішити. Припущення: аргументувати на користь істини простіше, ніж на користь хибного твердження. Оригінальна стаття 2018 року підтвердила ідею спочатку лише на іграшкових експериментах з розпізнавання зображень (наприклад, розпізнавання цифр на MNIST). Пізніші дослідження перевірили Debate на завданнях розуміння тексту з прихованою інформацією (Michael et al. 2023, Khan et al. 2024): там людські судді з Debate досягли точності близько 84–88 відсотків порівняно з приблизно 60 відсотками без допомоги та близько 74 відсотками з одним консультантом-експертом. Підхід вирішує центральну проблему Scalable Oversight: як ми можемо перевірити, чи ведуть себе розвинуті системи ШІ відповідно до цінностей, якщо ми більше не можемо повністю відстежити їхні рішення?

Також відомий як:Дебати

Приклад:

У ситуації дебатів модель A аргументує на користь відповіді X, модель B — на користь відповіді Y. Обидві намагаються викрити слабкі місця в аргументах суперника. Людський суддя обирає на основі найпереконливішої аргументації — не маючи самостійно охоплювати повну складність питання.

Техніка промптингу для великих мовних моделей (LLM), при якій у промпті моделі надається кілька прикладів (зазвичай жменька, але залежно від завдання й значно більше) для бажаного завдання. Модель навчається з цих прикладів 'на льоту', без зміни своїх параметрів. Технічно це випадок навчання в контексті (In-Context Learning, ICL): модель розуміє завдання виключно з контексту промпту. У межах цієї таксономії (введеної у статті про GPT-3 Брауна та ін., 2020) розрізняють: Zero-Shot (без прикладів, лише опис завдання), One-Shot (рівно один приклад) і Few-Shot (кілька прикладів). Як короткий навчальний посібник у промпті: 'Переклади англійською: Haus → House, Katze → Cat, Hund → ?' Модель розуміє з патерну, що потрібно, і відповідає 'Dog'. Особливо ефективно для спеціалізованих або нетипових завдань, для яких модель не навчалася явно.

Приклад:

Промпт: 'Класифікуй настрій: "Їжа була чудовою!" → Позитивний, "Сервіс був жахливим." → Негативний, "Готель був нормальним." → ?' LLM розпізнає патерн і відповідає 'Нейтральний', не маючи явного навчання аналізу тональності.

Fine-Tuning

Машинне навчання

Fine-Tuning означає тонке налаштування вже попередньо навченої ШІ-моделі для специфічних завдань. Це як переналаштування досвідченого шеф-кухаря з французької на італійську кухню — базові навички є, але деталі адаптуються. Замість навчання моделі з нуля (що може тривати місяці та коштувати мільйони) беруть існуючу модель і донавчають її новими, специфічними для завдання даними. При повному Fine-Tuning оновлюються всі ваги мережі. Сьогодні домінують параметрично ефективні методи (PEFT, зокрема LoRA): вони заморожують основу і навчають лише невеликі додаткові адаптери в усіх шарах. Це економить обчислювальний час і дані та знижує ризик катастрофічного забування — коли модель перезаписує старі знання. Fine-Tuning є стандартним методом адаптації великих мовних моделей для спеціальних застосувань.

Також відомий як:Тонке налаштування, Дотренування, Адаптація моделі

Приклад:

Мовна модель, навчена на загальних знаннях, через Fine-Tuning з медичними текстами стає медичним експертом, не втрачаючи базових знань.

Foundation Models

Глибинне навчання

Великі моделі ШІ — здебільшого LLM або дифузійні моделі — попередньо навчені на величезних обсягах нерозмічених даних і що слугують 'основою' для широкого спектра спеціалізованих завдань. Як універсальний фундамент, на якому можна будувати різні будинки: одна й та сама Foundation Model через дообучення (fine-tuning) може стати чат-ботом, перекладачем, генератором коду або медичним асистентом. Під час попереднього навчання (pre-training) моделі засвоюють загальні патерни мови, зображень або інших даних — спеціалізація відбувається лише через адаптацію до конкретних застосувань. Термін введено дослідниками Стенфорду у 2021 році.

Приклад:

GPT-3 є Foundation Model: попередньо навчена на сотнях мільярдів токенів текстових даних зі 175 мільярдами параметрів (це описує розмір моделі, тобто її ємність), вона слугує основою для GPT-3.5/ChatGPT (через дообучення RLHF), GitHub Copilot (спеціалізація на коді через Codex) та сотень інших спеціалізованих застосувань.

J

Jailbreaking

Безпека ШІ

LoRAs

Глибинне навчання

Широко поширена параметрично-ефективна техніка дообучення (PEFT), запропонована Hu et al. (2021). Замість того щоб адаптувати всю велику модель (з мільярдами параметрів), навчаються лише невеликі додаткові матриці зниженого рангу (LoRAs). На відміну від класичних шарів-адаптерів, що вставляються як додаткові шари у потік даних і збільшують затримку на етапі інференсу, LoRA додає свою низькорангову матрицю паралельно до наявної матриці ваг: замість однієї великої матриці використовуються дві менші, добуток яких апроксимує зміну. Після навчання цей добуток можна злити з оригінальними вагами, тому ЖОДНОЇ додаткової затримки інференсу не виникає. Це різко скорочує потреби у пам'яті та обчисленнях під час дообучення: оригінальні ваги залишаються замороженими, навчаються лише матриці LoRA. Адаптація LoRA часто займає лише кілька мегабайт, тоді як базова модель займає гігабайти.

Також відомий як:LoRA, Низькорангова адаптація, Адаптація зі зниженим рангом

Приклад:

GPT-3 з 175 мільярдами параметрів: традиційне дообучення адаптувало б усі 175 млрд параметрів. З LoRA ці 175 млрд залишаються замороженими, і навчається лише ~0,01 % додаткових параметрів (матриці LoRA) — приблизно в 10 000 разів менше параметрів, що навчаються, і в 3 рази менше пам'яті GPU.

Loss Function

Машинне навчання

Loss Function (функція втрат) — це математична функція, яка в машинному навчанні вимірює, наскільки далеко модель ШІ відхилилась від бажаного результату. Якщо люди навчаються на помилках, відчуваючи дискомфорт, то машинам потрібен точний числовий зворотний зв'язок: функція втрат обчислює для кожного прогнозу моделі, наскільки сильно він відхиляється від реальності. Наприклад, у задачі розпізнавання зображень, де модель класифікує кота як собаку, функція втрат генерує високе значення помилки. Це значення потім використовується для систематичного коригування параметрів моделі — процес, який повторюється мільйони разів, доки модель не мінімізує рівень своїх помилок. Якщо бути точним, фахова література розрізняє два рівні: Loss (втрата) позначає помилку на одному прикладі, Cost (функція витрат) — осереднений або підсумований Loss по всьому набору даних; у розмовній мові обидва терміни часто вживаються як синоніми. Існують різні види функцій втрат для різних задач: середньоквадратична похибка (Mean Squared Error) для числових прогнозів, крос-ентропія (Cross-Entropy) для класифікації. Вибір правильної функції втрат є вирішальним — вона визначає, що модель розуміє під 'правильно' і 'неправильно', і тим самим керує всім процесом навчання.

Також відомий як:Функція втрат, Функція витрат, Функція помилки, Цільова функція

Приклад:

Мовна модель має передбачити слово 'собака', але каже 'кіт': функція втрат обчислює високе значення помилки, яке змушує модель скоригувати свої ваги, щоб наступного разу результат був ближчим до 'собака'.

Lost in the Middle

Глибинне навчання

Помітний феномен у великих мовних моделей: інформація на початку або в кінці довгого контексту надійно витягується, тоді як інформація в середині часто 'пропускається' — аналогічно до людського ефекту первинності/новизни. Відкрито Liu et al. (2023) у Stanford/UC Berkeley. Продуктивність може різко падати, коли релевантна інформація розміщена в середині довгого промпту. Ця залежна від позиції U-подібна форма проявляється принципово незалежно від ступеня заповнення; новіші дослідження (Veseli et al. 2025) показують, що вона залишається стабільною переважно нижче приблизно 50% заповнення контекстного вікна і зміщується при більшому заповненні. Точний механізм остаточно не з'ясований; зазвичай ефект пояснюють через позиційні кодування та розподіл уваги. Стара гіпотеза трактує його як непідкріплену аналогію до людської пам'яті: деякі завдання вимагають рівномірного доступу (довготривала пам'ять), інші пріоритизують останнє (короткотривала пам'ять).

Також відомий як:Зсув середньої позиції, Проблема середини контексту, Деградація уваги

Приклад:

LLM отримує 20 документів у контексті. Питання: 'Що написано в документі 11?' Якщо документ 11 знаходиться в середині, відповідь часто неправильна. Якщо перемістити той самий документ на позицію 1 або 20, модель раптом відповідає правильно — хоча зміст ідентичний.

LSTM

Глибинне навчання

Проблема навчання, що спочатку була описана для генеративно-змагальних мереж (GAN), але сьогодні застосовується ширше — зокрема, для втрати різноманітності в інших генеративних моделях і в мовних моделях, дообланих за допомогою RLHF. Генеративна модель втрачає здатність відтворювати повне різноманіття цільового розподілу і 'колапсує' до кількох мод — наприклад, у GAN це може бути лише кілька типів облич замість усієї людської різноманітності. Причина: генератор знаходить варіанти виводу, які особливо добре обманюють дискримінатор, і починає виробляти виключно їх. Це призводить до осциляційної поведінки — генератор перемикається між кількома успішними модами (цикл 'камінь-ножиці-папір'), замість того щоб навчитися всьому розподілу даних. Підходи до розв'язання: Wasserstein GAN (стабільніші градієнти), Mini-Batch Discrimination (заохочує різноманітність), Unrolled GAN (оптимізація відносно майбутніх станів дискримінатора).

Приклад:

GAN має генерувати рукописні цифри (0-9). Після кількох ітерацій навчання він виробляє лише '3' і '7' у нескінченному циклі — бо дискримінатор найгірше розпізнає їх як підроблені. Моди для '0', '1', '2', '4'-'6', '8'-'9' були 'забуті' генератором — це Mode Collapse.

Model Card

Етика

Model Card — це структурований документ, побудований за встановленою схемою, що описує призначення, навчальні дані, показники продуктивності, обмеження та етичні аспекти ML-моделі. Це не формальний нормативний стандарт, а конвенція, запропонована Mitchell et al. (2019), з варіативними шаблонами на практиці (наприклад, шаблон Hugging Face). Ключова ознака початкової ідеї: продуктивність повідомляється не лише як одне загальне значення, а окремо за відповідними групами та умовами (наприклад, різними групами користувачів або сценаріями застосування), щоб зробити систематичні відмінності у продуктивності видимими. Таким чином Model Card підвищує прозорість і простежуваність та надає користувачам і перевіряючим зрозумілу інформацію для коректного використання моделі.

Також відомий як:Паспорт моделі, Документація моделі

Приклад:

На Hugging Face кожна опублікована модель має Model Card: у ній зазначено, на яких даних проводилось навчання, які результати на бенчмарках — в ідеалі також з розбивкою за різними групами даних — були досягнуті, та для яких сценаріїв застосування модель підходить або не підходить.

Multi-Armed Bandit

Основи

Задача Multi-Armed Bandit — найпростіша форма навчання з підкріпленням: агент стоїть перед K діями — 'руками' — з невідомими розподілами винагород. На кожному часовому кроці він вибирає одну руку, отримує випадкову винагороду та має навчатися з цього, при цьому стан світу не змінюється. Фундаментальна дилема зветься Exploration vs. Exploitation: чи має агент продовжувати використовувати здавалося б найкращий варіант, чи спробувати інші, щоб, можливо, знайти кращий? Класичні рішення: epsilon-greedy (з малою ймовірністю досліджувати випадково), UCB1 (оптимістично надавати перевагу невизначеним рукам — доведено логарифмічний regret) та Thompson Sampling (байєсівські posterior-розподіли для кожної руки, вибірка з них). Назва походить від одноруких бандитів (ігрових автоматів у казино) — multi-armed означає бандита з кількома руками або ряд ігрових автоматів, з яких за один часовий крок тягнуть лише один.

Також відомий як:Багаторукий бандит, K-Armed Bandit

Приклад:

Інтернет-магазин має вирішити, який з п'яти рекламних банерів показати новому відвідувачу. Кожен варіант має невідомий показник кліків. Замість рівномірного розподілу всіх відвідувачів (A/B/C/D/E-тест), магазин використовує Thompson Sampling: слабкі банери відсіюються рано, хороші отримують більше трафіку — середній показник кліків зростає вже під час тесту, а не лише після нього.

Multilayer Perceptron

Глибинне навчання

У навчанні з підкріпленням — 'стратегія' або 'правило дії' агента — функція, яка для кожного стану визначає, яку дію агент має виконати. Policy може бути детерміністичною (у стані X завжди дія Y) або стохастичною (у стані X з розподілом ймовірностей по діях). Мета тренування RL — знайти оптимальну policy, яка максимізує очікувану кумулятивну винагороду. Є два основних підходи: методи на основі цінності (як Q-Learning) непрямо вивчають policy через функції цінності, тоді як методи Policy Gradient безпосередньо оптимізують policy. Сучасні алгоритми, такі як PPO (Proximal Policy Optimization), поєднують обидва підходи.

Приклад:

У шаховій грі policy — це стратегія агента: для кожної позиції на дошці вона визначає, який хід робить агент. Хороша policy веде до перемоги, погана — до поразки. Під час тренування policy покращується через досвід — агент вчиться, які ходи в яких ситуаціях успішні.

Pooling

Глибинне навчання

Pooling — операція у згорткових нейронних мережах (CNN), що зменшує просторові розміри карт ознак, об'єднуючи значення в локальних областях. Типові варіанти: Max-Pooling та Average-Pooling. Сама операція пулінгу не має параметрів: вона знижує просторову роздільну здатність і тим самим кількість активацій, що зменшує обчислювальні витрати та — опосередковано — кількість параметрів у наступних (наприклад, повнозв'язних) шарах. Водночас пулінг робить модель більш стійкою до зсувів у вхідному зображенні.

Також відомий як:Шар пулінгу, Шар зниження роздільної здатності

Приклад:

Після шару згортки з картами ознак 28x28 пулінг Max-Pooling 2x2 зменшує їх розмір до 14x14, зберігаючи лише найвище значення з кожної області 2x2.

PPO

Навчання з підкріпленням

Обробка мови

Токени (слова, частини слів), які велика мовна модель генерує внутрішньо або зовнішньо, щоб 'обдумати' проблему перед тим, як дати остаточну відповідь. При Chain-of-Thought ці токени видимі ('Крок 1: ...'). У моделей на кшталт OpenAI o1 вони виконуються внутрішньо — модель 'думає', перш ніж відповісти. Ключовий аспект: генерація цих токенів потребує обчислювального часу (витрати на inference). Більше Reasoning Tokens = довше обдумування = вищі витрати = нерідко кращі відповіді для складних завдань. Це компроміс між якістю та ефективністю.

Приклад:

Питання: 'Розв'язати: 234 x 567'. Модель без reasoning відповідає одразу (часто неправильно). Модель з reasoning внутрішньо генерує Reasoning Tokens: 'Множу 234 на 500... потім на 60... потім на 7... складаю разом...' Це потребує часу і токенів, але дає правильну відповідь: 132 678. У o1 ці токени залишаються невидимими для користувача, проте зараховуються як output-токени та тарифікуються (окреме поле 'reasoning_tokens' у звіті API).

Метод навчання великих мовних моделей, подібний до RLHF (Reinforcement Learning from Human Feedback), але замість зворотного зв'язку від людей використовує іншу ШІ-систему як оцінювача. При цьому ШІ-модель оцінює виходи навчальної моделі на основі заданих принципів — часто та сама модель шляхом самокритики, іноді окрема (не обов'язково сильніша) модель. Ці оцінки потім використовуються як сигнал винагороди для навчання з підкріпленням. Перевага: масштабованість (не потрібні людські анотатори), узгодженість, економічність. Недолік: якість залежить від моделі-оцінювача та заданих принципів. Anthropic використовує RLAIF для 'Constitutional AI' — де ШІ-оцінювач перевіряє, чи відповідають виходи заздалегідь визначеним принципам.

Також відомий як:Reinforcement Learning from AI Feedback

Приклад:

Навчання чат-бота. При RLHF люди оцінюють кожну відповідь (1-5 зірок). При RLAIF GPT-4 (як оцінювач) генерує оцінки: 'Ця відповідь ввічлива та корисна: 4/5 зірок. Ця відповідь груба: 1/5.' Модель навчається через RL генерувати відповіді з вищими оцінками — без участі людей-анотаторів.

RNN

Глибинне навчання

RNN — універсально вживана абревіатура для Recurrent Neural Network (Рекурентна нейронна мережа), яка утвердилася як самостійний фаховий термін. У спільноті ШІ RNN використовується як збірний термін для всіх рекурентних архітектур, а також специфічно для класичної, простої рекурентної мережі (часто називають 'Vanilla RNN'). Як базова форма рекурентних мереж, RNN має просту структуру зворотного звʼязку: вихід прихованого шару подається як вхід на наступний часовий крок. Ця елегантність, однак, має обмеження — RNN можуть ефективно обробляти лише обмежені довжини послідовностей через проблему зникаючого градієнта. Проте RNN залишається фундаментальним поняттям, оскільки всі сучасні варіанти (LSTM, GRU) базуються на його основних принципах.

Приклад:

Дослідник презентує: 'Наша RNN досягає 89% точності в аналізі настроїв'. Навіть якщо технічно використовувався LSTM, назва RNN коректна, оскільки LSTM — це варіант родини RNN.

Stable Diffusion

Генеративний ШІ

Stable Diffusion — це революційна модель глибокого навчання з відкритим кодом, яка генерує високоякісні зображення з текстових описів. Вона базується на латентних дифузійних моделях і працює ефективніше за попередні підходи, оперуючи в стиснутому латентному просторі.

Supervised Fine-Tuning (SFT)

Машинне навчання

Supervised Fine-Tuning (SFT, наглядове тонке налаштування) — це вирішальний крок навчання, який перетворює попередньо навчену мовну модель на корисного асистента. Після попереднього навчання (Pre-Training) — у якому LLM навчається на величезних обсягах тексту, розуміти і продовжувати мову — модель знає багато про світ, але не 'знає', як відповідати на запити. Вона продовжує текст, але не відповідає в стилі розмови. Саме тут і вступає SFT: модель донавчається на відібраному наборі тисяч пар 'запит-відповідь', складених людьми. Ці приклади показують моделі, як виглядає корисна, безпечна, ввічлива відповідь. Завдяки наглядовому навчанню (Supervised Learning) модель вчиться узгоджувати свою поведінку з цими прикладами. SFT є, як правило, першим кроком перед застосуванням подальших технік, як-от RLHF (Reinforcement Learning from Human Feedback). Якість даних SFT є вирішальною: погані приклади призводять до поганої поведінки. Сучасні LLM, як-от GPT-4, Claude або Gemini, всі проходять фазу SFT, яка перетворює їх із моделей чистого завершення тексту на розмовних асистентів.

Також відомий як:SFT, Instruction Fine-Tuning, Instruction Tuning

Приклад:

Після попереднього навчання GPT на питання 'Що таке фотосинтез?' просто генерував би подальший текст (наприклад, ще питання). Після Supervised Fine-Tuning на десятках тисяч прикладів пар 'питання-відповідь' він відповідає: 'Фотосинтез — це процес, за допомогою якого рослини перетворюють світлову енергію на хімічну...' — корисно, структуровано, інформативно.

Supervised Learning

Машинне навчання

Supervised Learning (наглядове навчання) — це метод машинного навчання, при якому алгоритми навчаються з використанням мічених тренувальних даних, щоб робити прогнози для нових, невідомих даних. Термін 'supervised' (наглядовий) означає, що під час фази навчання доступні як вхідні дані, так і правильні вихідні — як учитель, що знає правильні відповіді. Система вчиться розпізнавати паттерни між входом і бажаним виходом, щоб потім застосовувати ці знання до нових даних. Supervised Learning поділяється на дві основні категорії: класифікацію, яка присвоює дискретні категорії (спам або не спам), і регресію, яка передбачає неперервні значення (ціни на будинки, температури). Якість процесу навчання вирішально залежить від кількості та якості мічених тренувальних даних. Supervised Learning становить основу для більшості практичних застосувань ШІ — від розпізнавання зображень до перекладу мови.

Також відомий як:Наглядове навчання, Навчання на мічених даних

Приклад:

Система Supervised Learning навчається класифікувати електронні листи: вона отримує 10 000 електронних листів, кожен вже помічений як 'Спам' або 'Звичайний'. Система аналізує слова, адреси відправників та інші ознаки, щоб розпізнати паттерни. Після навчання вона може автоматично класифікувати нові, непомічені електронні листи як спам або звичайні.

Support Vector Machine

Машинне навчання

Support Vector Machine (SVM, метод опорних векторів) — потужний алгоритм наглядового навчання, який знаходить оптимальні межі рішень між класами даних. Геніальність SVM полягає в їхній стратегії: вони шукають не будь-яку межу, яка розділяє класи, а гіперплощину з максимально можливою відстанню до найближчих точок даних обох класів. Ці критичні точки даних називаються 'опорними векторами' (Support Vectors) — вони є опорою, яка визначає межу рішення. SVM може вирішувати нелінійні задачі завдяки 'ядровому трюку' (Kernel Trick): дані проектуються у простори вищої розмірності, де складні паттерни можна розділити простими гіперплощинами. Популярні ядра (kernel): поліноміальне, радіальна базисна функція (RBF) або сигмоїдне. SVM стійкі до перенавчання і добре працюють з високорозмірними даними. Оскільки кінцева модель залежить лише від опорних векторів, вона компактна; однак навчання масштабується несприятливо (приблизно квадратично до кубічно з кількістю тренувальних прикладів) і стає обчислювально та пам'ятеємно витратним при дуже великих наборах даних. Розроблені Владіміром Вапником та колегами в 1990-х роках, SVM належать до найелегантніших алгоритмів машинного навчання.

Також відомий як:SVM, Support Vector Network, Margin-Based Classifier

Приклад:

SVM класифікує електронні листи як спам або звичайні. Замість того щоб розглядати всі тренувальні дані, він фокусується лише на 'опорних векторах' — тих листах, які найважче розрізнити. Ці кілька критичних прикладів визначають оптимальну розподільну лінію, яка надійно спрацьовує також для нових, невидяних листів.

Swarm Intelligence

glossary.categories.ai-paradigm

Колективний інтелект децентралізованих систем: з простих локальних правил багатьох одиниць виникає скоординована загальна поведінка без центрального управління (самоорганізація, емерджентність). Взірець — природа: мурашині стежки, бджолині рої, зграї птахів і косяки риб. У ШІ цей принцип застосовується в методах оптимізації та моделювання, зокрема в Ant Colony Optimization (ACO), Particle Swarm Optimization (PSO) і моделі Boids для симуляції роєвого руху.

Глибинне навчання

Техніка персоналізації дифузійних моделей, за якої навчається нове 'слово' — конкретний токен у просторі ембедингів — для представлення певного концепту або об'єкта. На відміну від DreamBooth, ваги моделі залишаються повністю замороженими; навчається виключно ембединг нового токена (псевдослово), а не сама модель.

Також відомий як:Текстуальна інверсія

Приклад:

Маючи 3-5 фотографій 'мого пса', Textual Inversion навчає новий токен '<mein-hund>'. Після цього його можна використовувати у промптах: 'Фото <mein-hund> на пляжі' — і Stable Diffusion генерує зображення конкретного пса в нових сценаріях.

Top-k семплінг

Машинне навчання

Стратегія семплінгу під час генерації тексту великими мовними моделями, за якої на кожному кроці генерації токена враховуються лише k найімовірніших наступних токенів. Маса ймовірностей перерозподіляється (ренормується) на ці k токенів, з яких відбувається зважена випадкова вибірка — пропорційно до їхніх ймовірностей.

Приклад:

При k=5 модель розглядає лише 5 найімовірніших наступних слів. Наприклад: 'є' (60 %), 'було' (20 %), 'залишається' (10 %), 'стає' (5 %), 'здається' (3 %) — усі інші токени ігноруються. Далі зі цих 5 робиться зважена випадкова вибірка пропорційно до ймовірностей. Більше k = більше різноманіття, менше k = більша зосередженість.

Top-p семплінг

Машинне навчання

Динамічна стратегія семплінгу під час генерації тексту, за якої обирається найменший набір токенів ('ядро'), кумулятивна ймовірність якого перевищує поріг p (зазвичай 0,9-0,95). На цей набір ренормується маса ймовірностей, і наступний токен обирається зваженою випадковою вибіркою. На відміну від Top-k, кількість врахованих токенів є змінною і адаптується до розподілу ймовірностей.

Також відомий як:Nucleus Sampling

Приклад:

При p=0,9 модель підсумовує найімовірніші токени, поки не досягне 90 %. При різкому розподілі ('є' = 85 %) достатньо 2-3 токенів. При плоскому розподілі може знадобитися 20 токенів для 90 %. Завдяки цьому відбувається динамічна адаптація до рівня впевненості в контексті.

Training Data

Машинне навчання

Приклади — нерідко з відповідними мітками — з яких модель ШІ під час навчання засвоює свої параметри. Навчальні дані відокремлюються від перевірних (для налаштування гіперпараметрів) і тестових (для підсумкової оцінки); це розбиття називається Train/Validation/Test-Split. Обсяг і репрезентативність є вирішальними: якщо дані незбалансовані або систематично відхиляються від цільового розподілу, ці викривлення переносяться у модель (упередженість, Bias).

Приклад:

Для класифікації зображень, що розрізняє котів і собак, навчальні дані складаються з тисяч фотографій, кожна з правильною міткою 'кіт' або 'собака'. Якщо навчальні дані містять майже лише собак на вулиці і котів у приміщенні, модель може навчитися розпізнавати тло, а не тварину — нерепрезентативний набір даних призводить до навчання на замінних ознаках.

X

XOR-проблема

Основи

Історично значуща проблема в історії ШІ. XOR (виключне АБО) — найпростіший приклад нелінійно роздільної задачі. Одне перцептрон не може її розв'язати, оскільки два класи (True/False) не можна розділити єдиною прямою лінією у вхідному просторі. Мінскі та Пейперт (1969) формально довели це обмеження, що сприяло настанню зими ШІ. Для розв'язання потрібен багатошаровий перцептрон (Multi-Layer Perceptron) принаймні з одним прихованим шаром. XOR таким чином демонструє необхідність нелінійних багатошарових моделей — не глибини у розумінні багатьох шарів, адже одного прихованого шару вже достатньо.

Також відомий як:Проблема виключного АБО

Приклад:

XOR повертає True лише тоді, коли рівно один з двох входів дорівнює True — не обидва і не жоден. Візуально чотири можливі комбінації вхідних даних утворюють шаховий візерунок, який не можна розділити єдиною прямою лінією. Мережа з прихованим шаром розв'язує це завдання, комбінуючи кілька лінійних розділяючих прямих своїх прихованих нейронів. В результаті утворюється нелінійна, зазвичай кусково-лінійна межа прийняття рішень; лише при сигмоїдних активаціях вона виглядає плавно вигнутою.

A

Accuracy

Повʼязаний контент

Adversarial Examples

Повʼязаний контент

Agent Communication Languages (ACLs)

Повʼязаний контент

Agent Swarms

Повʼязаний контент

AI Alignment

Повʼязаний контент

AI Node (Вузол ШІ)

Повʼязаний контент

Alignment (Вирівнювання ШІ)

Повʼязаний контент

Anthropic

Повʼязаний контент

API

Повʼязаний контент

Artificial General Intelligence (AGI)

Повʼязаний контент

Attention

Повʼязаний контент

Attention-Mechanism

Повʼязаний контент

Automation Bias

Повʼязаний контент

B

Backpropagation

Повʼязаний контент

BERT

Повʼязаний контент

Bias

Повʼязаний контент

Bias-Variance-Tradeoff

Повʼязаний контент

Big Data

Повʼязаний контент

Boosting

Повʼязаний контент

Byte Pair Encoding (BPE)

Повʼязаний контент

C

ChatGPT

Повʼязаний контент

Classifier-Free Guidance

Повʼязаний контент

Claude

Повʼязаний контент

Claude Code

Повʼязаний контент

CLI

Повʼязаний контент

Clustering Validation

Повʼязаний контент

Collaborative Filtering

Повʼязаний контент

Computer Science

Повʼязаний контент

Computer Vision

Повʼязаний контент

Conditional Generation

Повʼязаний контент

Confusion Matrix

Повʼязаний контент

Constitutional AI

Повʼязаний контент

Constitutional Principles

Повʼязаний контент

Context Window

Повʼязаний контент

ControlNet

Повʼязаний контент

Conversational AI

Повʼязаний контент

Convolutional Neural Network (CNN)

Повʼязаний контент

CPU

Повʼязаний контент

Cross-Validation