Озвучена стаття Технології — 29 травня, 2025

Як ваша активність у соцмережах стає паливом для ШІ

ТЕКСТ:

ІЛЮСТРАЦІЇ: Катерина Большакова

Слухати на подкаст-платформах

Користувацький контент перетворився на «паливо» для навчання штучного інтелекту. Завадити цьому неможливо, й у найближчі роки ситуація лише погіршуватиметься. Чим загрожує такий розвиток подій?

Ми поступово відвикаємо жити у світі, де немає ШІ. Сьогодні він існує в різних втіленнях — від віртуальних помічників до систем рекомендацій контенту, від розумних чатботів до систем управління дорожнім рухом. Його використовують у фінансовому аналізі, перекладі, розпізнаванні облич, прогнозуванні погоди, медичній діагностиці, робототехніці, управлінні «розумними» будинками, а також у військових технологіях і системах спостереження. ШІ дедалі глибше проникає в повсякденне життя, часто непомітно для пересічного користувача. Проте популярність систем штучного інтелекту має обернену сторону медалі. Аби ставати щоразу кращими, їм потрібно дедалі більше даних для навчання. Усі ці вправні системи, які можуть прогнозувати, рекомендувати та допомагати, навчаються й удосконалюються завдяки величезним масивам інформації, яку вони збирають з усього інтернету. 

Компанії, що займаються штучним інтелектом, навчаються не лише на вмісті сайтів, відео, книжок та статей. Останній рік дедалі активніше ШІ-компанії використовують для власного навчання дані користувачів соціальних мереж і часто роблять це без відома й почасти усвідомлення та будь-якого контролю з боку користувачів — власників та авторів цих даних. Наразі ми спостерігаємо тривожну тенденцію: ШІ-компанії використовують наші дані повністю безконтрольно або з мінімальною прозорістю. І ця ситуація, ймовірно, лише погіршиться. 

ШІ як головний дата-«пилосмок» 

Розробка та успішність складних систем штучного інтелекту напряму залежить від величезних наборів даних для навчання їхніх алгоритмів. Провідні моделі штучного інтелекту навчаються зокрема на інформації, розміщеній користувачами в соцмережах. Окрім того, усі дані, які користувачі пропонують ШІ-чатботам, так само використовуються для їхнього навчання. Масштаби цієї агрегації вражають. Нещодавній аналіз, проведений Ecommerce Platforms (платформи, що містить огляди та аналіз сучасних e-commerce-інструментів), показав, що багато популярних програм штучного інтелекту збирають1 понад половину даних, які вводяться в їхні сервіси. 

Серед найагресивніших агрегаторів є не лише ШІ-чатботи на кшталт ChatGPT або Claude чи Google Gemini. Так само харчуються нашими даними віртуальні помічники, такі як Amazon Alexa (збирає вражаючі 93% даних користувачів) чи Google Assistant (збирає 86%). Використовують наші дані застосунок для вивчення мов Duolingo (79%), інструмент дизайну Canva (64%) та чат-боти на базі штучного інтелекту — Poe (57%), ChatGPT (36%) чи Perplexity (36%). Це все відбувається в ситуації, коли користувачі часто не усвідомлюють, що їхня балаканина із ChatGPT чи взаємодія із Duolingo буквально живить ці сервіси. 

Тенденція до використання даних, доступних онлайн, тривожить не лише тому, що ШІ-компанії часто беруть це навчальне «дата-паливо» із сумнівних джерел (як от компанія Meta, що навчалась2 на дата-сеті, отриманому з піратського джерела). Ці несанкціоновані дата-взаємодії спичинили позови до ШІ-компаній із вимогами відмовитися від використання користувацьких даних для ШІ-навчання. Поки що жодна спроба не стала успішною. Іще однією проблемою для навчання ШІ-чатботів є те, що даних для них уже не вистачає. Ще влітку 2024 року дослідники виявили3, що проблема з даними та їхнім використанням для ШІ-навчання стає актуальнішою, оскільки багато онлайн-медіа блокують доступ до свого контенту для ШІ-чатботів. Іншими словами, контенту для ШІ-моделей просто не вистачає. Це теж спонукає компанії активніше шукати нові джерела даних для своїх продуктів.

ШІ-цінність даних соціальних мереж 

Соціальні мережі стали особливо цінними джерелами навчальних даних завдяки нефільтрованому, автентичному та різноманітному характеру контенту, що створюють користувачі. Це «живі» неструктуровані дані (публікації, коментарі, твіти та зображення), які ще й створюються буквально в режимі реального часу. 

Саме тому соцмережеві гіганти, які часто самі розробляють власні ШІ-чатботи, стали використовувати4 користувацький контент для покращення своїх моделей. Наразі складно знайти соціальну платформу, яка не навчає моделі на даних юзерів або не пропонує це іншим компаніям. Деякі з них стали робити це, сповіщаючи користувачів через оновлення угоди та правил використання сервісів, які зазвичай майже ніхто не читає. До прикладу, таким шляхом пішов5 сервіс X (Twitter). Оновили політику6 і в Google, попередивши7, що не варто повідомляти чатботам конфіденційну інформацію. 

У цьому контексті соціальні платформи можна поділити на дві великі групи. До першої належать ті, які принаймні пропонують можливість вимкнути передання своїх даних для ШІ: Facebook, Instagram, X (Twitter), LinkedIn. Проте це не завжди просто зробити. До прикладу, заборонити Meta використовувати ваші дані можна, лише заповнивши8 спеціальну форму, і відповідь на запит надходить не одразу. До того ж компанія не обіцяє відповісти позитивно. На те, аби убезпечити свої дані від ШІ, можуть сподіватися хіба громадяни тих країн, де ці обмеження зафіксовані законодавчо. Інструкції щодо інших соціальних платформ та заборони використання їхніх даних для ШІ-навчання можна знайти за цим посиланням

Тож навіть платформи, які дозволяють керувати використанням своїх даних, поводяться доволі агресивно — вони не лише сховали подалі від очей опцію вимкнення, але й стали послуговуватися користувацькою інформацією, не повідомивши про цей факт, власне, користувачів. Водночас існують сервіси, які навіть не пропонують відмовитися від використання ваших даних як ШІ-палива: YouTube, Reddit, ТikTok. 

Зворотна сторона медалі соціального ШІ-парсингу 

Історії та непорозуміння із соціальним тривають досі, адже цей процес почався дуже швидко, без сповіщень чи підготування користувачів. Восени 2024 року Meta визнала9, що використала для навчання ШІ всі дані своїх користувачів за попередні 17 років існування її соцмереж. Тоді ж у компанії заявили, що європейські користувачі отримали можливість відмовитися від передачі даних — все завдяки GDPR (General Data Protection Regulation — Загальному регламенту захисту персональних даних) — європейським законам, що регулюють роботу із даними користувачів. Деякі країни, як от Бразилія, заборонили10 використовувати Meta дані їхніх громадян. Проте у вересні 2024 року компанія повідомила11, що відновлює навчання на даних користувачів із Великобританії. Австрійська правозахисна група NOYB у травні 2025 року заявила12, що домагатиметься судової заборони Meta використовувати дані європейців для навчання її моделей штучного інтелекту — техногігант планував змінити це своє правило 27 травня, тож претензія була подана превентивно, аби соцмережа не встигла змінити політики. І це попри додаткову заяву13 Meta про можливість європейцям відмовитися від передачі їхніх даних компанії. 

Що стосується X (Twitter), то компанія спершу змінила14 умови надання послуг та вказала, що її ШІ-чатбот Grock навчатиметься на даних юзерів. Згодом платформа Ілона Маска пішла далі й дозволила15 стороннім компаніям навчатися на даних X-користувачів. Цей сервіс теж став предметом уваги16 регуляторів та позовів17 з боку організації NOYB з тієї самої причини — занадто вільної поведінки із юзерською інформацією. 

Судові претензії з боку користувачів із США отримала й бізнес-соцмережа LinkedIn, коли стало відомо, що вона використовує18 їхні дані для ШІ-навчання. Власники Premium-акаунтів звинуватили LinkedIn в передачі приватних повідомлень третім сторонам для навчання ШІ-моделей та вимагали від компанії компенсацію. Хоча LinkedIn стала використовувати19 ці дані ще минулого року і теж без прямої згоди користувачів. 

Хвиля критики, пов’язана зі штучним інтелектом та даними, накрила аудіосервіс SoundCloud. Багато музикантів та звичайних користувачів висловили протести проти планів SoundCloud давати дані для ШІ-навчання. Через що уже в травні 2025 року керівник компанії оприлюднив20 листа, в якому запевнив, що SoundCloud не використовуватиме контент артистів.

Підписатися на Куншт

Корисна розсилка про науку.
Статті, відео і подкасти щотижня та без спаму.

Як дані для ШІ перетворюються на дохід та конкурентну перевагу 

Цікаво, що відмова від взаємодій зі ШІ-компаніями в наш час стає конкурентною перевагою. У соцмережі Bluesky нещодавно заявили, що планують дати користувачам можливість самим вирішувати21, чи будуть їхні дані використовуватися для навчання ШІ. Ця заява може стати додатковою причиною міграції на платформу, яка позиціонується як конкурент X (Twitter).

Інші ж компанії навчилися успішно монетизувати активність своїх користувачів — наприклад, Reddit. У 2024 році вона значною мірою завдяки цьому вперше стала22 прибутковою. Платформа уклала23 ліцензійні угоди з Google та OpenAI, які дозволили компаніям використовувати багаторічний архів обговорень Reddit для тренування ШІ-моделей. 

Так само навчилась непогано заробляти на даних для ШІ і компанія Google. У травні 2025 року Bloomberg повідомив, що Google продовжує24 використовувати веб-контент для навчання пошукових моделей штучного інтелекту загалом та функції AI Overviews зокрема (формування відповідей на пошукові запити на основі ШІ), навіть якщо веб-видавці — власники сайтів — відмовилися від такого використання. Це стало відомо із внутрішніх документів, розкритих під час антимонопольного судового процесу в США. З’ясувалося, що Google розглядала можливість надати користувачам більш детальний контроль над тим, як їхній контент використовується в ШІ-функціях пошукової системи, однак вирішила цього не робити. Єдиний спосіб повністю виключити свій контент з використання в AI Overviews — це заборонити індексацію свого сайту пошуковим роботом Googlebot, але це вилучає їхній сайт з результатів пошуку Google. 

Підтримайте Куншт

Допоможіть нам розвивати наукову журналістику в Україні! Долучайтеся до нашої спільноти Друзів Куншт!

Темне дата-майбутнє 

У міру розвитку штучного інтелекту зростають не лише його можливості, але й потреби. То ж ШІ-інструменти ще сильніше потребуватимуть якісних, актуальних і різноманітних даних для навчання. Якщо раніше технологічні компанії активно використовували вже наявні масиви інформації, зібрані з відкритих джерел, то сьогодні цього вже недостатньо. Саме тому дедалі більше компаній переходять від пасивного збору даних до активного створення умов, за яких ці дані виникають, до того ж у контрольованих ними екосистемах. 

Так, OpenAI заявила про намір25 створити власну соціальну платформу. Цей сервіс може стати не просто середовищем для спілкування, а повноцінним генератором даних для навчання моделей. Meta просуває26 власні ШІ-додатки, заохочуючи користувачів до активної взаємодії з інтерфейсами, які фіксують мову, поведінку, інтереси, реакції. Важливо, що все це відбувається під виглядом зручного цифрового сервісу, де користувач рідко усвідомлює, що сам процес його взаємодії — це цінний навчальний матеріал для ШІ. 

У майбутньому йтиметься не лише про збір «випадкових» чи «побічних» даних — сучасні компанії формують цілеспрямовані майданчики для створення навчальних датасетів. Це стратегічний крок: контроль над платформою означає контроль над структурою, якістю й етикою даних, які потрапляють до моделі. І водночас це спосіб мінімізувати залежність від зовнішніх джерел, які часто мають обмеження — правові, ліцензійні або якісні. 

Тож ШІ-компанії дедалі активніше виступають не лише споживачами даних, а й їхніми дизайнерами та архітекторами. Вони вже проєктують середовища, де цифрова поведінка людей — тексти, зображення, голосові команди, жести, уподобання — перетворюється на «паливо» для наступного покоління штучного інтелекту. Наслідком цього буде новий рівень взаємозалежності між користувачем та цифровим сервісом, в якій зникатимуть кордони між збором даних для покращення сервісу й агрегацією для навчання ШІ. А контроль користувачів над власними даними зменшуватиметься. Наразі ринок не пропонує шляхів розв’язання цієї проблеми, яка щороку ставатиме актуальнішою.

Посилання:

  1. Дрібним шрифтом: розуміння програм ШІ та конфіденційності.
  2. Як ваша особиста інформація може використовуватися для навчання генеративних моделей штучного інтелекту?
  3. Криза і AI Data Commons.
  4. LinkedIn, Facebook і Instagram збирають ваші дані, щоб навчити ШІ. Як це зупинити?
  5. Зміни умов надання послуг.
  6. Політика конфіденційності Google.
  7. Центр конфіденційності додатків Gemini.
  8. Права суб'єктів даних щодо інформації третіх сторін, яка використовується для ШІ в Meta.
  9. Meta використовувала для свого ШІ майже все, що публікували публічно з 2007 року.
  10. Meta наказала припинити навчання свого ШІ на бразильських персональних даних.
  11. Meta перезапускає плани навчання ШІ.
  12. Адвокатська група погрожує Meta судовою забороною щодо використання даних для навчання ШІ.
  13. Як Meta навчатиме ШІ у ЄС?
  14. X змінив умови надання послуг для навчання ШІ.
  15. Компанія Ілона Маска X змінює свою політику конфіденційності, щоб дозволити третім сторонам навчати штучний інтелект на ваших публікаціях.
  16. Х звинувачують у використанні даних користувачів з ЄС для навчання Grok.
  17. Скарги щодо GDPR і Twitter.
  18. Чому на LinkedIn подали до суду?
  19. Як LinkedIn навчає моделі ШІ на ваших даних?
  20. SoundCloud знову змінює свої умови надання послуг після скандалу зі штучним інтелектом.
  21. Навчання ШІ та Bluesky.
  22. Акції Reddit зросли після того, як компанія отримала перший прибуток як публічна компанія.
  23. Reddit заробляє десять відсотків грошей від Google та OpenAI.
  24. Як Google навчатиме Search AI?
  25. OpenAI розробляє соціальну мережу.
  26. Конкурент Meta ChatGPT показує, як ваші друзі використовують ШІ.

0:00/0:00

Статті, які можуть вас зацікавити

Стаття Технології — 24 червня

Як технологія Passkey позбавить нас необхідності пам’ятати паролі

Стаття Технології — 02 вересня

Від шалених інвестицій до розчарування. Що відбувається з обіцяною «революцією» штучного інтелекту

Озвучена стаття Технології — 27 грудня

Як штучний інтелект змінює освіту: інноваційна технологія проти консервативної традиції

Стаття Технології — 03 лютого

Ціна правди: Що зміниться на платформах Meta після оновлення політик модерації

Стаття Технології — 24 березня

Як ШІ-компанії агресивно завойовують час та екрани юзерів, або що таке AI-BigTech

Популярні статті

Стаття Біологія — 17 квітня

Змагання за першість: люди чи (і) мікроби

Стаття Здоров'я - 18 квітня

Як виникає псоріаз. Треба розжувати.

Стаття Пост правди - 19 липня

Інформаційні операції минулого. Пост правди, сезон 5, епізод 5