New York Times забороняє використовувати свій контент для навчання ШІ — Arstechnica

Автор

Дмитро Мухін

На початку серпня The New York Times оновила свої умови обслуговування, щоб заборонити копіювання своїх статей і зображень для навчання штучного інтелекту (ШІ), повідомляє Arstechnica.

Цей крок відбувається в той час, коли технологічні компанії продовжують монетизувати програми мови штучного інтелекту, такі як ChatGPT і Google Bard, які отримали свої можливості завдяки масовому несанкціонованому збиранню Інтернет-даних.

Нові умови забороняють використовувати вміст NYT, який включає статті, відео, зображення та метадані, для навчання будь-якої моделі штучного інтелекту без прямого письмового дозволу. У Розділі 2.1 Умов NYT стверджує, що його вміст призначений для «особистого, некомерційного використання» читачем і що некомерційне використання не включає «розробку будь-якої програми програмного забезпечення, включаючи, але не обмежуючись, навчання система машинного навчання або ШІ».

Далі, у розділі 4.1, Умов стверджується, що без попередньої письмової згоди NYT ніхто не може «використовувати контент для розробки будь-якої програми, включаючи, але не обмежуючись, навчання систем машинного навчання або ШІ".

«Участь у забороненому використанні Сервісів може призвести до цивільних, кримінальних та/або адміністративних покарань, штрафів або санкцій проти користувача та тих, хто йому допомагає», — так NYT описує наслідки ігнорування обмежень.

Як би загрозливо це не звучало, обмежувальні умови використання раніше не зупиняли повне поглинання Інтернету наборами даних машинного навчання. Кожна велика мовна модель, доступна сьогодні, включаючи OpenAI GPT-4, Anthropic Claude 2, Meta Llama 2 і Google PaLM 2, була навчена на великих наборах даних, зібраних з Інтернету.