Компанію Meta звинувачують у використанні піратського контенту з торентів для тренування своєї великої мовної моделі Llama, що є основою для Meta AI, пише Wired.
У 2023 році Meta отримала позов через ймовірне використання піратського контенту для тренування своєї мовної моделі Llama. Справа отримала назву “Kadrey et al. v. Meta Platforms” і була подана письменниками Річардом Кадреєм і Крістофером Голденом, які стверджують, що Meta використовувала авторський контент без дозволу.
До цього часу Meta передавала суду документи з прихованою інформацією, але суддя Вінс Чабрія з Окружного суду США північного округу Каліфорнії наказав оприлюднити оригінальні документи. Вони виявили розмови між співробітниками Meta щодо Meta AI та Llama. В одній з них інженер зазначає, що “торенти з корпоративного ноутбука Meta — це не зовсім правильно”, що підтверджує використання піратського контенту для тренування ШІ. Інша розмова вказує на те, що “МЦ” (Марк Цукерберг) дозволив використання піратських матеріалів.
Згідно з доказами, компанія використовувала контент з LibGen — великої бібліотеки піратських книг та статей. Також Meta нібито зверталася до інших “тіньових бібліотек” для навчання штучного інтелекту.
Компанія запевняє, що використовувала публічні матеріали згідно з доктриною “добросовісного використання”, яка дозволяє застосовувати авторський захищений контент без дозволу за певних обставин, що аналізуються індивідуально. Meta також стверджує, що вона просто “використовує текст для статистичного моделювання мови й генерування оригінальних висловлювань”.