Imagine une IA qui a « lu » des millions de livres… mais sans jamais en payer un seul. C’est le secret de polichinelle de la Big Tech, qui a puisé allègrement dans des bases de données piratées.
Lire aussi sur Mediapart (payant) : « Comment un cofondateur de Mistral AI a piraté des millions de livres quand il travaillait chez Meta ». Les deux articles sont complémentaires.
Intelligence artificielle, braquage bien réel.
- Meta, Bloomberg et d’autres mastodontes ont pompé des millions de livres piratés depuis Bibliotik et LibGen pour entraîner leurs IA. Problème : ces ouvrages sont protégés par le copyright, et des auteurs comme Carreyrou ou George R.R. Martin ont porté plainte contre Anthropic, Google, OpenAI, Meta, xAI et Perplexity, pendant que les boîtes se planquent derrière le « fair use ».
- Les juges américains trouvent ça « spectaculairement transformatif », mais rappellent quand même que télécharger sur des sites pirates, bah… c’est illégal. Pourtant, des datasets 100 % légaux comme Common Corpus, Dolma ou RedPajama existent, mais ils ont un défaut : ça parle comme Molière sous Lexomil, donc ça donne des IA qui sentent la poussière.
- Résultat : le dilemme est total — éthique vs performance — et la vraie question devient politique : est‑ce qu’une IA qui « lit » un livre, c’est de l’apprentissage… ou du vol ?
- Mediapart révèle des documents qui mettent en lumière l’implication majeure, en 2022, de Guillaume Lample, alors employé chez Meta. Guillaume Lample est cofondateur de Mistral AI. Mistral gagnant…
-