KI yasadışı eğitimli?: Çalışma telif hakkı ihlallerini görüyor

KI yasadışı eğitimli?: Çalışma telif hakkı ihlallerini görüyor
Yayınlama: 03.04.2025
3
A+
A-

Bu tür ses modellerinin – büyük dil modelleri (LLMS) olarak da adlandırılması için hiç çalışması için, büyük miktarda metinle eğitilmeleri gerekir. Örneğin, geliştirici Openai’den ChatGpt’te, bu verilerin nereden geldiği tamamen belirsizdir. İnternetten çıktıkları ve bazen kamuya açık oldukları açıktır. Ancak bu, yasal olarak tamamen korunmasız oldukları anlamına gelmez.

Uzun zamandır Openai, birçok taraftan yapay zekayı telif hakkı korumalı içerik kullanma izni olmadan eğitmekle suçlanıyor. Yapay zekanın toplum üzerindeki etkilerini gösteren bir STK olan “AI Açıklama Projesi” nin şu anda yayınlanan makalesi, şirketin daha fazla talepkar AI modellerini eğitmek için bir lisans almadığı halka açık kitapları gittikçe daha fazla çektiği iddiasını gündeme getirmektedir.

Çalışma: açıkça tanınabilir içerik

CHATGPT tarafından kullanılan kitaplar, yayınlanan çalışmanın belirttiği gibi, Openai’nin lisans sözleşmesi olmayan uluslararası O’Reilly Yayınevi tarafından çalışmalıdır. “Openai’nin daha yeni ve daha güçlü modeli olan GPT-4O, ücretli O’Reilly kitap içeriğinin güçlü bir tespitini gösterir,” diye yazın makalenin yazarlarını yazın. Eski Chatt versiyonları yalnızca kamuya açık okuma örneklerini tanımıştır.

Çalışma yazarları tarafından kullanılan yöntem, bir modelin insanlar tarafından yazılan insanlar ve AI tarafından oluşturulan aynı metnin açıklanmış versiyonlarını ayırt edip edemeyeceğini test etmektedir. Bu durumda, bu, modelin, O’Reilly Yayınevi’nin ilgili kitaplarında olduğu gibi, eğitim verilerinden metin hakkında daha önce bilgiye sahip olabileceğini gösterir.

Açık kanıt yok

Ancak, çalışma yazarları bunun açık bir kanıt olmadığını vurgulamaktadır. Test yöntemlerinin yanlış olmadığını ve Openai’nin Chatgpt’e kopyalayan ve ekleyen kullanıcılardan ücretli kitap alıntılarını toplayabileceğini kabul ediyorlar.

Buna ek olarak, çalışma en son GPT-4.5 sürümünün soruşturmaya dahil edilmediğinden bahsediyor. Bu nedenle, bu modellerin ücretli O’Reilly kitap verileri veya muhtemelen şu anda kullanılan GPT-4O sürümünden daha düşük bir miktarla eğitilmemesi mümkündür. Ayrıca Openai’nin bazı eğitim verileri için – diğer şeylerin yanı sıra mesajlarla – lisans anlaşmaları olduğu ve bunun için ödeme yaptığı belirtilmelidir.

Man açık bir chatt uygulaması olan bir cep telefonu tutuyor

ORF/Dominique Hammer

AI modellerinin telif hakkıyla korunan içerikle izinsiz eğitildiği iddiaları, uzun zaman oldu

Ancak çalışma, uzun zamandır var olan iddiaları yeniliyor. Bunlar da bulaşıklarda durmaz. Amerika Birleşik Devletleri’nde, Openai şu anda çevrimiçi TechMagazin TechCrunch Çarşamba günü yazdığı gibi, eğitim veri uygulamaları ve telif hakkı ile uğraşma konusunda çeşitli davalarla uğraşmak zorunda.

Ayrıca iddialarla meta ile karşılaştı

Openaai, çalınan telif hakları hakkında iddialara katlanmak zorunda olan tek şirket değil. Yaklaşık iki hafta önce, ABD dergisi “Atlantic”, çevrimiçi baskısında ABD grubunun meta’nın yapay zeka modeli “Llama 3” i eğitmek için milyonlarca yırtıcı kitap ve bilimsel çalışma ile yasadışı bir çevrimiçi kütüphane kullandığı söylendiğini bildirdi.

Kütüphane, ağdaki korsan kopyalarla en büyük veritabanlarından biri olan Libgen’dir. “Atlantik” e göre, koleksiyon 7.5 milyondan fazla kitap ve 81 milyon bilimsel çalışma içeriyor. Korsan kopyalar arasında Avusturya’dan da kitaplar var. Teknoloji uzmanı Ingrid Brodnig, Barbi Markovic, Stefanie Sargnagel ve Wolf Haas’ın kendi eserlerini ve romanlarını buldu.

Meta çalışan: “pahalı” ve “yavaş” lisanslama

“Atlantik” i sunan mahkeme belgelerinden, çok sayıda yayınevine sahip meta çalışanların kitapların kullanımı ve bilimsel çalışmaların eğitim amacıyla tartışmaları olduğunu gösterdi. Bununla birlikte, “Atlantik” in alıntılanan dahili mesajlardan, metinlerin lisanslanmasının “uygunsuz”, diğer şeylerin yanı sıra “inanılmaz derecede yavaş” olduğunu söylediği söyleniyor.

Dahası, toplantıya, sadece tek bir kitap lisans alır almaz mahkemede “uygun kullanım” (“adil kullanım”) argümanına güvenemeyeceği toplantıya yol açtı. ABD’deki “adil kullanım” düzenlemesine göre, telif hakkıyla korunan çalışmalardan alıntılar belirli koşullar altında kullanılabilir, örneğin öğretim amaçlı ve eleştirel tartışma bağlamında kullanılabilir.

Bu Argu: Meta, yazarın rızası olmadan milyonlarca kitap (korsan bir versiyonda) aldı: İç veya yayıncıları AI modeli Lama 3’lerini, örneğin 3 kitap benim kullandığı bu yırtıcı veritabanında onunla eğitmek için. Bu 👇

-İngrid brodnig (@brodnig.bsky.social) 2025-03-21t07: 33: 25.972z

Meta, bu verilerle yapılan eğitimin “adil kullanım” olduğunu savunuyor – sonuçta, LLM’ler orijinal materyali yeni eserlere “dönüştürecek”. Geçmişte Libgen’den de verileri kullanan Openai, aynı çentiğe çarptı. Eğitim LLM’leri için korsan kopyaların kullanılması nedeniyle, ABD’de Meta’ya karşı şu anda çeşitli davalar devam etmektedir. Arstechnica Portal’ın Şubat ayında bildirdiği mahkeme belgelerinde, grup telif hakkıyla korunan kitaplarla veri kayıtlarını kullandığını kabul etti, ancak bunları daha fazla yaymadı.

Brodnig: “Hızlı hareket et ve bir şeyler kır”

Teknoloji uzmanı Brodnig, her şeyi sorunlu olarak görüyor, bunun orf.at. Aksine, “Meta gibi, kendi ticari ürünlerini geliştirmek için büyük ölçekte milyonlarca kitap veritabanını indiren Meta gibi bir grup ve listelenen bir grup”.

Bununla birlikte, bizzat, şimdiye kadar bunu yapmayı planlamamıştı ya da şimdiye kadar hiçbir planı yoktu. Ancak, sendikalar ve yazarlar dernekleri gibi faiz temsilcilerinin “bu yasal bir soru olarak açıklığa kavuşturulması gerektiğinden” devam etmesi faydalı ve ilginç olacaktır. Brodnig’in izlenimine göre, büyük AI şirketleri şu anda “hızlı hareket ve bir şeyleri kır” sloganına göre ilerleyeceklerdi. Bu nedenle, bu tür yasal işlemlerin yasal durumun burada nasıl olduğunu açıklığa kavuşturması önemlidir.

Kaynak

Viyanablog Sitesinin Kurucusuyum.