Model AI Nyomot Kode Open Source? Ini Jerat Derivative Work

Q: Apakah semua output AI dari model open-source dianggap derivative work?

Tidak otomatis. Derivative work harus dibuktikan dengan substantial similarity antara output AI dan kode asli di training data. Kalau output AI hanya berupa pola umum atau algoritma standar, kemungkinan besar bukan derivative work. Tapi kalau output memuat blok kode identik atau struktur yang sangat mirip dengan repositori spesifik, risiko derivative work meningkat signifikan. Belum ada preseden hukum final soal ini, jadi sikap paling aman adalah audit proaktif.

Q: Apa bedanya risiko lisensi antara pakai Copilot dan model open-source?

GitHub Copilot (Enterprise) menyediakan IP indemnification: kalau kode yang dihasilkan Copilot melanggar hak cipta, Microsoft menanggung biaya hukum. Model open-source seperti Llama, Mistral, atau DeepSeek tidak menawarkan indemnification sama sekali. Pengguna model open-source menanggung seluruh risiko hukum sendiri. Namun Copilot juga dilatih dari data publik, dan kasus Doe v. GitHub masih berjalan menguji legalitas pendekatan ini.

Q: Bagaimana cara memastikan kode AI saya tidak melanggar lisensi open source?

Tiga langkah utama: (1) Gunakan SCA tools seperti FOSSA, Snyk, atau Black Duck untuk scan kemiripan output AI dengan kode open source yang dikenal. (2) Pilih model AI yang dokumentasi training data-nya transparan, seperti StarCoder2 yang punya data provenance jelas. (3) Buat AI Acceptable Use Policy internal yang mengatur model mana boleh dipakai untuk jenis kode apa, dan review wajib sebelum merge ke production.

Kode pemrograman di layar monitor dengan konsep lisensi dan derivative work untuk AI-generated code

⚡ Jawaban Singkat / Key Takeaways

Output model AI yang dilatih dari kode open source bisa dianggap derivative work tergantung lisensi training data-nya. Lisensi Apache 2.0 memang permisif, tapi punya klausa atribusi dan patent retaliation yang sering terlewat. Sementara itu, Copilot menawarkan indemnification yang tidak dimiliki model open-source manapun; celah ini bisa jadi bom waktu hukum buat startup-mu.

Satu Email yang Bikin Founder Nggak Bisa Tidur

Jam 11 malam. Kamu baru selesai deploy fitur AI code generator dari model Llama yang kamu fine-tune dengan 50 ribu repo GitHub publik. Produk mulai dapat traction. Lalu email masuk dari pengacara: klien mereka pemegang hak cipta repositori GPL yang termuat di dataset training-mu. Mereka mengklaim output model kamu adalah derivative work. Tuntutannya? Satu miliar rupiah.

Kamu baca ulang lisensi model yang kamu pakai. Apache 2.0. Aman kan? Nggak secepat itu. Lisensi model cuma ngatur model weights-nya, bukan training data yang dipakai buat menghasilkan weights tersebut. Ini celah yang luput dari radar kebanyakan founder dan open-source maintainer.

Artikel ini akan membongkar tiga pertanyaan penting: kapan kode hasil AI dianggap derivative work, apa perlindungan nyata lisensi Apache 2.0, dan kenapa indemnification Copilot itu senjata yang tidak kamu punya.

Derivative Work: Definisi yang Bikin Pengacara Senang

Di hukum hak cipta (terutama US Copyright Act), derivative work adalah karya yang didasarkan pada satu atau lebih karya yang sudah ada. Terjemahan, adaptasi, modifikasi, atau bentuk lain di mana karya asli “direcast, transformed, or adapted” masuk kategori ini. Nah, pertanyaan kritisnya: apakah output model AI yang dilatih dari kode berlisensi termasuk derivative work?

Jawabannya: belum ada preseden hukum yang jelas. Tapi argumen hukum yang mulai menguat menyatakan bahwa jika model menghasilkan output yang substantially similar dengan kode training-nya, maka output itu bisa dianggap derivative work. Ini bukan cuma opini; kasus Doe v. GitHub (2022) dan Getty Images v. Stability AI (2023) sedang menguji batas-batas ini di pengadilan.

Ilustrasi training data AI dari berbagai sumber open source dan implikasi hukum derivative work

Untuk open-source maintainer, ini berarti: kode yang kamu generate pakai AI bisa terjangkit lisensi copyleft dari data training-nya. GPL adalah contoh paling berbahaya. Kalau model kamu dilatih dengan kode GPL, lalu output-nya dipakai di produk proprietary, secara teori GPL bisa “menular” ke seluruh codebase kamu.

Apache 2.0: Lisensi “Aman” yang Nggak Sepenuhnya Aman

Banyak developer bernapas lega begitu lihat model favorit mereka pakai lisensi Apache 2.0. Permisif, boleh komersial, boleh modifikasi. Tapi ada tiga klausa spesifik yang sering terlewat, terutama dalam konteks AI.

1. Atribusi: Si Kecil yang Sering Diabaikan

Section 4(c) Apache 2.0 mewajibkan kamu menyertakan salinan lisensi, notice atribusi, dan file NOTICE di setiap distribusi. Buat model AI, distribusi artinya: deployment API publik, container image, atau binary yang kamu kirim ke customer. Lupa satu notice aja bisa jadi pelanggaran lisensi. Dan pelanggaran lisensi Apache 2.0 mengakibatkan terminasi otomatis hak penggunaan. Tiba-tiba, seluruh model yang jadi fondasi produk kamu… ilegal.

2. Patent Retaliation: Jebakan Buat Startup

Section 3 Apache 2.0 menyatakan: kalau kamu menggugat siapa pun dengan klaim bahwa kontribusi Apache mereka melanggar paten-mu, semua grant paten dari kontributor ke kamu langsung hangus. Buat startup yang rajin paten, ini jebakan. Bayangkan kamu patenkan teknik fine-tuning, lalu ada kontributor model yang pakai teknik serupa. Kalau kamu tuntut, seluruh lisensi paten dari kontributor ke produk kamu batal. Produk mati seketika.

3. Training Data: Apache 2.0 Nggak Ngomong Apa-apa

Ini celah paling kritis. Lisensi Apache 2.0 pada model weights tidak memberi kamu lisensi apa pun atas training data yang dipakai. Model Llama, Mistral, dan Falcon mungkin berlisensi Apache 2.0. Tapi kalau training data mereka mengandung kode berlisensi GPL, AGPL, atau bahkan proprietary yang di-scrape tanpa izin, output model kamu tetap berisiko. Lisensi model tidak melindungimu dari klaim derivative work atas training data.

Dokumen lisensi Apache 2.0 dan kode pemrograman yang menunjukkan konsep derivative work dalam software development

Indemnification: Senjata Rahasia Copilot yang Open Source Nggak Punya

Microsoft, lewat GitHub Copilot, menawarkan IP Indemnification. Kalau kode yang dihasilkan Copilot dianggap melanggar hak cipta pihak ketiga, Microsoft akan menanggung biaya hukum dan ganti rugi. Ini bukan janji kosong; ini ada di kontrak Copilot Enterprise.

Model open-source seperti Llama, Mistral, atau DeepSeek tidak menawarkan indemnification apa pun. Zero. Nol. Lisensi Apache 2.0 mereka bahkan secara eksplisit menyatakan: software disediakan “AS IS”, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND. Kalau output model kamu kena tuntutan derivative work, kamu sendiri yang bayar pengacara.

Ini menciptakan perbedaan fundamental antara dua pendekatan AI coding: Copilot bayar mahal tapi kamu dapat tameng hukum; model open source gratis tapi risikonya kamu tanggung sendiri. Buat startup bootstrap, ini pilihan yang bikin deg-degan.

Framework Praktis: Cek Status Derivative Work Kode AI-mu

Biar nggak cuma bahas teori, berikut framework tiga langkah yang bisa kamu pakai sekarang juga untuk mengaudit risiko derivative work di produk kamu.

Langkah 1: Telusuri Asal Training Data

Model pakai dataset publik seperti The Stack, GitHub Archive, atau Common Crawl? Cek lisensi repositori yang termuat.
Model open-weight tapi tidak transparan soal training data? Anggap berisiko tinggi.
Kamu fine-tune model dengan kode internal? Relatif aman, karena kamu pemegang hak cipta.

Langkah 2: Cek Substantial Similarity Output

Pakai tools SCA (Software Composition Analysis) seperti FOSSA atau Snyk untuk mendeteksi kemiripan output model dengan kode open source yang dikenal.
Output model yang mirip lebih dari 10 baris identik dengan repositori berlisensi harus diinvestigasi.
Baca panduan lengkap risiko lisensi kode AI untuk setup audit yang lebih detail.

Langkah 3: Evaluasi Lisensi Spesifik

Lisensi Training Data	Risiko Derivative Work	Dampak ke Produk
GPL / AGPL	Tinggi	Produk proprietary bisa wajib dirilis open source
Apache 2.0 / MIT	Rendah	Wajib atribusi (notice & license copy)
Proprietary (tanpa izin)	Sangat Tinggi	Tuntutan hak cipta langsung
Public Domain / CC0	Hampir Nihil	Tidak ada kewajiban

Yang Bisa Kamu Lakukan Mulai Hari Ini

Jangan tunggu email dari pengacara. Berikut checklist buat open-source maintainer dan startup founder yang serius melindungi produknya.

Pisahkan workspace AI coding: Baca artikel perbandingan telemetri HuggingFace vs Copilot dan setup workspace terpisah untuk kode sensitif.
Buat AI Acceptable Use Policy: Tulis aturan internal tentang model mana yang boleh dipakai, untuk jenis kode apa, dan proses review apa yang wajib.
Pakai model dengan data provenance jelas: Pilih model yang punya dokumentasi training data transparan. Model dari StarCoder2 (BigCode) atau CodeLlama dengan filter lisensi lebih aman.
Scan otomatis output model: Integrasikan FOSSA, ScanCode, atau Black Duck ke CI/CD pipeline kamu. Setiap output AI harus melewati scan lisensi.
Pertimbangkan indemnification: Kalau produk kamu mission-critical dan risiko tinggi, Copilot Enterprise dengan IP indemnification bisa jadi investasi yang lebih murah daripada satu kali tuntutan hukum.

Startup founder dan developer open source membaca dokumen lisensi software untuk compliance hukum

FAQ: Derivative Work dan Lisensi Kode AI

Apakah semua output AI dari model open-source dianggap derivative work?

Tidak otomatis. Derivative work harus dibuktikan dengan substantial similarity antara output AI dan kode asli di training data. Kalau output AI hanya berupa pola umum atau algoritma standar, kemungkinan besar bukan derivative work. Tapi kalau output memuat blok kode identik atau struktur yang sangat mirip dengan repositori spesifik, risiko derivative work meningkat signifikan. Belum ada preseden hukum final soal ini, jadi sikap paling aman adalah audit proaktif.

Lisensi Apache 2.0 di model AI melindungi saya dari tuntutan hak cipta?

Tidak. Lisensi Apache 2.0 pada model weights hanya mengatur penggunaan model itu sendiri, bukan training data yang dipakai untuk membuatnya. Kalau training data mengandung kode berlisensi GPL atau proprietary, kamu tetap bisa dituntut terlepas dari lisensi modelnya. Selain itu, Apache 2.0 tidak menyediakan indemnification; semua risiko hukum kamu tanggung sendiri.

Apa bedanya risiko lisensi antara pakai Copilot dan model open-source?

GitHub Copilot Enterprise menyediakan IP indemnification: kalau kode yang dihasilkan Copilot melanggar hak cipta, Microsoft menanggung biaya hukum. Model open-source seperti Llama, Mistral, atau DeepSeek tidak menawarkan indemnification sama sekali. Pengguna model open-source menanggung seluruh risiko hukum sendiri. Namun Copilot juga dilatih dari data publik, dan kasus Doe v. GitHub masih berjalan menguji legalitas pendekatan ini.

Bagaimana cara memastikan kode AI saya tidak melanggar lisensi open source?

Tiga langkah utama: (1) Gunakan SCA tools seperti FOSSA, Snyk, atau Black Duck untuk scan kemiripan output AI dengan kode open source yang dikenal. (2) Pilih model AI yang dokumentasi training data-nya transparan, seperti StarCoder2 yang punya data provenance jelas. (3) Buat AI Acceptable Use Policy internal yang mengatur model mana boleh dipakai untuk jenis kode apa, dan review wajib sebelum merge ke production.

Kesimpulan: Open Source Itu Kebebasan, Bukan Kekebalan

Model open-source ngasih kamu kecepatan, fleksibilitas, dan transparansi. Tapi mereka tidak ngasih kamu tameng hukum. Derivative work bukan cuma istilah akademik; ini risiko nyata yang bisa bikin startup kamu collapse dengan satu tuntutan.

Pahami tiga hal: asal training data model kamu, batas perlindungan lisensi Apache 2.0, dan celah indemnification antara Copilot dan open-source. Jangan cuma baca lisensi model; selidiki juga lisensi data yang melatih model tersebut. Satu langkah audit sekarang bisa menyelamatkan kamu dari tagihan pengacara ratusan juta nanti.

Untuk analisis teknis terbaru soal regulasi AI, keamanan kode, dan compliance untuk developer Indonesia, subscribe newsletter kami di bawah. Kami kirim insight yang bikin kamu siap sebelum audit datang.

Referensi: Apache License 2.0 | Doe v. GitHub (Copilot Litigation) | US Copyright Office: Derivative Work

Keamanan, Koding, Uncategorized, Web Development

Tagged in:

ai, AI code generator, AI copyright, Apache 2.0 license, Copilot indemnification, derivative work, indemnification, open source licensing, startup legal compliance, training data license

Show Comments

About the Author

Dzul Qurnain

Suka nonton Anime, ngoding dan bagi-bagi tips kalau tahu.. Oh iya, suka baca ( tapi yang menarik menurutku aja)... Praktisi WordPress, web development, SEO, dan server administration yang membagikan tutorial teknis dan catatan implementasi nyata.

View All Articles

Model AI Nyomot Kode Open Source? Begini Cara Lisensi Apache 2.0 Menjerat Startup-mu