GitHub: Vom folosi datele voastre pentru antrenarea AI-ului după toate
Microsoft's GitHub plănuiește să înceapă, luna viitoare, utilizarea datelor de interacțiune ale clienților – „în special inputuri, outputuri, fragmente de cod și context asociat” – pentru a antrena modelele sale de inteligență artificială. Politica revidiată a platformei se aplică utilizatorilor Copilot Free, Pro și Pro+ începând cu 24 aprilie, conform theregister.com.
👉 Excepții și opțiuni pentru utilizatorii Copilot
Utilizatorii Copilot Business și Copilot Enterprise sunt scutiți datorită termenilor contractuali, iar studenții și profesorii care accesează Copilot vor fi, de asemenea, exceptați. Cei afectați au opțiunea de a se retrage conform „practicilor standard din industrie”, ceea ce înseamnă conform normelor din SUA, spre deosebire de normele europene, unde este adesea necesar consimțământul explicit. Pentru a se retrage, utilizatorii GitHub ar trebui să viziteze /settings/copilot/features și să dezactiveze opțiunea „Permiteți GitHub să folosească datele mele pentru antrenarea modelului AI” sub titlul Privacy.
Mario Rodriguez, ofițerul șef de produs al GitHub, ar prefera să nu faceți acest lucru. „Prin participare, veți ajuta modelele noastre să înțeleagă mai bine fluxurile de lucru în dezvoltare, să ofere sugestii de cod mai precise și mai sigure și să îmbunătățească abilitatea lor de a vă ajuta să identificați potențiale erori înainte de a ajunge în producție”, a scris el într-o postare pe blog. Pentru a-și justifica comportamentul doritor de date, GitHub în FAQs-ul său observă că Anthropic, JetBrains și compania mamă Microsoft operează politici similare de utilizare a datelor cu opțiunea de retragere.
👉 Impactul asupra modelelor AI și confidențialitatea repozițoarelor
Raționamentul pentru această schimbare, conform lui Rodriguez, este că datele de interacțiune fac modelele AI ale companiei să funcționeze mai bine. Adăugarea de date de interacțiune de la angajații Microsoft a dus la îmbunătățiri semnificative, afirmă el, cum ar fi o rată crescută de acceptare pentru sugestiile modelelor AI. Schimbarea politicii schimbă într-o oarecare măsură semnificația repositoarelor private GitHub, care sunt, în teorie, „accesibile doar pentru tine, persoanele cu care împărtășești accesul explicit și, pentru repositoarele organizației, anumiți membri ai organizației”. Acestea ar putea fi mai precis descrise ca „repositoare private GitHub*”, cu un asterisc pentru a denota limitele definiției „private” oferite de GitHub.
După cum explică FAQs-urile, „Dacă un utilizator Copilot are setările configurate pentru a permite antrenarea modelului pe datele de interacțiune, fragmentele de cod din repositoarele private pot fi colectate și utilizate pentru antrenarea modelului în timp ce utilizatorul este activ angajat cu Copilot în timpul lucrului în acea repositoare.” Discuțiile recente în comunitatea GitHub nu includ mult entuziasm pentru plan. Judecând după voturile emoji, utilizatorii au oferit 59 de voturi cu degetul în jos și doar trei rachete, care, așa cum înțelegem, semnalează un anumit grad de entuziasm. Dar dintre cele 39 de postări care comentau asupra schimbării în momentul în care acest articol a fost redactat, nimeni altcineva decât Martin Woodward, vicepreședinte al relațiilor cu dezvoltatorii GitHub, nu a susținut cu adevărat ideea.
Indignarea utilizatorilor ar putea fi într-o oarecare măsură atenuată dacă utilizatorii GitHub ar recunoaște că Codex-ul OpenAI – utilizat în GitHub Copilot – este „un model de limbaj GPT ajustat pe cod disponibil public din GitHub”. Această frază demonstrează că „calul” AI-ului, îmbibat cu date, este deja afară din grajd, așa spunând. Închiderea ușilor în acest moment nu va schimba faptul că industria AI se bazează pe date adunate fără a cere un indiciu puternic de consimțământ entuziast.