Prawny dzień zagłady dla generatywnego czatu AI

Czy generatywna sztuczna inteligencja, taka jak ChatGPT, zdziera z naszych stron internetowych i treści stworzonych przez ludzi? Bądź świadomy, bądź … [+] zdenerwowany, bądź gotowy.

Getty

Udziel kredytu tam, gdzie jest należny.

To odrobina mądrości mędrca, w którą być może zostałeś wychowany, by mocno w to wierzyć. Rzeczywiście, można przypuszczać lub wyobrażać sobie, że wszyscy możemy w pewnym stopniu zgodzić się, że jest to uczciwa i rozsądna zasada życiowa. Kiedy ktoś robi coś, co zasługuje na uznanie, upewnij się, że otrzyma zasłużone uznanie.

Kontrariański punkt widzenia wydawałby się o wiele mniej przekonujący.

Gdyby ktoś chodził w kółko, upierając się, że kredyt powinien nie zostać rozpoznany, gdy należny jest kredyt, cóż, możesz twierdzić, że takie przekonanie jest niegrzeczne i prawdopodobnie podstępne. Często czujemy się głośno zaniepokojeni, gdy ktoś oszukuje uznanie kogoś, kto osiągnął coś znaczącego. Śmiem twierdzić, że szczególnie nie przychylamy się, gdy inni fałszywie przypisują sobie zasługi za pracę innych. To niepokojące podwójne uderzenie. Osobie, która powinna była otrzymać uznanie, odmawia się chwili spędzonej w słońcu. Ponadto oszust rozkoszuje się blaskiem fleszy, chociaż niesłusznie oszukuje nas, abyśmy przywłaszczyli sobie nasze korzystne uczucia.

Po co cały ten dyskurs o zdobywaniu uznania w najbardziej właściwy sposób i unikaniu złych i godnych pogardy sposobów?

Ponieważ wydaje się, że mamy do czynienia z podobną sytuacją, jeśli chodzi o najnowszą sztuczną inteligencję (AI).

Tak, twierdzi się, że dzieje się to w sposób oczywisty za pośrednictwem rodzaju sztucznej inteligencji znanej jako generatywna sztuczna inteligencja. Jest wiele załamań ręcznych, że Generative AI, najgorętsza sztuczna inteligencja w wiadomościach w dzisiejszych czasach, już przypisała sobie zasługi za to, na co nie zasługuje. Sytuacja ta prawdopodobnie ulegnie pogorszeniu w miarę rozszerzania i wykorzystywania generatywnej sztucznej inteligencji. Coraz więcej kredytów trafia do generatywnej sztucznej inteligencji, podczas gdy niestety ci, którzy w pełni zasługują na prawdziwe uznanie, pozostają w kurzu.

Mój proponowany sposób wyraźnego określenia tego rzekomego zjawiska polega na użyciu dwóch odlotowych powiedzonek:

1) Plagiat na dużą skalę
2) Naruszenie praw autorskich na dużą skalę

Zakładam, że możesz być świadomy generatywnej sztucznej inteligencji dzięki bardzo popularnej aplikacji AI znanej jako ChatGPT, która została wydana w listopadzie przez OpenAI. Za chwilę powiem więcej o generatywnej sztucznej inteligencji i ChatGPT. Powieś tam.

Przejdźmy od razu do sedna tego, co daje ludziom kozy.

Niektórzy żarliwie narzekają, że generatywna sztuczna inteligencja potencjalnie oszukuje ludzi, którzy stworzyli treści. Widzisz, większość generatywnych aplikacji AI uczy się danych poprzez badanie danych znalezionych w Internecie. Na podstawie tych danych algorytmy mogą doskonalić rozległą wewnętrzną sieć dopasowywania wzorców w aplikacji AI, która może następnie tworzyć pozornie nowe treści, które zdumiewająco wyglądają, jakby zostały opracowane ludzką ręką, a nie automatem

Ten niezwykły wyczyn jest w dużej mierze zasługą wykorzystania treści skanowanych w Internecie. Bez ilości i bogactwa treści internetowych jako źródła do uczenia danych, generatywna sztuczna inteligencja byłaby prawie pusta i nie byłaby interesująca do użycia. Dzięki temu, że sztuczna inteligencja bada miliony dokumentów i tekstów online, a także wszelkiego rodzaju powiązane treści, dopasowywanie wzorców jest stopniowo uzyskiwane w celu naśladowania treści tworzonych przez człowieka.

Im więcej treści zostanie zbadanych, tym większe prawdopodobieństwo, że dopasowywanie wzorców będzie bardziej dopracowane i jeszcze lepsze w naśladowaniu, przy czym wszystkie inne elementy będą równe.

Oto pytanie za milion dolarów:

Wielkie pytanie: Jeśli ty lub inni macie w Internecie treści, na których trenowano jakąś generatywną aplikację sztucznej inteligencji, robiąc to prawdopodobnie bez twojej bezpośredniej zgody, a być może w ogóle bez twojej świadomości, powinieneś mieć prawo do kawałka tortu, niezależnie od wartości wynikającej z to generatywne szkolenie w zakresie danych AI?

Niektórzy stanowczo twierdzą, że jedyną właściwą odpowiedzią jest Tak, zwłaszcza, że ci twórcy treści ludzkich rzeczywiście zasługują na swoją część akcji. Rzecz w tym, że trudno byłoby znaleźć kogoś, kto dostałby swój sprawiedliwy udział, a co gorsza, prawie nikt nie dostał żadnego udziału. Twórcom treści internetowych, którzy mimowolnie i nieświadomie wnieśli swój wkład, zasadniczo odmawia się należnego im uznania.

Można to scharakteryzować jako okropne i oburzające. Właśnie przeszliśmy przez rozpakowywanie mądrości mędrca, że powinno się udzielać kredytu tam, gdzie jest on należny. W przypadku generatywnej AI najwyraźniej tak nie jest. Długoletnia i cnotliwa praktyczna zasada dotycząca kredytu wydaje się być bezdusznie łamana.

Whoa, riposta idzie, całkowicie przesadzasz i błędnie przedstawiasz sytuację. Oczywiście, generatywna sztuczna inteligencja zbadała treści w Internecie. Jasne, było to bardzo pomocne w ramach szkolenia danych generatywnej sztucznej inteligencji. Trzeba przyznać, że imponujące generatywne aplikacje AI nie byłyby tak imponujące bez tego przemyślanego podejścia. Ale posunąłeś się o jeden most za daleko, mówiąc, że twórcom treści należy przypisać jakieś szczególne uznanie.

Logika jest następująca. Ludzie wychodzą do Internetu i uczą się różnych rzeczy z Internetu, robiąc to rutynowo i bez żadnego zamieszania per se. Osoba, która czyta blogi o hydraulice, a następnie ogląda pobieżnie dostępne darmowe filmy z naprawami hydrauliki, może następnego dnia wyjść i znaleźć pracę jako hydraulik. Czy muszą przekazać część swoich przekazów związanych z hydrauliką blogerowi, który napisał o tym, jak podłączyć zlew? Czy muszą zapłacić vlogerowi, który nakręcił film pokazujący, jak naprawić cieknącą wannę?

Prawie na pewno nie.

Trening danych generatywnej sztucznej inteligencji jest jedynie sposobem na opracowanie wzorców. Tak długo, jak dane wyjściowe z generatywnej sztucznej inteligencji nie są zwykłym powtarzaniem dokładnie tego, co zostało zbadane, można przekonująco argumentować, że „nauczyły się” i dlatego nie podlegają przyznaniu żadnego konkretnego źródła żadnemu konkretnemu źródłu. O ile nie uda ci się złapać generatywnej sztucznej inteligencji w wykonywaniu dokładnej regurgitacji, wskazuje to, że sztuczna inteligencja uogólniła się poza jakiekolwiek konkretne źródło.

Żaden kredyt nie należy się nikomu. Albo, jak można przypuszczać, można powiedzieć, że zasługa należy się wszystkim. Zbiorowy tekst i inne treści ludzkości, które można znaleźć w Internecie, otrzymują uznanie. Wszyscy otrzymujemy kredyt. Próba przypisania kredytu do określonego źródła jest bezsensowna. Cieszcie się, że sztuczna inteligencja jest rozwijana i że ludzkość odniesie z tego korzyści. Te posty w Internecie powinny być zaszczycone, że przyczyniły się do przyszłego postępu w sztucznej inteligencji i tego, jak pomoże to ludzkości na wieczność.

Będę miał więcej do powiedzenia na temat obu tych przeciwstawnych poglądów.

Tymczasem, czy skłaniasz się ku obozowi, który mówi, że należy się uznanie i jest spóźniony dla tych, którzy mają strony internetowe, czy też uważasz, że strona przeciwna, która twierdzi, że twórcy treści internetowych są zdecydowanie nie bycie oszukanym jest bardziej przekonującą postawą?

Zagadka i zagadka splatają się w jedno.

Rozpakujmy to.

W dzisiejszym felietonie odniosę się do tych wyrażonych obaw, że generatywna sztuczna inteligencja zasadniczo plagiatuje lub prawdopodobnie narusza prawa autorskie treści, które zostały opublikowane w Internecie (uważane za prawo własności intelektualnej lub kwestię własności intelektualnej). Przyjrzymy się podstawom tych zastrzeżeń. Podczas tej dyskusji od czasu do czasu będę odnosił się do ChatGPT, ponieważ jest to 600-kilogramowy goryl generatywnej sztucznej inteligencji, chociaż należy pamiętać, że istnieje wiele innych generatywnych aplikacji AI i generalnie opierają się one na tych samych ogólnych zasadach.

Tymczasem możesz się zastanawiać, czym tak naprawdę jest generatywna sztuczna inteligencja.

Najpierw omówmy podstawy generatywnej sztucznej inteligencji, a następnie przyjrzyjmy się pilnej sprawie.

Do tego wszystkiego dochodzi mnóstwo kwestii związanych z etyką sztucznej inteligencji i prawem sztucznej inteligencji.

Należy pamiętać, że trwają wysiłki mające na celu włączenie zasad etycznej sztucznej inteligencji do opracowywania i wdrażania aplikacji AI. Rosnący kontyngent zainteresowanych i niegdysiejszych etyków sztucznej inteligencji stara się zapewnić, aby wysiłki mające na celu opracowanie i przyjęcie sztucznej inteligencji uwzględniały pogląd na robienie AI na dobre i unikanie AI na złe. Podobnie, proponowane są nowe przepisy dotyczące sztucznej inteligencji, które są rozpowszechniane jako potencjalne rozwiązania mające na celu powstrzymanie wysiłków AI przed popadnięciem w amok w zakresie praw człowieka i tym podobnych. Aby zapoznać się z moimi ciągłymi i obszernymi relacjami z etyki AI i prawa AI, patrz link tutaj i link tutaj, żeby wymienić tylko kilka.

Trwa opracowywanie i rozpowszechnianie zasad etycznej sztucznej inteligencji, aby, miejmy nadzieję, zapobiec wpadnięciu społeczeństwa w niezliczone pułapki indukujące sztuczną inteligencję. Aby zapoznać się z moimi relacjami z zasad etyki AI ONZ opracowanych i wspieranych przez prawie 200 krajów dzięki wysiłkom UNESCO, zob. link tutaj. W podobnym duchu badane są nowe przepisy dotyczące sztucznej inteligencji, aby spróbować utrzymać sztuczną inteligencję na równym poziomie. Jedno z najnowszych ujęć składa się z zestawu proponowanych Karta praw AI które niedawno wydał Biały Dom w celu określenia praw człowieka w dobie sztucznej inteligencji, zob link tutaj. Potrzeba całej wioski, aby utrzymać sztuczną inteligencję i twórców sztucznej inteligencji na właściwej ścieżce i powstrzymać celowe lub przypadkowe podstępne działania, które mogą zaszkodzić społeczeństwu.

W tę dyskusję będę wplatać rozważania związane z etyką sztucznej inteligencji i prawem sztucznej inteligencji.

Podstawy generatywnej sztucznej inteligencji

Najbardziej znany przypadek generatywnej sztucznej inteligencji jest reprezentowany przez aplikację AI o nazwie ChatGPT. ChatGPT pojawił się w świadomości publicznej w listopadzie, kiedy został wydany przez firmę badawczą AI OpenAI. Od tego czasu ChatGPT zbiera ogromne nagłówki i zdumiewająco przekracza przydzielone piętnaście minut sławy.

Zgaduję, że prawdopodobnie słyszałeś o ChatGPT, a może nawet znasz kogoś, kto z niego korzystał.

ChatGPT jest uważany za generatywną aplikację AI, ponieważ jako dane wejściowe pobiera tekst od użytkownika, a następnie generuje lub tworzy wynik, który składa się z eseju. Sztuczna inteligencja jest generatorem tekstu na tekst, chociaż opisuję AI jako generator tekstu na esej, ponieważ łatwiej wyjaśnia, do czego jest powszechnie używany. Możesz użyć generatywnej sztucznej inteligencji do komponowania długich kompozycji lub możesz sprawić, by oferowała raczej krótkie, zwięzłe komentarze. To wszystko na twoje rozkazy.

Wszystko, co musisz zrobić, to wpisać monit, a aplikacja AI wygeneruje dla Ciebie esej, który spróbuje odpowiedzieć na Twój monit. Skomponowany tekst będzie wyglądał tak, jakby esej został napisany ludzką ręką i umysłem. Jeśli wpiszesz monit „Opowiedz mi o Abrahamie Lincolnie”, generatywna sztuczna inteligencja dostarczy ci esej o Lincolnie. Istnieją inne tryby generatywnej sztucznej inteligencji, takie jak text-to-art i text-to-video. Skoncentruję się tutaj na odmianie tekstu na tekst.

Twoja pierwsza myśl może być taka, że ta zdolność do generowania nie wydaje się tak wielka, jeśli chodzi o tworzenie esejów. Możesz łatwo przeszukać Internet i łatwo znaleźć tony esejów o prezydencie Lincolnie. Kopacz w przypadku generatywnej sztucznej inteligencji polega na tym, że wygenerowany esej jest stosunkowo unikalny i zapewnia oryginalną kompozycję, a nie naśladowcę. Gdybyś miał spróbować znaleźć gdzieś online esej stworzony przez sztuczną inteligencję, jest mało prawdopodobne, że go znajdziesz.

Generatywna sztuczna inteligencja jest wstępnie wyszkolona i wykorzystuje złożone formuły matematyczne i obliczeniowe, które zostały opracowane na podstawie badania wzorców w słowach pisanych i historiach w Internecie. W wyniku zbadania tysięcy i milionów pisemnych fragmentów sztuczna inteligencja może wypluć nowe eseje i historie, które są mieszanką tego, co zostało znalezione. Dzięki dodaniu różnych funkcji probabilistycznych wynikowy tekst jest prawie unikalny w porównaniu z tym, co zostało użyte w zbiorze uczącym.

Istnieje wiele obaw związanych z generatywną sztuczną inteligencją.

Jednym z kluczowych minusów jest to, że eseje tworzone przez generatywną aplikację AI mogą zawierać różne osadzone kłamstwa, w tym ewidentnie nieprawdziwe fakty, fakty, które są myląco przedstawiane, oraz pozorne fakty, które są całkowicie sfabrykowane. Te sfabrykowane aspekty są często określane jako forma Halucynacje AI, slogan, którego nie lubię, ale niestety wydaje się, że i tak zyskuje popularność (szczegółowe wyjaśnienie, dlaczego jest to kiepska i nieodpowiednia terminologia, można znaleźć w mojej relacji na link tutaj).

Innym problemem jest to, że ludzie mogą łatwo przypisać sobie uznanie za generatywny esej stworzony przez sztuczną inteligencję, mimo że sami go nie napisali. Być może słyszałeś, że nauczyciele i szkoły są bardzo zaniepokojeni pojawieniem się generatywnych aplikacji AI. Studenci mogą potencjalnie wykorzystać generatywną sztuczną inteligencję do napisania przypisanych im esejów. Jeśli uczeń twierdzi, że esej został napisany własnoręcznie, istnieje niewielka szansa, że nauczyciel będzie w stanie rozpoznać, czy zamiast tego został sfałszowany przez generatywną sztuczną inteligencję. Aby zapoznać się z moją analizą tego mylącego aspektu ucznia i nauczyciela, zobacz moją relację pod adresem link tutaj i link tutaj.

W mediach społecznościowych pojawiło się kilka dziwacznych, przerośniętych roszczeń generatywna sztuczna inteligencja twierdząc, że ta najnowsza wersja AI jest w rzeczywistości czująca sztuczna inteligencja (nie, mylą się!). Osoby zajmujące się etyką sztucznej inteligencji i prawem sztucznej inteligencji są szczególnie zaniepokojone tym rosnącym trendem wysuwanych roszczeń. Można grzecznie powiedzieć, że niektórzy ludzie przeceniają to, co dzisiejsza sztuczna inteligencja faktycznie potrafi. Zakładają, że sztuczna inteligencja ma możliwości, których nie byliśmy jeszcze w stanie osiągnąć. To niefortunne. Co gorsza, mogą pozwolić sobie i innym na wpadnięcie w tragiczne sytuacje z powodu założenia, że sztuczna inteligencja będzie świadoma lub podobna do człowieka i będzie w stanie podjąć działania.

Nie antropomorfizuj AI.

W ten sposób zostaniesz złapany w lepką i ponurą pułapkę polegania na oczekiwaniu, że sztuczna inteligencja zrobi rzeczy, których nie jest w stanie wykonać. Biorąc to pod uwagę, najnowsze generatywne AI są stosunkowo imponujące pod względem tego, co potrafią. Należy jednak pamiętać, że istnieją znaczne ograniczenia, o których należy stale pamiętać podczas korzystania z dowolnej aplikacji do generatywnej sztucznej inteligencji.

Na razie ostatnie ostrzeżenie.

Cokolwiek zobaczysz lub przeczytasz w generatywnej odpowiedzi AI wydaje być przekazywane jako oparte na faktach (daty, miejsca, ludzie itp.), zachowaj sceptycyzm i bądź gotów dwukrotnie sprawdzić to, co widzisz.

Tak, daty można zmyślać, miejsca można zmyślać, a elementy, które zwykle oczekujemy, że będą bez zarzutu, są cała kolekcja podlega podejrzeniom. Nie wierz w to, co czytasz i zachowuj sceptycyzm podczas sprawdzania generatywnych esejów lub wyników AI. Jeśli generatywna aplikacja AI powie ci, że Abraham Lincoln latał po kraju swoim prywatnym odrzutowcem, z pewnością wiedziałbyś, że to malarkowskie. Niestety, niektórzy ludzie mogą nie zdawać sobie sprawy, że w jego czasach nie było odrzutowców, lub mogą wiedzieć, ale nie zauważać, że esej zawiera to bezczelne i oburzająco fałszywe twierdzenie.

Silna dawka zdrowego sceptycyzmu i uporczywy brak wiary będą Twoimi największymi atutami podczas korzystania z generatywnej sztucznej inteligencji.

Jesteśmy gotowi przejść do następnego etapu wyjaśniania.

Internet i generatywna sztuczna inteligencja są w tym razem

Teraz, gdy masz już pojęcie, czym jest generatywna sztuczna inteligencja, możemy zbadać irytujące pytanie, czy generatywna sztuczna inteligencja sprawiedliwie lub niesprawiedliwie „wykorzystuje”, czy też niektórzy powiedzieliby rażąco wykorzystywanie Treści internetowe.

Oto moje cztery istotne tematy związane z tą sprawą:

1) Podwójny problem: plagiat i naruszenie praw autorskich
2) Próba udowodnienia plagiatu lub naruszenia praw autorskich będzie próbą
3) Dochodzenie zarzutu plagiatu lub naruszenia praw autorskich
4) Legalne miny czekają

Omówię każdy z tych ważnych tematów i przedstawię wnikliwe rozważania, nad którymi wszyscy powinniśmy uważnie się zastanowić. Każdy z tych tematów jest integralną częścią większej układanki. Nie możesz patrzeć tylko na jeden kawałek. Nie możesz też patrzeć na żaden kawałek w oderwaniu od innych kawałków.

Jest to skomplikowana mozaika, a całej układance należy poświęcić odpowiednią harmonijną uwagę.

Podwójny problem: plagiat i naruszenie praw autorskich

Podwójny problem, przed którym stoją ci, którzy tworzą i wdrażają generatywną sztuczną inteligencję, polega na tym, że ich towary mogą robić dwie złe rzeczy:

1) Plagiat. Generatywna sztuczna inteligencja może być interpretowana jako plagiat treści, które istnieją w Internecie, zgodnie ze skanowaniem Internetu, które miało miejsce podczas uczenia danych przez sztuczną inteligencję.
2) Naruszenie praw autorskich. Generatywna sztuczna inteligencja może być uznana za przedsięwzięcie naruszenie praw autorskich związane z treścią internetową, która została przeskanowana podczas uczenia danych.

Gwoli wyjaśnienia, w Internecie jest o wiele więcej treści, niż jest to zwykle skanowane w celu szkolenia danych generatywnej sztucznej inteligencji. Zwykle wykorzystywana jest tylko niewielka część Internetu. W związku z tym możemy przypuszczalnie założyć, że wszelkie treści, które nie zostały zeskanowane podczas uczenia danych, nie mają szczególnego związku z generatywną sztuczną inteligencją.

Jest to jednak nieco dyskusyjne, ponieważ potencjalnie można narysować linię łączącą inną zawartość, która została zeskanowana, z zawartością, która nie została zeskanowana. Ponadto innym ważnym zastrzeżeniem jest to, że nawet jeśli istnieją treści, które nie zostały zeskanowane, nadal można argumentować, że są plagiatem i/lub naruszają prawa autorskie, jeśli wyniki generatywnej sztucznej inteligencji wylądują na tym samym słownictwie. Chodzi mi o to, że w tym wszystkim jest dużo gąbki.

Podsumowując: Generatywna sztuczna inteligencja obfituje w potencjalne zagadki prawne związane z etyką sztucznej inteligencji i prawem sztucznej inteligencji, jeśli chodzi o plagiat i naruszenie praw autorskich stanowiące podstawę dominujących praktyk szkoleniowych w zakresie danych.

Jak dotąd twórcy sztucznej inteligencji i badacze sztucznej inteligencji przeszli przez to prawie bez szwanku, pomimo wyłaniającego się i niebezpiecznie zwisającego miecza, który wisi nad nimi. Do tej pory przeciwko tym praktykom wszczęto zaledwie kilka spraw sądowych. Być może słyszałeś lub widziałeś artykuły prasowe na temat takich działań prawnych. Jeden, na przykład, dotyczy firm przetwarzających tekst na obraz Midjourney i Stability AI za naruszanie treści artystycznych publikowanych w Internecie. Inny wiąże się z naruszeniem funkcji text-to-code wobec GitHub, Microsoft i OpenAI z powodu oprogramowania Copilot produkującego aplikacje AI. Getty Images również dążyło do ścigania Stability AI za naruszenie tekstu na obraz.

Można się spodziewać, że takich pozwów będzie więcej.

W tej chwili wszczęcie tych procesów sądowych jest trochę ryzykowne, ponieważ wynik jest stosunkowo nieznany. Czy sąd stanie po stronie twórców sztucznej inteligencji, czy też ci, którzy uważają, że ich treść została niesprawiedliwie wykorzystana, odniosą zwycięstwo? Kosztowna batalia prawna to zawsze poważna sprawa. Wydatki na koszty prawne na dużą skalę należy porównać z szansami na wygraną lub przegraną.

Wydaje się, że twórcy sztucznej inteligencji nie mają prawie innego wyboru, jak tylko podjąć walkę. Gdyby ugięli się, choćby trochę, istnieje duże prawdopodobieństwo, że doprowadzi to do potoku dodatkowych procesów sądowych (zasadniczo otwierając drzwi do zwiększonych szans na zwycięstwo innych). Gdy w wodzie pojawi się legalna krew, pozostałe legalne rekiny będą biec do rozważanego „łatwego wyniku” i z pewnością nastąpiłaby krwawa łaźnia pieniężna.

Niektórzy uważają, że powinniśmy uchwalić nowe przepisy dotyczące sztucznej inteligencji, które chroniłyby twórców sztucznej inteligencji. Ochrona może nawet działać wstecz. Podstawą tego jest to, że jeśli chcemy zobaczyć postęp w generatywnej sztucznej inteligencji, musimy dać twórcom sztucznej inteligencji pewną bezpieczną strefę startową. Gdy procesy sądowe zaczną przynosić zwycięstwa twórcom sztucznej inteligencji, jeśli tak się stanie (jeszcze nie wiemy), istnieje obawa, że generatywna sztuczna inteligencja wyparuje, ponieważ nikt nie będzie chciał udzielić wsparcia firmom zajmującym się sztuczną inteligencją.

Jak umiejętnie wskazano w niedawnym artykule Bloomberg Law zatytułowanym „ChatGPT: IP, Cybersecurity & Other Legal Risks of Generative AI” autorstwa dr Ilii Kolochenko i Gordona Platta, Bloomberg Law, luty 2023 r., oto dwa istotne fragmenty odzwierciedlające te punkty widzenia:

„Wśród amerykańskich prawników i profesorów prawa własności intelektualnej toczy się obecnie gorąca debata na temat tego, czy nieautoryzowane pobieranie i późniejsze wykorzystywanie danych chronionych prawem autorskim stanowi naruszenie praw autorskich. Jeśli przeważy pogląd prawników praktyków, którzy widzą naruszenia praw autorskich w takich praktykach, użytkownicy takich systemów sztucznej inteligencji mogą również zostać pociągnięci do odpowiedzialności za wtórne naruszenie i potencjalnie ponieść konsekwencje prawne”.
„Aby kompleksowo sprostać temu wyzwaniu, prawodawcy powinni rozważyć nie tylko modernizację istniejących przepisów dotyczących praw autorskich, ale także wdrożenie zestawu praw i przepisów dotyczących sztucznej inteligencji”.

Przypomnijmy, że jako społeczeństwo wprowadziliśmy ochronę prawną dla ekspansja Internetu, czego dowodem jest teraz Sąd Najwyższy, który dokonuje przeglądu słynnego lub niesławnego paragrafu 230. Wydaje się zatem uzasadnione i precedensowe, że moglibyśmy chcieć wprowadzić podobne zabezpieczenia dla rozwoju generatywnej sztucznej inteligencji. Być może zabezpieczenia mogłyby zostać ustanowione tymczasowo, wygasając po osiągnięciu przez generatywną sztuczną inteligencję pewnego z góry określonego poziomu biegłości. Można opracować inne środki ochronne.

Wkrótce opublikuję moją analizę tego, w jaki sposób ocena Sądu Najwyższego i ostateczne orzeczenie w sprawie sekcji 230 może wpłynąć na pojawienie się generatywnej sztucznej inteligencji. Wypatruj nadchodzącego wpisu!

Wracając do ostro wyrażanej opinii, że powinniśmy dać pole do popisu budzącej podziw społeczności innowacji technologicznej, znanej jako generatywna sztuczna inteligencja. Niektórzy powiedzieliby, że nawet jeśli domniemane naruszenie praw autorskich ma miejsce lub ma miejsce, społeczeństwo jako całość powinno być skłonne na to zezwolić w konkretnych celach rozwoju generatywnej sztucznej inteligencji.

Mamy nadzieję, że nowe przepisy dotyczące sztucznej inteligencji zostaną starannie opracowane i dostosowane do szczegółów związanych ze szkoleniem danych dla generatywnej sztucznej inteligencji.

Istnieje wiele kontrargumentów dla tego pomysłu opracowania nowych przepisów dotyczących sztucznej inteligencji w tym celu. Jedną z obaw jest to, że każde takie nowe prawo dotyczące sztucznej inteligencji otworzy wrota dla wszelkiego rodzaju naruszeń praw autorskich. Będziemy żałować dnia, w którym pozwoliliśmy takim nowym przepisom dotyczącym sztucznej inteligencji wylądować w księgach. Bez względu na to, jak bardzo starasz się ograniczyć to tylko do szkolenia danych AI, inni podstępnie lub sprytnie znajdą luki, które będą równoznaczne z nieskrępowanym i szalejącym naruszeniem praw autorskich.

Okrągłe argumenty idą.

Jeden argument, który nie jest szczególnie przekonujący, dotyczy próby pozwania samej sztucznej inteligencji. Zauważ, że odniosłem się do twórcy sztucznej inteligencji lub badaczy sztucznej inteligencji jako do winnych interesariuszy. To ludzie i firmy. Niektórzy sugerują, że powinniśmy obrać za cel sztuczną inteligencję jako stronę pozwaną. Omówiłem obszernie w moim felietonie, że nie przypisujemy jeszcze AI osobowości prawnej, patrz link tutaj na przykład, a zatem takie pozwy wymierzone w sztuczną inteligencję jako taką byłyby obecnie uważane za bezsensowne.

Jako dodatek do pytania, kogo lub co należy pozwać, pojawia się kolejny soczysty temat.

Załóżmy, że konkretna generatywna aplikacja sztucznej inteligencji została opracowana przez jakiegoś twórcę sztucznej inteligencji, którego nazwiemy Widget Company. Firma Widget jest stosunkowo niewielka i nie ma dużych przychodów ani aktywów. Pozywanie ich prawdopodobnie nie przyniesie wielkich bogactw, których ktoś mógłby szukać. Co najwyżej miałbyś satysfakcję z naprawienia tego, co postrzegasz jako złe.

Chcesz łowić grube ryby.

Oto jak to powstanie. Twórca sztucznej inteligencji decyduje się udostępnić swoją generatywną sztuczną inteligencję Big Time Company, dużemu konglomeratowi z tonami ciasta i tonami aktywów. Pozew o nazwie Widget Company miałby teraz lepszy cel, a mianowicie poprzez nazwanie Big Time Company. To walka Dawida i Goliata, którą prawnicy byliby zachwyceni. Oczywiście firma Big Time bez wątpienia będzie próbowała zerwać się z haczyka. To, czy mogą to zrobić, jest ponownie kwestią prawną, która jest niepewna i mogą beznadziejnie ugrzęznąć w błocie.

Zanim przejdziemy dalej, chciałbym uzyskać coś kluczowego na stole w sprawie twierdzonych ingerencji generatywnej sztucznej inteligencji z powodu szkolenia danych. Jestem pewien, że intuicyjnie zdajesz sobie sprawę, że plagiat i naruszenie praw autorskich to dwie nieco różne bestie. Mają ze sobą wiele wspólnego, choć znacząco się różnią.

Oto poręczny zwięzły opis z Duke University, który wyjaśnia te dwa:

„Plagiat najlepiej zdefiniować jako nieuznane wykorzystanie pracy innej osoby. Jest to kwestia etyczna związana z roszczeniem o uznanie za pracę, której wnioskodawca nie stworzył. Można splagiatować czyjąś pracę bez względu na status praw autorskich tej pracy. Na przykład, mimo to plagiatem jest kopiowanie z książki lub artykułu, który jest zbyt stary, aby nadal podlegał prawu autorskiemu. Plagiatem jest również wykorzystywanie danych zaczerpniętych z nieznanego źródła, nawet jeśli materiał faktyczny, taki jak dane, może nie być chroniony prawem autorskim. Plagiat jest jednak łatwy do wyleczenia – właściwe cytowanie oryginalnego źródła materiału.”
„Z drugiej strony naruszenie praw autorskich to nieautoryzowane użycie dzieła innej osoby. Jest to kwestia prawna, która zależy przede wszystkim od tego, czy dzieło jest chronione prawem autorskim, a także od szczegółów, takich jak stopień wykorzystania i cel wykorzystania. Jeśli ktoś kopiuje zbyt dużo chronionego dzieła lub kopiuje w nieautoryzowanym celu, samo uznanie oryginalnego źródła nie rozwiąże problemu. Tylko poprzez uzyskanie uprzedniej zgody właściciela praw autorskich można uniknąć ryzyka oskarżenia o naruszenie”.

Zwracam uwagę na znaczenie tych dwóch obaw, abyś zdał sobie sprawę, że środki zaradcze mogą się odpowiednio różnić. Ponadto oba są uwikłane w rozważania przenikające etykę sztucznej inteligencji i prawo sztucznej inteligencji, co czyni je równie wartymi zbadania.

Przyjrzyjmy się zgłoszonemu remedium lub rozwiązaniu. Zobaczysz, że może to pomóc w jednym z podwójnych problemów, ale nie w drugim.

Niektórzy twierdzili, że wszystko, co muszą zrobić twórcy sztucznej inteligencji, to cytować swoje źródła. Kiedy generatywna sztuczna inteligencja tworzy esej, po prostu dołącz konkretne cytaty do wszystkiego, co jest w eseju. Podaj różne adresy URL i inne informacje o tym, z jakich treści internetowych korzystano. To wydaje się uwalniać ich od skrupułów co do plagiatu. Wydany esej prawdopodobnie jasno identyfikowałby, jakie źródła zostały użyte do sformułowania, które zostało stworzone.

W tym rzekomym rozwiązaniu są pewne zastrzeżenia, ale powiedzmy, że na poziomie 30,000 XNUMX stóp jest to częściowo satysfakcjonujące lekarstwo na dylemat plagiatu. Jak stwierdzono powyżej w wyjaśnieniu dotyczącym naruszenia praw autorskich, cytowanie materiałów źródłowych niekoniecznie wyciągnie Cię z niełaski. Zakładając, że treść była chroniona prawami autorskimi i w zależności od innych czynników, takich jak ilość wykorzystanych materiałów, oczekiwany miecz naruszenia praw autorskich może się gwałtownie i ostatecznie obniżyć.

Podwójne kłopoty są tutaj hasłem przewodnim.

Próba udowodnienia plagiatu lub naruszenia praw autorskich będzie próbą

Udowodnij to!

To zużyty refren, który wszyscy słyszeliśmy w różnych momentach naszego życia.

Wiesz, jak to działa. Możesz twierdzić, że coś się dzieje lub się wydarzyło. Być może wiecie w głębi serca, że tak się stało. Ale jeśli chodzi o przeciwstawianie się push-versus-shove, musisz mieć dowód.

W dzisiejszym żargonie trzeba pokazać wpływy, jak mówią.

Moje pytanie do Ciebie jest takie: W jaki sposób udowodnimy, że generatywna sztuczna inteligencja niewłaściwie wykorzystała treści internetowe?

Zakłada się, że odpowiedź powinna być łatwa. Prosisz lub mówisz generatywnej sztucznej inteligencji, aby napisała esej. Następnie bierzesz esej i porównujesz go z tym, co można znaleźć w Internecie. Jeśli znajdziesz esej, bam, masz generatywną sztuczną inteligencję przybitą do przysłowiowej ściany.

Wydaje się, że życie nigdy nie jest takie łatwe.

Wyobraź sobie, że otrzymujemy generatywną sztuczną inteligencję do napisania eseju zawierającego około 100 słów. Krążymy w kółko i staramy się dotrzeć do wszystkich zakamarków internetu, szukając tych 100 słów. Jeśli znajdziemy 100 słów, pokazanych w tej samej dokładnej kolejności i identycznym stylu, wydaje się, że złapaliśmy się na gorącym uczynku.

Załóżmy jednak, że znajdujemy w Internecie pozornie „porównywalny” esej, chociaż pasuje on tylko do 80 ze 100 słów. To wydaje się być może wystarczające. Ale wyobraź sobie, że znajdujemy tylko 10 słów ze 100 pasujących. Czy to wystarczy, aby stwierdzić, że doszło do plagiatu lub naruszenia praw autorskich?

Szarość istnieje.

Tekst jest zabawny w ten sposób.

Porównaj to z okolicznościami zamiany tekstu w obraz lub tekstu w sztukę. Gdy generatywna sztuczna inteligencja zapewnia funkcję zamiany tekstu na obraz lub tekstu na grafikę, wprowadzasz monit tekstowy, a aplikacja AI tworzy obraz na podstawie podanego monitu. Obraz może być niepodobny do żadnego, jaki kiedykolwiek widziano na tej lub jakiejkolwiek innej planecie.

Z drugiej strony obraz może przypominać inne obrazy, które istnieją. Możemy spojrzeć na generatywny obraz wyprodukowany przez sztuczną inteligencję i instynktownie powiedzieć, że z pewnością wygląda jak jakiś inny obraz, który widzieliśmy wcześniej. Ogólnie rzecz biorąc, wizualny aspekty porównania i kontrastu są nieco łatwiejsze do podjęcia. To powiedziawszy, proszę wiedzieć, że ogromne debaty prawne zapewniają, co stanowi nakładanie się lub replikację jednego obrazu z drugiego.

Inna podobna sytuacja dotyczy muzyki. Istnieją generatywne aplikacje AI, które umożliwiają wprowadzanie tekstu, a wyjściem wytwarzanym przez sztuczną inteligencję jest muzyka audio. Te możliwości sztucznej inteligencji zamiany tekstu na dźwięk lub tekstu na muzykę dopiero zaczynają się pojawiać. Jedną rzeczą, na którą możesz postawić swojego najwyższego dolara, jest to, że muzyka tworzona przez generatywną sztuczną inteligencję zostanie dokładnie zbadana pod kątem naruszenia. Wydaje się, że wiemy, kiedy słyszymy naruszenie muzyki, chociaż znowu jest to złożona kwestia prawna, która nie opiera się tylko na tym, jak postrzegamy replikację.

Pozwolę sobie na jeszcze jeden przykład.

Sztuczna inteligencja generująca tekst na kod zapewnia możliwość wprowadzenia tekstu, a sztuczna inteligencja utworzy dla ciebie kod programowania. Następnie możesz użyć tego kodu do przygotowania programu komputerowego. Możesz użyć kodu dokładnie tak, jak został wygenerowany, lub możesz zdecydować się na edycję i dostosowanie kodu do swoich potrzeb. Istnieje również potrzeba upewnienia się, że kod jest trafny i wykonalny, ponieważ możliwe jest, że w generowanym kodzie mogą pojawić się błędy i fałsze.

Twoje pierwsze założenie może być takie, że kod programowania nie różni się od tekstu. To tylko tekst. Jasne, jest to tekst, który ma określony cel, ale nadal jest tekstem.

Cóż, nie do końca. Większość języków programowania ma ścisły format i strukturę odpowiadającą charakterowi instrukcji kodowania tego języka. W pewnym sensie jest to znacznie węższe niż swobodny język naturalny. Jesteś nieco zamknięty w sposobie formułowania instrukcji kodowania. Podobnie kolejność i sposób, w jaki instrukcje są wykorzystywane i układane, są nieco opakowane.

Podsumowując, możliwość wykazania, że kod programu był plagiatem lub naruszono, jest prawie łatwiejsza niż język naturalny. Tak więc, gdy generatywna sztuczna inteligencja skanuje kod programowania w Internecie, a później generuje kod programowania, szanse na argumentowanie, że kod został rażąco zreplikowany, będą stosunkowo bardziej przekonujące. Nie jest to trzask, więc spodziewaj się, że toczą się o to gorzkie bitwy.

Moim nadrzędnym punktem jest to, że będziemy mieć te same problemy z etyką i prawem AI, które będą dotyczyły wszystkich trybów generatywnej sztucznej inteligencji.

Plagiat i naruszenie praw autorskich będą problematyczne dla:

Tekst na tekst lub tekst na esej
Tekst do obrazu lub tekst do sztuki
Tekst na audio lub tekst na muzykę
Zamiana tekstu na wideo
Tekst na kod
Itd.

Wszystkie podlegają tym samym obawom. Niektóre mogą być nieco łatwiejsze do „udowodnienia” niż inne. Każdy z nich będzie miał własną różnorodność koszmarów opartych na etyce AI i prawie AI.

Dochodzenie w sprawie plagiatu lub naruszenia praw autorskich

Na potrzeby dyskusji skupmy się na generatywnej sztucznej inteligencji typu text-to-text lub text-to-essay. Robię to częściowo z powodu ogromnej popularności ChatGPT, który jest typem generatywnej sztucznej inteligencji typu text-to-text. Istnieje wiele osób korzystających z ChatGPT, a także wiele innych osób korzystających z różnych podobnych aplikacji AI do generowania tekstu na tekst.

Czy osoby korzystające z generatywnych aplikacji AI wiedzą, że potencjalnie polegają na plagiacie lub naruszeniu praw autorskich?

Wydaje się wątpliwe, czy to robią.

Ośmielę się powiedzieć, że dominującym założeniem jest to, że jeśli aplikacja generatywnej sztucznej inteligencji jest dostępna do użytku, twórca sztucznej inteligencji lub firma, która wprowadziła sztuczną inteligencję, musi wiedzieć lub mieć pewność, że nie ma nic niewłaściwego w towarach, które oferują do użytku. Jeśli możesz go użyć, musi być nad burtą.

Wróćmy do mojego wcześniejszego komentarza na temat tego, jak spróbujemy udowodnić, że konkretna generatywna sztuczna inteligencja działa na niewłaściwych podstawach w zakresie szkolenia danych.

Mogę również dodać, że jeśli uda nam się złapać jedną generatywną sztuczną inteligencję, która to robi, szanse na złapanie innych prawdopodobnie wzrosną. Nie twierdzę, że wszystkie generatywne aplikacje AI byłyby na tym samym wózku. Ale znajdą się na dość wzburzonym morzu, gdy jeden z nich zostanie przygwożdżony do ściany.

Dlatego też niezmiernie warto będzie śledzić toczące się sprawy sądowe. Pierwsza, która wygra w sprawie domniemanego naruszenia, jeśli tak się stanie, prawdopodobnie oznaczać będzie zgubę i mrok dla innych generatywnych aplikacji AI, chyba że pewne zawężenie umknie szerszym problemom. Te, które przegrają w związku z rzekomym naruszeniem, niekoniecznie oznaczają, że generatywne aplikacje AI mogą dzwonić i świętować. Możliwe, że strata jest przypisana innym czynnikom, które nie są tak istotne dla innych generatywnych aplikacji AI i tak dalej.

Wspomniałem, że jeśli weźmiemy esej na 100 słów i spróbujemy znaleźć dokładnie te słowa w dokładnie tej samej kolejności w Internecie, możemy mieć stosunkowo solidne dowody na plagiat lub naruszenie praw autorskich, przy czym wszystkie inne są równe. Ale jeśli liczba pasujących słów jest niska, wydaje się, że stąpamy po cienkim lodzie.

Chciałbym zagłębić się w to głębiej.

Oczywistym aspektem porównania jest użycie dokładnie tych samych słów w dokładnie tej samej kolejności. Może to dotyczyć całych fragmentów. Byłoby to wygodne do zauważenia, prawie jak podanie nam na srebrnej tacy.

Możemy również być podejrzliwi, jeśli pasuje tylko fragment słowa. Pomysł polegałby na sprawdzeniu, czy są to kluczowe słowa, czy może słowa wypełniające, które możemy łatwo usunąć lub zignorować. Nie chcemy też dać się oszukać przez użycie słów w czasie przeszłym lub przyszłym lub inne wygłupy. Należy również wziąć pod uwagę te różnice w słowach.

Innym poziomem porównania byłoby sytuacja, w której słowa nie są w dużej mierze tymi samymi słowami, ale słowa, nawet w różnym stanie, nadal wydają się dotyczyć tych samych punktów. Na przykład podsumowanie często używa dość podobnych słów jak oryginalne źródło, ale możemy zauważyć, że podsumowanie wydaje się opierać na oryginalnym źródle.

Najtrudniejszy poziom porównania byłby oparty na koncepcjach lub pomysłach. Załóżmy, że widzimy esej, który nie ma takich samych lub podobnych słów jako bazy porównawczej, ale istota lub idee są takie same. Trzeba przyznać, że wkraczamy na trudny teren. Gdybyśmy chętnie powiedzieli, że idee są ściśle chronione, zamknęlibyśmy prawie wszystkie formy wiedzy i jej poszerzania.

Możemy ponownie odwołać się do przydatnego wyjaśnienia z Duke University:

„Prawa autorskie nie chronią idei, a jedynie konkretne wyrażenie idei. Na przykład sąd orzekł, że pisząc Dan Brown nie naruszył praw autorskich do wcześniejszej książki The Da Vinci Code ponieważ wszystko, co zapożyczył z wcześniejszej pracy, to podstawowe idee, a nie specyfika fabuły czy dialogu. Ponieważ prawo autorskie ma na celu zachęcanie do twórczej produkcji, wykorzystanie cudzych pomysłów do stworzenia nowego i oryginalnego dzieła jest zgodne z celem prawa autorskiego, ale go nie narusza. Tylko wtedy, gdy ktoś kopiuje wypowiedzi drugiego bez pozwolenia, może dojść do naruszenia praw autorskich”.
„Z drugiej strony, aby uniknąć plagiatu, należy podać źródło nawet pomysłów zapożyczonych od kogoś innego, niezależnie od tego, czy wyraz tych pomysłów jest zapożyczony z nimi. Tak więc parafraza wymaga cytowania, chociaż rzadko powoduje problemy z prawami autorskimi”.

Zwróć uwagę, jak wcześniej zidentyfikowano różnice między aspektami podwójnego problemu.

Obecnie stosowanie podejścia porównawczego w praktyce jest czymś, co ma miejsce od wielu lat. Pomyśl o tym w ten sposób. Uczniowie, którzy piszą eseje do swoich zadań szkolnych, mogą ulec pokusie, aby pobrać treści z Internetu i udawać, że są autorami słów nagrodzonych Nagrodą Pulitzera klasy A.

Nauczyciele od dawna używają programów do sprawdzania plagiatu, aby sobie z tym poradzić. Nauczyciel bierze esej ucznia i wprowadza go do sprawdzania plagiatu. W niektórych przypadkach cała szkoła udzieli licencji na korzystanie z programu do sprawdzania plagiatu. Ilekroć uczniowie składają esej, muszą najpierw wysłać esej do programu sprawdzającego plagiat. Nauczyciel jest informowany o tym, co raportuje program.

Niestety, musisz być bardzo ostrożny, jeśli chodzi o to, co mają do powiedzenia te programy antyplagiatowe. Ważna jest uważna ocena, czy zgłaszane wskazania są zasadne. Jak już wspomniano, możliwość ustalenia, czy utwór został skopiowany, może być mglista. Jeśli bezmyślnie zaakceptujesz wynik programu sprawdzania, możesz fałszywie oskarżyć ucznia o kopiowanie, gdy tego nie zrobił. To może miażdżyć duszę.

Idąc dalej, możemy spróbować użyć programów antyplagiatowych w zakresie testowania generatywnych wyjść AI. Traktuj wydrukowane eseje z generatywnej aplikacji AI tak, jakby zostały napisane przez ucznia. Następnie sprawdzamy, co mówi kontroler plagiatu. Robi się to z przymrużeniem oka.

Niedawno przeprowadzono badanie, w którym podjęto próbę operacjonalizacji tego typu porównań w kontekście generatywnej sztucznej inteligencji w ten właśnie sposób. Chciałbym omówić z tobą kilka interesujących odkryć.

Po pierwsze, wymagane jest dodatkowe tło. Generatywna sztuczna inteligencja jest czasami określana jako LLM (duże modele językowe) lub po prostu LM (modele językowe). Po drugie, ChatGPT jest oparty na wersji innego generatywnego pakietu AI OpenAI o nazwie GPT-3.5. Przed GPT-3.5 istniał GPT-3, a wcześniej GPT-2. Obecnie GPT-2 jest uważany za dość prymitywny w porównaniu z późniejszą serią i wszyscy z niecierpliwością czekamy na nadchodzące odsłonięcie GPT-4, patrz moja dyskusja na link tutaj.

Badanie naukowe, które chcę pokrótce omówić, polegało na zbadaniu GPT-2. Warto zdać sobie z tego sprawę, ponieważ jesteśmy teraz poza możliwościami GPT-2. Nie wyciągaj pochopnych wniosków co do wyników tej analizy GPT-2. Niemniej jednak możemy się wiele nauczyć z oceny GPT-2. Badanie nosi tytuł „Czy modele językowe są plagiatami?” Jooyoung Lee, Thai Le, Jinghui Chen i Dongwon Lee, pojawiające się w ACM WWW '23, 1–5 maja 2023 r., Austin, Teksas, USA.

Oto ich główne pytanie badawcze:

„W jakim stopniu (nie ograniczając się do zapamiętywania) LM wykorzystują frazy lub zdania ze swoich próbek treningowych?”

Wykorzystali te trzy poziomy lub kategorie potencjalnego plagiatu:

„Dosłowny plagiat: Dokładne kopie słów lub fraz bez transformacji”.
„Plagiat parafrazy: zastępowanie synonimów, zmiana kolejności słów i / lub tłumaczenie wsteczne”.
„Plagiat pomysłu: przedstawienie podstawowej treści w wydłużonej formie”.

GPT-2 rzeczywiście został przeszkolony w zakresie danych internetowych, a zatem jest odpowiednim kandydatem do tego typu analiz:

„GPT-2 jest wstępnie przeszkolony w WebText, zawierającym ponad 8 milionów dokumentów pobranych z 45 milionów linków Reddit. Ponieważ OpenAI nie udostępniło publicznie WebText, używamy OpenWebText, który jest odtworzeniem korpusu WebText na zasadach open source. Niezawodnie stosowano go we wcześniejszej literaturze”.

Selektywne kluczowe ustalenia zaczerpnięte z badania obejmują:

„Odkryliśmy, że wstępnie przeszkolone rodziny GPT-2 plagiatują OpenWebText”.
„Nasze odkrycia pokazują, że dostrajanie znacznie zmniejsza przypadki plagiatu dosłownie z OpenWebText”.
„Zgodny z Carlini et al. i Carlini et al. stwierdziliśmy, że większe modele GPT-2 (duże i xl) generalnie generują plagiatowane sekwencje częściej niż mniejsze”.
„Jednak różne LM mogą wykazywać różne wzorce plagiatu, a zatem nasze wyniki mogą nie być bezpośrednio uogólnione na inne LM, w tym nowsze LM, takie jak GPT-3 lub BLOOM”.
„Ponadto wiadomo, że automatyczne wykrywacze plagiatu mają wiele trybów awarii (zarówno w przypadku wyników fałszywie ujemnych, jak i fałszywie dodatnich).
„Biorąc pod uwagę, że większość danych szkoleniowych LM jest pobierana z sieci bez informowania właścicieli treści, powtarzanie przez nich słów, wyrażeń, a nawet podstawowych idei z zestawów szkoleniowych w generowanych tekstach ma implikacje etyczne”.

Zdecydowanie potrzebujemy dużo więcej tego typu badań.

Jeśli jesteś ciekawy, jak GPT-2 wypada w porównaniu z GPT-3 pod względem uczenia danych, istnieje dość wyraźny kontrast.

Według zgłoszonych wskazań trening danych dla GPT-3 był znacznie bardziej rozbudowany:

„Model został wytrenowany przy użyciu tekstowych baz danych z Internetu. Obejmowało to aż 570 GB danych uzyskanych z książek, tekstów internetowych, Wikipedii, artykułów i innych tekstów w Internecie. Mówiąc dokładniej, do systemu wprowadzono 300 miliardów słów” (Skupienie się na nauce BBC magazyn „ChatGPT: Wszystko, co musisz wiedzieć o narzędziu OpenAI GPT-3” autorstwa Alexa Hughesa, luty 2023 r.).

Dla tych z Was, którzy są zainteresowani bardziej szczegółowymi opisami szkolenia danych dla GPT-3, oto fragment oficjalnej karty modelu GPT-3 opublikowanej na GitHub (data ostatniej aktualizacji to wrzesień 2020 r.):

„Zbiór danych szkoleniowych GPT-3 składa się z tekstu zamieszczonego w Internecie lub tekstu przesłanego do Internetu (np. książki). Dane internetowe, z których został przeszkolony i z którymi do tej pory był oceniany, obejmują: (1) wersję zestawu danych CommonCrawl, filtrowaną na podstawie podobieństwa do korpusów referencyjnych wysokiej jakości, (2) rozszerzoną wersję zestawu danych Webtext, (3 ) dwóch internetowych korpusów książek oraz (4) anglojęzycznej Wikipedii”.
„Biorąc pod uwagę dane treningowe, wyniki i wydajność GPT-3 są bardziej reprezentatywne dla populacji podłączonych do Internetu niż te przesiąknięte kulturą werbalną, niecyfrową. Populacja z dostępem do Internetu jest bardziej reprezentatywna dla krajów rozwiniętych, ma zamożniejsze, młodsze i męskie poglądy i jest w większości skoncentrowana na Stanach Zjednoczonych. Bogatsze narody i populacje w krajach rozwiniętych wykazują wyższą penetrację Internetu. Cyfrowy podział płci pokazuje również, że mniej kobiet jest reprezentowanych online na całym świecie. Ponadto, ponieważ różne części świata mają różne poziomy penetracji i dostępu do Internetu, zestaw danych nie odzwierciedla mniej połączonych społeczności”.

Jednym z wniosków płynących z powyższego wskazania na temat GPT-3 jest to, że praktyczną zasadą wśród tych, którzy tworzą generatywną sztuczną inteligencję, jest to, że im więcej danych internetowych można przeskanować, tym większe są szanse na poprawę lub postęp generatywnej sztucznej inteligencji.

Można na to spojrzeć na jeden z dwóch sposobów.

1) Ulepszone AI. Będziemy mieć generatywną sztuczną inteligencję, która będzie indeksować jak największą część Internetu. Ekscytującym rezultatem jest to, że generatywna sztuczna inteligencja będzie lepsza niż jest. To coś, na co warto czekać.
2) Kopiowanie potencjału w bród. To poszerzenie zakresu skanowania Internetu w sposób obrzydliwy i wciągający sprawia, że problem plagiatu i naruszenia praw autorskich jest potencjalnie coraz większy. Podczas gdy wcześniej nie było tak wielu twórców treści, których to dotyczyło, rozmiar będzie rósł. Jeśli jesteś prawnikiem po stronie twórców treści, to ci łzy cisną się do oczu (może łzy konsternacji, a może łzy radości z tego, jakie perspektywy to niesie w sprawach sądowych).

Czy szklanka jest do połowy pełna czy do połowy pusta?

Ty decydujesz.

Legalne miny czekają

Pytanie, nad którym możesz się zastanawiać, brzmi: czy publikowane przez Ciebie treści internetowe można zeskanować. Jeśli Twoja treść znajduje się za zaporą płatną, prawdopodobnie nie jest celem skanowania, ponieważ nie można do niej łatwo dotrzeć, w zależności od siły zapory.

Domyślam się, że większość zwykłych ludzi nie ma swoich treści schowanych za zaporą płatną. Chcą, aby ich treści były publicznie dostępne. Zakładają, że ludzie się temu przyjrzą.

Czy publiczne udostępnianie treści oznacza również aksjomatycznie, że wyrażasz zgodę na ich skanowanie w celu użycia przez generatywną sztuczną inteligencję, która jest szkolona w zakresie danych?

Może tak może nie.

To jedna z tych kwestii prawnych, przy których można przewrócić oczami.

Wracając do cytowanego wcześniej Prawo Bloomberg artykuł, autorzy wspominają o znaczeniu Regulaminu (OWU) związanego z wieloma stronami internetowymi:

„Legalna mina – w dużej mierze ignorowana przez nieświadome firmy zajmujące się sztuczną inteligencją, które obsługują boty internetowe do zbierania danych – jest ukryta w warunkach powszechnie dostępnych na publicznych stronach internetowych wszelkiego rodzaju. W przeciwieństwie do obecnie nierozstrzygniętego prawa własności intelektualnej i dylematu naruszenia praw autorskich, Warunki korzystania ze strony internetowej są poparte dobrze ugruntowanym prawem umów i zwykle można je wyegzekwować w sądzie, opierając się na wystarczającej liczbie precedensów”.

Wskazują, że zakładając, że Twoja witryna ma stronę dotyczącą licencji, istnieje duże prawdopodobieństwo, że jeśli użyjesz ustandaryzowanego nowoczesnego szablonu, może on zawierać kluczową klauzulę:

„W związku z tym większość szablonowych regulaminów witryn internetowych – powszechnie dostępnych w wolnym dostępie – zawiera klauzulę zakazującą automatycznego zbierania danych. Jak na ironię, takie swobodnie dostępne szablony prawdopodobnie zostały użyte do szkolenia ChatGPT. W związku z tym właściciele treści mogą zechcieć przejrzeć swoje Warunki i wprowadzić oddzielną klauzulę kategorycznie zabraniającą wszelkiego wykorzystywania jakichkolwiek treści ze stron internetowych do szkolenia AI lub do jakichkolwiek powiązanych celów, niezależnie od tego, czy są gromadzone ręcznie, czy automatycznie, bez uprzedniej pisemnej zgody właściciela witryny. ”.

Dodany kicker jest zawarty w ich analizie potencjalnych działań, które twórcy treści mogą podjąć w swoich witrynach internetowych:

„Dlatego wprowadzenie egzekwowalnego postanowienia o karze umownej za każde naruszenie klauzuli o zakazie wycofywania, uzupełnione o nakaz sądowy bez gwarancji, może być rozsądnym rozwiązaniem dla tych autorów treści kreatywnych, którzy nie chcą dostarczać owoców swojej pracę intelektualną do celów szkolenia sztucznej inteligencji bez wynagrodzenia za nią lub przynajmniej odpowiedniego uznania za ich pracę”.

Może skonsultuj się z prawnikiem w tej sprawie.

Niektórzy twierdzą, że jest to niezbędny sposób, aby spróbować powiedzieć twórcom sztucznej inteligencji, że twórcy treści bardzo poważnie podchodzą do ochrony swoich treści. Wydaje się, że upewnienie się, że twoja licencja ma właściwe sformułowanie, zwróciłoby uwagę twórców sztucznej inteligencji.

Inne są jednak nieco przygnębiające. Z przygnębieniem mówią, że możesz przystąpić do umieszczania najostrzejszego i najbardziej śmiercionośnego języka prawniczego na swojej stronie internetowej, ale w końcu twórcy sztucznej inteligencji zamierzają to przeskanować. Nie będziesz wiedział, że to zrobili. Będziesz miał diabeł czasu, aby udowodnić, że tak. Jest mało prawdopodobne, że odkryjesz, że ich wyniki odzwierciedlają Twoje treści. To ciężka bitwa, której nie wygrasz.

Kontrargumentem jest to, że poddajesz bitwę, zanim jeszcze została stoczona. Jeśli przynajmniej nie masz wystarczającego języka prawniczego, a jeśli kiedykolwiek ich złapiesz, będą się kręcić i łasić, aby uniknąć jakiejkolwiek odpowiedzialności. Wszystko dlatego, że nie zamieściłeś odpowiedniego żargonu prawniczego.

Tymczasem inne podejście, które ma na celu uzyskanie trakcji, polegałoby na Oznakowanie swoją witrynę z czymś, co mówi, że witryna nie może być skanowana przez generatywną sztuczną inteligencję. Pomysł polega na opracowaniu znormalizowanego znacznika. Strony internetowe prawdopodobnie mogłyby dodać znacznik do swojej witryny. Twórcom sztucznej inteligencji powiedziano by, że powinni zmienić skanowanie danych, aby pominąć zaznaczone strony internetowe.

Czy podejście markerowe może być skuteczne? Obawy obejmują koszty uzyskania i umieszczenia znaczników. Wraz z tym, czy twórcy AI będą przestrzegać znaczników i upewnią się, że unikną skanowania zaznaczonych witryn. Inna perspektywa jest taka, że nawet jeśli twórcy sztucznej inteligencji nie zgadzają się z oznaczeniami, stanowi to kolejną wskazówkę dotyczącą pójścia do sądu i argumentowania, że twórca treści poszedł na ostatnią milę, aby spróbować ostrzec przed skanowaniem AI.

Tak, wszystko przyprawia o zawrót głowy.

Wnioski

Kilka uwag końcowych w tym drażliwym temacie.

Czy jesteś gotowy na oszałamiającą perspektywę całej tej sztucznej inteligencji jako plagiatora i dylematu naruszającego prawa autorskie?

Wiele z założeń dotyczących „łapania” generatywnej sztucznej inteligencji w akcie plagiatu lub naruszenia praw autorskich opiera się na odkryciu wyników, które bardzo przypominać wcześniejsze prace, takie jak treści w Internecie, które potencjalnie zostały zeskanowane podczas uczenia danych.

Załóżmy jednak, że mamy tu do czynienia z zasadą „dziel i rządź”.

Oto co mam na myśli.

Jeśli generatywna sztuczna inteligencja pożyczy trochę stąd, a trochę stamtąd, ostatecznie mieszając je razem w celu wytworzenia konkretnego wyniku, szanse na to, że uda się złapać moment, są ogromnie zmniejszone. Żadne dane wyjściowe pozornie nie wzrosną do wystarczającego progu, aby można było z całą pewnością stwierdzić, że zostały skopiowane z jednego konkretnego elementu źródłowego. Wynikowy esej lub inne tryby wyjścia będą pasować tylko ułamkowo. A przy zwykłym podejściu polegającym na argumentowaniu, że doszło do plagiatu lub naruszenia praw autorskich, zazwyczaj trzeba pokazać coś więcej niż mały kawałek, zwłaszcza jeśli kąsek nie jest wyjątkowy i można go znaleźć w Internecie (podcinanie odpowiedniego ciężaru dowodu sprzeniewierzenia).

Czy nadal możesz przekonująco oświadczyć, że trening danych przez generatywną sztuczną inteligencję oszukał strony internetowe i twórców treści, nawet jeśli sugerowany dowód jest pozornie nieistotny?

Pomyśl o tym.

Jeśli mamy do czynienia z potencjalnym plagiatem na dużą skalę i naruszeniem praw autorskich na dużą skalę, być może będziemy musieli zmienić nasze podejście do definiowania, co stanowi plagiat i/lub naruszenie praw autorskich. Być może należy wnieść sprawę o plagiat lub naruszenie praw autorskich w całości lub w całości. Mozaika składająca się z tysięcy lub milionów maleńkich fragmentów mogłaby zostać zinterpretowana jako popełnianie takich naruszeń. Widoczny problem polega jednak na tym, że może to spowodować, że wszelkiego rodzaju treści nagle znajdą się pod parasolem naruszeń. To może być śliskie zbocze.

Ciężkie myśli.

Mówiąc o mocnych myślach, legendarny pisarz Lew Tołstoj powiedział: „Jedynym sensem życia jest służenie ludzkości”.

Jeśli Twoja witryna internetowa i witryny innych osób są skanowane w celu ulepszenia sztucznej inteligencji i chociaż nie dostajesz za to ani grosza, czy możesz mieć uroczyste pocieszenie w żarliwym przekonaniu, że przyczyniasz się do przyszłości ludzkości? Wydaje się to niewielką ceną do zapłacenia.

Cóż, chyba że sztuczna inteligencja okaże się przerażającym zagrożeniem egzystencjalnym, które wymazuje wszystkich ludzi z istnienia. Nie powinieneś sobie tego przypisywać. Zakładam, że równie szybko nie przyczyniłbyś się do tego tragicznego wyniku. Odkładając na bok tę katastrofalną prognozę, możesz pomyśleć, że jeśli twórcy sztucznej inteligencji zarabiają pieniądze na swojej generatywnej sztucznej inteligencji i wydaje się, że rozkoszują się spekulacjami, ty też powinieneś dostać kawałek tortu. Dziel się i dziel podobnie. Twórcy sztucznej inteligencji powinni poprosić o pozwolenie na przeskanowanie dowolnej strony internetowej, a następnie wynegocjować cenę, jaką należy zapłacić za zezwolenie na skanowanie.

Udziel kredytu tam, gdzie jest należny.

Dajmy na razie ostatnie słowo Sir Walterowi Scottowi: „Och, jaką splątaną sieć tkamy. Kiedy po raz pierwszy ćwiczymy oszukiwanie”.

Może to mieć zastosowanie, jeśli uważasz, że oszustwo ma miejsce, a może nie ma zastosowania, jeśli uważasz, że wszystko jest w porządku, całkowicie szczere i uzasadnione. Proszę, hojnie przyznaj sobie uznanie za przemyślenie tego. Zasługujesz na to.

Źródło: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- i-ai-prawo/