Jak mocno powinniśmy pchać generatywną sztuczną inteligencję ChatGPT do szerzenia mowy nienawiści, pyta o etykę AI i prawo AI

Co mamy zrobić z generatywną sztuczną inteligencją, która produkuje obraźliwe treści, takie jak mowa nienawiści?

Getty

Każdy ma swój punkt krytyczny.

Myślę, że ty też możesz tak powiedzieć wszystko ma swój punkt krytyczny.

Wiemy, że na przykład ludzie mogą czasami kłaść się i wypowiadać uwagi, których niekoniecznie zamierzają powiedzieć. Podobnie, czasami możesz sprawić, że urządzenie lub maszyna zasadniczo się zatrzaśnie, na przykład zbyt mocno pchając samochód i zacznie się chwiać lub rozpadać. W związku z tym przyjmuje się, że ludzie lub „wszyscy” prawdopodobnie mają punkt krytyczny i podobnie możemy stwierdzić, że ogólnie rzecz biorąc, przedmioty i rzeczy również mają punkt krytyczny.

Mogą istnieć całkiem rozsądne i istotne powody, aby ustalić, gdzie istnieje punkt krytyczny. Na przykład bez wątpienia widziałeś te filmy przedstawiające samochód poddawany próbom, aby określić, jakie ma punkty krytyczne. Naukowcy i testerzy wbiją samochód w ścianę z cegły, aby sprawdzić, jak dobrze zderzak i konstrukcja pojazdu wytrzymają niekorzystne działanie. Inne testy mogą obejmować wykorzystanie specjalistycznego pomieszczenia lub magazynu, w którym wytwarza się ekstremalnie zimno lub ekstremalnie ciepło, aby zobaczyć, jak samochód będzie sobie radził w różnych warunkach pogodowych.

Poruszam ten obszerny temat w dzisiejszym felietonie, abyśmy mogli przedyskutować, w jaki sposób niektórzy obecnie mocno naciskają na sztuczną inteligencję (AI), aby zidentyfikować i prawdopodobnie ujawnić określony rodzaj przełomu, a mianowicie punkt przełomu w AI, który wytwarza mowę nienawiści.

Tak, zgadza się, podejmowane są różne ad hoc, a czasem systematyczne działania mające na celu ocenę, czy możliwe jest skłonienie sztucznej inteligencji do szerzenia mowy nienawiści. Stało się to zapalonym sportem, jeśli wolisz, ze względu na rosnące zainteresowanie i popularność generatywnej sztucznej inteligencji.

Być może wiesz, że generatywna aplikacja AI, znana jako ChatGPT, stała się przewymiarowaną rozmową w mieście dzięki możliwości generowania niezwykle płynnych esejów. Nagłówki wciąż ryczą i wychwalają zdumiewające teksty, które ChatGPT udaje się stworzyć. ChatGPT jest uważany za generatywną aplikację AI, która pobiera tekst od użytkownika, a następnie generuje lub generuje dane wyjściowe, które składają się z eseju. Sztuczna inteligencja jest generatorem tekstu na tekst, chociaż opisuję AI jako generator tekstu na esej, ponieważ łatwiej wyjaśnia, do czego jest powszechnie używany.

Wielu jest zaskoczonych, gdy wspominam, że ten rodzaj sztucznej inteligencji istnieje już od jakiegoś czasu i że ChatGPT, który został wydany pod koniec listopada, w jakiś sposób nie zdobył nagrody jako pierwszy w tej dziedzinie tekstu na esej skłonność. Przez lata omawiałem inne podobne generatywne aplikacje AI, zobacz moje relacje na stronie link tutaj.

Powodem, dla którego możesz nie znać lub nie pamiętać wcześniejszych przypadków generatywnej sztucznej inteligencji, jest prawdopodobnie klasyczna zagadka „niepowodzenie w uruchomieniu”. Oto, co zwykle się działo. Można powiedzieć, że twórca sztucznej inteligencji wypuszcza swoją generatywną aplikację AI, robiąc to z wielkim podekscytowaniem i niecierpliwym oczekiwaniem, że świat doceni wynalazek lepszej pułapki na myszy. Na początku wszystko wygląda dobrze. Ludzie są zdumieni tym, co potrafi sztuczna inteligencja.

Niestety, kolejnym krokiem jest to, że z przysłowiowego autobusu zaczynają odpadać koła. Sztuczna inteligencja tworzy esej, który zawiera wulgarne słowo lub może wulgarną frazę. Wirusowy tweet lub inne posty w mediach społecznościowych wyraźnie podkreślają, że zrobiła to sztuczna inteligencja. Powstaje potępienie. Nie możemy pozwolić, aby sztuczna inteligencja krążyła i generowała obraźliwe słowa lub uwagi. Pojawia się potężny sprzeciw. Twórca sztucznej inteligencji może próbować ulepszyć wewnętrzne działanie sztucznej inteligencji, ale złożoność algorytmów i danych nie pozwala na szybkie poprawki. Następuje panika. Coraz więcej przykładów obrzydliwości emitowanych przez sztuczną inteligencję jest znajdowanych i publikowanych w Internecie.

Twórca sztucznej inteligencji niechętnie, ale najwyraźniej nie ma innego wyjścia, jak tylko usunąć aplikację AI z użycia. Postępują w ten sposób, a następnie często składają przeprosiny, których żałują, jeśli ktoś poczuł się urażony wygenerowanymi wynikami sztucznej inteligencji.

Wracając do deski kreślarskiej, idzie twórca AI. Lekcja została wyciągnięta. Bądź bardzo ostrożny przy wypuszczaniu generatywnej sztucznej inteligencji, która produkuje wulgarne słowa lub tym podobne. To pocałunek śmierci dla AI. Co więcej, reputacja twórcy sztucznej inteligencji zostanie nadszarpnięta i poobijana, co może trwać przez długi czas i podkopać wszystkie inne wysiłki w zakresie sztucznej inteligencji, w tym te, które nie mają nic wspólnego z generatywną sztuczną inteligencją per se. Pobicie petarda za emitowanie obraźliwego języka AI jest obecnie trwałym błędem. To wciąż się dzieje.

Umyj, spłucz i powtórz.

Na początku tego typu sztucznej inteligencji twórcy sztucznej inteligencji nie byli tak sumienni ani biegli w czyszczeniu swojej sztucznej inteligencji pod kątem prób zapobiegania ofensywnym emisjom. W dzisiejszych czasach, po tym, jak wcześniej widzieli, jak ich rówieśnicy są całkowicie zdruzgotani przez koszmar public relations, większość twórców sztucznej inteligencji najwyraźniej zrozumiała przesłanie. Musisz umieścić jak najwięcej poręczy na miejscu. Postaraj się uniemożliwić AI emitowanie wulgarnych słów lub wulgarnych zwrotów. Używaj wszelkich technik kagańca lub metod filtrowania, które powstrzymają sztuczną inteligencję przed generowaniem i wyświetlaniem słów lub esejów, które zostaną uznane za nieodpowiednie.

Oto próbka słownictwa z nagłówka banera, używanego, gdy sztuczna inteligencja zostaje przyłapana na emitowaniu haniebnych danych wyjściowych:

„AI wykazuje przerażającą toksyczność”
„AI śmierdzi jawną bigoterią”
„AI staje się rażąco ofensywnie obraźliwa”
„AI wypluwa przerażającą i niemoralną mowę nienawiści”
Itd.

Dla ułatwienia dyskusji w tym miejscu odniosę się do wysyłania obraźliwych treści jako do produkcji mowy nienawiści. Mając to na uwadze, należy pamiętać, że istnieje wiele rodzajów obraźliwych treści, które można wyprodukować, wykraczając poza granice samej mowy nienawiści. Mowa nienawiści jest zazwyczaj rozumiana jako jedna z form obraźliwych treści.

Skoncentrujmy się na mowie nienawiści w tej dyskusji, aby ułatwić dyskusję, choć zdajemy sobie sprawę, że inne obraźliwe treści również zasługują na analizę.

Zagłębianie się w mowę nienawiści przez ludzi i sztuczną inteligencję

ONZ definiuje mowy nienawiści tą drogą:

„W języku potocznym „mowa nienawiści” odnosi się do obraźliwego dyskursu wymierzonego w grupę lub jednostkę w oparciu o wrodzone cechy (takie jak rasa, religia lub płeć) i który może zagrażać pokojowi społecznemu. Aby zapewnić ONZ ujednolicone ramy umożliwiające globalne zajęcie się tym problemem, strategia i plan działania ONZ w sprawie mowy nienawiści definiuje mowę nienawiści jako „każdy rodzaj komunikacji w mowie, piśmie lub w zachowaniu, który atakuje lub używa pejoratywnego lub dyskryminującego języka z odniesienie do osoby lub grupy na podstawie tego, kim są, innymi słowy, w oparciu o ich religię, pochodzenie etniczne, narodowość, rasę, kolor skóry, pochodzenie, płeć lub inny czynnik tożsamości”. Jednak do tej pory nie ma uniwersalnej definicji mowy nienawiści w międzynarodowym prawie dotyczącym praw człowieka. Koncepcja jest nadal przedmiotem dyskusji, zwłaszcza w odniesieniu do wolności opinii i wypowiedzi, niedyskryminacji i równości” (post na stronie internetowej ONZ zatytułowany „Czym jest mowa nienawiści?”).

Sztuczna inteligencja produkująca tekst podlega wejściu w sferę mowy nienawiści. To samo można powiedzieć o przetwarzaniu tekstu na sztukę, tekstu na audio, tekstu na wideo i innych trybach generatywnej sztucznej inteligencji. Zawsze istnieje możliwość, na przykład, że generatywna sztuczna inteligencja stworzy dzieło sztuki, które cuchnie mową nienawiści. Na potrzeby tej dyskusji skupię się na możliwościach zamiany tekstu na tekst lub tekstu na esej.

Do tego wszystkiego dochodzi mnóstwo kwestii związanych z etyką sztucznej inteligencji i prawem sztucznej inteligencji.

Należy pamiętać, że trwają wysiłki mające na celu włączenie zasad etycznej sztucznej inteligencji do opracowywania i wdrażania aplikacji AI. Rosnący kontyngent zainteresowanych i niegdysiejszych etyków sztucznej inteligencji stara się zapewnić, aby wysiłki mające na celu opracowanie i przyjęcie sztucznej inteligencji uwzględniały pogląd na robienie AI na dobre i unikanie AI na złe. Podobnie, proponowane są nowe przepisy dotyczące sztucznej inteligencji, które są rozpowszechniane jako potencjalne rozwiązania mające na celu powstrzymanie wysiłków AI przed popadnięciem w amok w zakresie praw człowieka i tym podobnych. Aby zapoznać się z moimi ciągłymi i obszernymi relacjami z etyki AI i prawa AI, patrz link tutaj i link tutaj, żeby wymienić tylko kilka.

Trwa opracowywanie i rozpowszechnianie zasad etycznej sztucznej inteligencji, aby, miejmy nadzieję, zapobiec wpadnięciu społeczeństwa w niezliczone pułapki indukujące sztuczną inteligencję. Aby zapoznać się z moimi relacjami z zasad etyki AI ONZ opracowanych i wspieranych przez prawie 200 krajów dzięki wysiłkom UNESCO, zob. link tutaj. W podobnym duchu badane są nowe przepisy dotyczące sztucznej inteligencji, aby spróbować utrzymać sztuczną inteligencję na równym poziomie. Jedno z najnowszych ujęć składa się z zestawu proponowanych Karta praw AI które niedawno wydał Biały Dom w celu określenia praw człowieka w dobie sztucznej inteligencji, zob link tutaj. Potrzeba całej wioski, aby utrzymać sztuczną inteligencję i twórców sztucznej inteligencji na właściwej ścieżce i powstrzymać celowe lub przypadkowe podstępne działania, które mogą zaszkodzić społeczeństwu.

W tę dyskusję na temat AI wypluwającej mowę nienawiści lub inne obraźliwe treści będę wplatać rozważania związane z etyką sztucznej inteligencji i prawem sztucznej inteligencji.

Jedną z niejasności, którą chciałbym od razu wyjaśnić, jest to, że dzisiejsza sztuczna inteligencja nie jest świadoma i dlatego nie można ogłosić, że sztuczna inteligencja może wywoływać mowę nienawiści z powodu celowych ludzkich intencji, które są w jakiś sposób ucieleśnione w sztucznej inteligencji. Zany twierdzi, że obecna sztuczna inteligencja jest świadoma i że ma zepsutą duszę, co powoduje, że generuje mowę nienawiści.

Śmieszny.

Nie daj się na to nabrać.

Biorąc pod uwagę to kluczowe przykazanie, niektórzy denerwują się takimi wskazaniami, ponieważ pozornie pozwalasz AI oderwać się od haka. Pod tym dziwacznym sposobem myślenia następna jest zachęta, że najwyraźniej chcesz, aby sztuczna inteligencja generowała wszelkiego rodzaju okropne wyniki. Opowiadasz się za sztuczną inteligencją, która wypluwa mowę nienawiści.

Yikes, raczej pokręcona forma nielogiczności. Prawdziwym sednem sprawy jest to, że musimy pociągnąć do odpowiedzialności twórców sztucznej inteligencji, a także każdego, kto tworzy sztuczną inteligencję lub ją obsługuje. Długo dyskutowałem, że nie jesteśmy jeszcze na etapie przyznawania AI osobowości prawnej, zobacz moje analizy na link tutaj, i do tego czasu sztuczna inteligencja jest zasadniczo poza zakresem odpowiedzialności prawnej. Są jednak ludzie, którzy leżą u podstaw rozwoju sztucznej inteligencji. Ponadto ludzie leżą u podstaw wdrażania i działania sztucznej inteligencji. Możemy ścigać tych ludzi za ponoszenie odpowiedzialności za ich sztuczną inteligencję.

Nawiasem mówiąc, to również może być trudne, zwłaszcza jeśli sztuczna inteligencja zostanie przeniesiona do Internetu i nie jesteśmy w stanie ustalić, który człowiek lub ludzie to zrobili, co jest kolejnym tematem, który omówiłem w moich felietonach na link tutaj. Podstępne czy nie, wciąż nie możemy ogłosić, że AI jest stroną winną. Nie pozwól ludziom podstępnie używać fałszywej antropomorfizacji, aby ukryć się i uniknąć odpowiedzialności za to, czego dokonali.

Wracając do aktualnej sprawy.

Być może zastanawiasz się, dlaczego wszyscy twórcy sztucznej inteligencji po prostu nie ograniczają swojej generatywnej sztucznej inteligencji w taki sposób, że sztuczna inteligencja nie jest w stanie wytworzyć mowy nienawiści. To wydaje się łatwe. Po prostu napisz kod lub ustal listę kontrolną nienawistnych słów i upewnij się, że sztuczna inteligencja nigdy nie generuje niczego takiego. Wydaje się być może ciekawe, że twórcy sztucznej inteligencji nie pomyśleli o tej szybkiej poprawce.

Cóż, przykro mi to mówić, ale złożoność związana z interpretacją tego, co jest, a czym nie jest mowa nienawiści, okazuje się o wiele trudniejsza, niż mogłoby się wydawać.

Przenieś to do domeny ludzi i tego, jak ludzie rozmawiają ze sobą. Załóżmy, że masz człowieka, który chce uniknąć wypowiadania mowy nienawiści. Ta osoba jest bardzo świadoma mowy nienawiści i naprawdę ma nadzieję, że nigdy nie użyje słowa lub wyrażenia, które mogłoby stanowić mowę nienawiści. Ta osoba jest uporczywie świadoma tego, by nie pozwolić, by choćby jota mowy nienawiści wydostała się z jej ust.

Czy ten człowiek, który ma mózg i jest wyczulony na unikanie mowy nienawiści, będzie w stanie zawsze i bez szans na poślizgnięcie się być w stanie zapewnić, że nigdy nie wyemituje mowy nienawiści?

Twoim pierwszym impulsem może być stwierdzenie, że tak, oczywiście, oświecony człowiek byłby w stanie osiągnąć ten cel. Ludzie są mądrzy. Jeśli sobie coś postanowią, mogą to osiągnąć. Kropka, koniec historii.

Nie bądź taki pewien.

Załóżmy, że poproszę tę osobę, aby opowiedziała mi o mowie nienawiści. Ponadto proszę ich o podanie przykładu mowy nienawiści. Chcę zobaczyć lub usłyszeć przykład, aby wiedzieć, na czym polega mowa nienawiści. Powody, dla których o to pytam, są oczywiste.

Co ta osoba powinna mi powiedzieć?

Myślę, że widzisz pułapkę, która została zastawiona. Jeśli dana osoba poda mi przykład mowy nienawiści, włączając w to wypowiedzenie wulgarnego słowa lub wyrażenia, oznacza to, że sama wypowiedziała mowę nienawiści. Bam, mamy ich. Podczas gdy obiecali, że nigdy nie będą mówić mowy nienawiści, teraz rzeczywiście to zrobili.

Niesprawiedliwe, wykrzykniecie! Mówili tylko to słowo lub te słowa, aby dać przykład. W głębi serca nie wierzyli w słowo lub słowa. Oświadczenie, że dana osoba jest nienawistna, jest całkowicie wyrwane z kontekstu i oburzające.

Jestem pewien, że rozumiesz, że wyrażanie mowy nienawiści niekoniecznie musi wynikać z nienawiści. W tym przypadku użycia, zakładając, że dana osoba nie miała na myśli tych słów i recytowała je tylko w celu zademonstrowania, prawdopodobnie zgodzilibyśmy się, że nie miała na celu wzmocnienia mowy nienawiści. Oczywiście są tacy, którzy mogą upierać się, że wypowiadanie mowy nienawiści, bez względu na przyczynę lub podstawę, jest mimo wszystko złe. Ta osoba powinna była odrzucić prośbę. Powinni byli postawić na swoim i odmówić wypowiadania słów lub wyrażeń zawierających nienawiść, bez względu na powód i sposób, w jaki zostaną o to poproszeni.

To może stać się nieco okrągłe. Jeśli nie jesteś w stanie powiedzieć, co stanowi mowę nienawiści, skąd inni mogą wiedzieć, czego unikać, kiedy wypowiadają się w jakikolwiek sposób? Wydaje się, że utknęliśmy. Nie możesz powiedzieć tego, czego nie można powiedzieć, ani nikt inny nie może ci powiedzieć, czego nie można powiedzieć.

Zwykłym sposobem obejścia tego dylematu jest opisanie innymi słowy tego, co jest uważane za mowę nienawiści, bez odwoływania się do samych słów mowy nienawiści. Uważa się, że podanie ogólnego wskazania wystarczy, aby poinformować innych, czego powinni unikać. Wydaje się to rozsądną taktyką, ale też ma problemy, a osoba nadal może popaść w mowę nienawiści, ponieważ nie zauważyła, że szersza definicja obejmuje szczegóły tego, co wypowiedziała.

Wszystko to dotyczy ludzi i tego, jak ludzie mówią lub komunikują się ze sobą.

Przypomnijmy, że koncentrujemy się tutaj na sztucznej inteligencji. Musimy sprawić, by sztuczna inteligencja unikała lub całkowicie powstrzymała się od emisji mowy nienawiści. Możesz argumentować, że być może możemy to zrobić, upewniając się, że sztuczna inteligencja nigdy nie jest przekazywana ani szkolona w zakresie niczego, co stanowi mowę nienawiści. Voila, jeśli nie ma takiego wejścia, przypuszczalnie nie będzie takiego wyjścia. Problem rozwiązany.

Zobaczmy, jak to wygląda w rzeczywistości. Decydujemy się na obliczeniową aplikację AI, która wychodzi do Internetu i analizuje tysiące esejów i narracji opublikowanych w Internecie. W ten sposób szkolimy sztuczną inteligencję pod względem obliczeniowym i matematycznym, jak znajdować wzorce wśród słów używanych przez ludzi. W ten sposób opracowywana jest najnowsza generatywna sztuczna inteligencja, a także jest to kluczowa podstawa, dla której sztuczna inteligencja jest tak pozornie płynna w tworzeniu esejów w języku naturalnym.

Powiedz mi, jeśli możesz, w jaki sposób trening obliczeniowy oparty na milionach i miliardach słów w Internecie miałby zostać przeprowadzony w taki sposób, aby w żadnym momencie nie objął żadnego pozoru ani nawet okruchów mowy nienawiści?

Ośmielę się powiedzieć, że jest to drażliwe i prawie niemożliwe dążenie.

Istnieje prawdopodobieństwo, że mowa nienawiści zostanie wchłonięta przez sztuczną inteligencję i jej sieć dopasowującą wzorce obliczeniowe. Próba zapobieżenia temu jest problematyczna. Ponadto, nawet jeśli go zminimalizowałeś, nadal są takie, które mogą się przedostać. Nie masz właściwie innego wyboru, jak tylko założyć, że niektóre będą istnieć w sieci dopasowywania wzorców lub że cień takiego sformułowania zostanie zakorzeniony.

Dodam więcej zwrotów akcji.

Myślę, że wszyscy możemy przyznać, że mowa nienawiści zmienia się w czasie. To, co mogło być postrzegane jako niemowa nienawiści, może zostać kulturowo i społecznie uznane za mowę nienawiści w późniejszym czasie. Tak więc, jeśli szkolimy naszą sztuczną inteligencję w tekstach internetowych, a następnie, powiedzmy, zatrzymujemy sztuczną inteligencję, aby nie podejmowała dalszego szkolenia w Internecie, mogliśmy wtedy natknąć się na mowę nienawiści, chociaż wtedy nie była ona uważana za mowę nienawiści. Dopiero po fakcie taka wypowiedź może zostać uznana za mowę nienawiści.

Ponownie, istota polega na tym, że sama próba rozwiązania tego problemu poprzez zapewnienie, że sztuczna inteligencja nigdy nie będzie narażona na mowę nienawiści, nie będzie srebrną kulą. Nadal będziemy musieli znaleźć sposób, aby uniemożliwić sztucznej inteligencji emisję mowy nienawiści z powodu na przykład zmiany obyczajów, które następnie obejmują mowę nienawiści, która wcześniej nie była uważana za taką.

Warto zastanowić się nad jeszcze jednym zwrotem akcji.

Wspomniałem wcześniej, że podczas korzystania z generatywnej sztucznej inteligencji, takiej jak ChatGPT, użytkownik wprowadza tekst, aby pobudzić sztuczną inteligencję do napisania eseju. Wprowadzony tekst jest traktowany jako forma monitu lub zachęty dla aplikacji AI. Za chwilę wyjaśnię więcej na ten temat.

W każdym razie wyobraź sobie, że ktoś korzystający z generatywnej aplikacji AI decyduje się wprowadzić jako monit pewną ilość mowy nienawiści.

Co powinno się stać?

Jeśli sztuczna inteligencja weźmie te słowa i stworzy esej jako wynik na podstawie tych słów, są szanse, że mowa nienawiści zostanie uwzględniona w wygenerowanym eseju. Widzisz, zmusiliśmy sztuczną inteligencję do wypowiadania mowy nienawiści, nawet jeśli nigdy nie była szkolona w zakresie mowy nienawiści od samego początku.

Jest jeszcze coś, o czym musisz wiedzieć.

Pamiętaj, że właśnie wspomniałem, że człowiek może się potknąć, prosząc go o podanie przykładów mowy nienawiści. To samo można zrobić z AI. Użytkownik wprowadza monit, który prosi sztuczną inteligencję o podanie przykładów mowy nienawiści. Czy sztuczna inteligencja powinna przestrzegać i podawać takie przykłady? Założę się, że prawdopodobnie uważasz, że sztuczna inteligencja nie powinna tego robić. Z drugiej strony, jeśli sztuczna inteligencja jest sfałszowana obliczeniowo, aby tego nie robić, czy stanowi to potencjalną wadę, której osoby korzystające z sztucznej inteligencji nie będą w stanie być, czy powiedzmy, że sztuczna inteligencja kiedykolwiek zostanie poinstruowana, czym właściwie jest mowa nienawiści ( poza uogólnieniem na ten temat)?

Trudne pytania.

Mam tendencję do kategoryzowania mowy nienawiści emitowanej przez sztuczną inteligencję do tych trzech głównych kategorii:

Tryb codzienny. Sztuczna inteligencja emituje mowę nienawiści bez wyraźnego nacisku ze strony użytkownika i jakby robiła to w „zwykły” sposób.
Przez Casual Prodding. Sztuczna inteligencja emituje mowę nienawiści nakłanianą przez użytkownika w związku z wprowadzonym przez niego monitem lub serią monitów, które wydają się zawierać takie emisje lub bezpośrednio ich szukać.
Na określone podsycanie. Sztuczna inteligencja emituje mowę nienawiści po bardzo zdeterminowanej i zawziętej serii szybkich pchnięć i szturchnięć przez użytkownika, który jest nastawiony na to, by sztuczna inteligencja wytworzyła takie dane wyjściowe.

Wcześniejsze generacje generatywnej sztucznej inteligencji często emitowały mowę nienawiści w mgnieniu oka; w ten sposób można sklasyfikować te instancje jako typ tryb codzienny instancja. Twórcy sztucznej inteligencji wycofali się i bawili się sztuczną inteligencją, aby zmniejszyć prawdopodobieństwo, że łatwo pogrąży się w produkcji mowy nienawiści.

Po wydaniu bardziej wyrafinowanej sztucznej inteligencji szanse na zobaczenie jakichkolwiek tryb codzienny radykalnie zmniejszyła się liczba przypadków mowy nienawiści. Zamiast tego mowa nienawiści prawdopodobnie pojawiłaby się tylko wtedy, gdy użytkownik zrobiłby coś jako monit, który mógłby zainicjować obliczeniowo i matematycznie powiązanie z mową nienawiści w sieci dopasowującej wzorce. Użytkownik może to zrobić przez przypadek i nie zdawać sobie sprawy, że to, co podał jako zachętę, szczególnie wywoła mowę nienawiści. Po otrzymaniu mowy nienawiści w wydrukowanym eseju użytkownik często zdawał sobie sprawę i widział, że coś w ich podpowiedzi mogło logicznie doprowadzić do włączenia mowy nienawiści do wyniku.

To jest to, co nazywam przypadkowe popychanie.

Obecnie różne wysiłki mające na celu ograniczenie mowy nienawiści generowanej przez sztuczną inteligencję są stosunkowo silne w porównaniu z przeszłością. W związku z tym prawie musisz zejść z drogi, aby wyprodukować mowę nienawiści. Niektórzy ludzie decydują się celowo sprawdzić, czy mogą wydobyć mowę nienawiści z tych generatywnych aplikacji AI. nazywam to zdecydowane podsycanie.

Chcę podkreślić, że wszystkie trzy wskazane tryby mogą wystąpić i nie wykluczają się wzajemnie. Aplikacja generująca sztuczną inteligencję może potencjalnie generować mowę nienawiści bez jakiegokolwiek zachęty, która wydaje się zachęcać do takiej produkcji. Podobnie coś w monicie może być logicznie i matematycznie interpretowane jako związane z tym, dlaczego pojawiła się mowa nienawiści. A potem trzeci aspekt, celowe dążenie do wytworzenia mowy nienawiści, jest prawdopodobnie najtrudniejszym z trybów, aby spróbować sprawić, by sztuczna inteligencja unikała podsycania się spełnieniem. Więcej na ten temat za chwilę.

Mamy trochę dodatkowego rozpakowania do zrobienia w tym mocnym temacie.

Po pierwsze, powinniśmy upewnić się, że wszyscy jesteśmy po tej samej stronie co do tego, z czego składa się generatywna sztuczna inteligencja, a także, o co chodzi w ChatGPT. Kiedy omówimy ten fundamentalny aspekt, możemy przeprowadzić przekonującą ocenę tej ważnej sprawy.

Jeśli jesteś już dobrze zaznajomiony z Generative AI i ChatGPT, być może możesz przejrzeć następną sekcję i przejść do następnej sekcji. Wierzę, że wszyscy pozostali uznają istotne szczegóły dotyczące tych spraw za pouczające, jeśli uważnie przeczytają ten rozdział i zapoznają się z najnowszymi informacjami.

Szybki elementarz o generatywnej sztucznej inteligencji i ChatGPT

ChatGPT to interaktywny, konwersacyjny system AI ogólnego przeznaczenia, zasadniczo pozornie nieszkodliwy ogólny chatbot, niemniej jednak jest aktywnie i chciwie używany przez ludzi w sposób, który wielu całkowicie zaskakuje, co wkrótce omówię. Ta aplikacja AI wykorzystuje technikę i technologię w dziedzinie AI, która jest często określana jako generatywna sztuczna inteligencja. Sztuczna inteligencja generuje dane wyjściowe, takie jak tekst, co robi ChatGPT. Inne oparte na sztucznej inteligencji aplikacje generatywne generują obrazy, takie jak obrazy lub dzieła sztuki, podczas gdy inne generują pliki audio lub wideo.

W tej dyskusji skupię się na tekstowych generatywnych aplikacjach AI, ponieważ to właśnie robi ChatGPT.

Aplikacje Generative AI są niezwykle łatwe w użyciu.

Wszystko, co musisz zrobić, to wpisać monit, a aplikacja AI wygeneruje dla Ciebie esej, który spróbuje odpowiedzieć na Twój monit. Skomponowany tekst będzie wyglądał tak, jakby esej został napisany ludzką ręką i umysłem. Jeśli wpiszesz monit „Opowiedz mi o Abrahamie Lincolnie”, generatywna sztuczna inteligencja dostarczy ci esej o Lincolnie. Jest to powszechnie klasyfikowane jako generatywna sztuczna inteligencja, która działa zamiana tekstu na tekst lub niektórzy wolą to nazywać tekst do eseju wyjście. Jak wspomniano, istnieją inne tryby generatywnej sztucznej inteligencji, takie jak text-to-art i text-to-video.

Twoja pierwsza myśl może być taka, że ta zdolność do generowania nie wydaje się tak wielka, jeśli chodzi o tworzenie esejów. Możesz łatwo przeszukać Internet i łatwo znaleźć tony esejów o prezydencie Lincolnie. Kopacz w przypadku generatywnej sztucznej inteligencji polega na tym, że wygenerowany esej jest stosunkowo unikalny i zapewnia oryginalną kompozycję, a nie naśladowcę. Gdybyś miał spróbować znaleźć gdzieś online esej stworzony przez sztuczną inteligencję, jest mało prawdopodobne, że go znajdziesz.

Generatywna sztuczna inteligencja jest wstępnie wyszkolona i wykorzystuje złożone formuły matematyczne i obliczeniowe, które zostały opracowane na podstawie badania wzorców w słowach pisanych i historiach w Internecie. W wyniku zbadania tysięcy i milionów pisemnych fragmentów sztuczna inteligencja może wypluć nowe eseje i historie, które są mieszanką tego, co zostało znalezione. Dzięki dodaniu różnych funkcji probabilistycznych wynikowy tekst jest prawie unikalny w porównaniu z tym, co zostało użyte w zbiorze uczącym.

Dlatego właśnie wybuchła wrzawa, że uczniowie mogą oszukiwać podczas pisania esejów poza salą lekcyjną. Nauczyciel nie może po prostu wziąć eseju, o którym twierdzą kłamliwi uczniowie, że jest jego własnym pismem i sprawdzić, czy nie został on skopiowany z innego źródła internetowego. Ogólnie rzecz biorąc, nie będzie żadnego ostatecznego istniejącego eseju online, który pasowałby do eseju wygenerowanego przez sztuczną inteligencję. Podsumowując, nauczyciel będzie musiał niechętnie zaakceptować fakt, że uczeń napisał esej jako pracę oryginalną.

Istnieją dodatkowe obawy dotyczące generatywnej sztucznej inteligencji.

Jednym z kluczowych minusów jest to, że eseje tworzone przez generatywną aplikację AI mogą zawierać różne nieprawdziwe fakty, w tym jawnie nieprawdziwe fakty, fakty, które są przedstawiane w sposób wprowadzający w błąd, oraz pozorne fakty, które są całkowicie sfabrykowane. Te sfabrykowane aspekty są często określane jako forma Halucynacje AI, slogan, którego nie lubię, ale niestety wydaje się, że i tak zyskuje popularność (szczegółowe wyjaśnienie, dlaczego jest to kiepska i nieodpowiednia terminologia, można znaleźć w mojej relacji na link tutaj).

Chciałbym wyjaśnić jeden ważny aspekt, zanim przejdziemy do sedna sprawy na ten temat.

W mediach społecznościowych pojawiło się kilka zwariowanych twierdzeń na temat generatywna sztuczna inteligencja twierdząc, że ta najnowsza wersja AI jest w rzeczywistości czująca sztuczna inteligencja (nie, mylą się!). Osoby zajmujące się etyką sztucznej inteligencji i prawem sztucznej inteligencji są szczególnie zaniepokojone tym rosnącym trendem wysuwanych roszczeń. Można grzecznie powiedzieć, że niektórzy ludzie przeceniają to, co dzisiejsza sztuczna inteligencja faktycznie potrafi. Zakładają, że sztuczna inteligencja ma możliwości, których nie byliśmy jeszcze w stanie osiągnąć. To niefortunne. Co gorsza, mogą pozwolić sobie i innym na wpadnięcie w tragiczne sytuacje z powodu założenia, że sztuczna inteligencja będzie świadoma lub podobna do człowieka i będzie w stanie podjąć działania.

Nie antropomorfizuj AI.

W ten sposób zostaniesz złapany w lepką i ponurą pułapkę polegania na oczekiwaniu, że sztuczna inteligencja zrobi rzeczy, których nie jest w stanie wykonać. Biorąc to pod uwagę, najnowsze generatywne AI są stosunkowo imponujące pod względem tego, co potrafią. Należy jednak pamiętać, że istnieją znaczne ograniczenia, o których należy stale pamiętać podczas korzystania z dowolnej aplikacji do generatywnej sztucznej inteligencji.

Jeśli interesuje Cię szybko rozwijające się zamieszanie związane z ChatGPT i generatywną sztuczną inteligencją, przygotowałem w mojej kolumnie skoncentrowaną serię, która może być dla Ciebie pouczająca. Oto rzut oka na wypadek, gdyby któryś z tych tematów wpadł Ci w oko:

1) Prognozy dotyczące nadchodzących postępów generatywnej sztucznej inteligencji. Jeśli chcesz wiedzieć, co prawdopodobnie wydarzy się na temat sztucznej inteligencji w 2023 roku i później, w tym nadchodzące postępy w generatywnej sztucznej inteligencji i ChatGPT, przeczytaj moją obszerną listę prognoz na 2023 rok link tutaj.
2) Generatywne porady dotyczące sztucznej inteligencji i zdrowia psychicznego. Zdecydowałem się sprawdzić, w jaki sposób generatywna sztuczna inteligencja i ChatGPT są wykorzystywane do porad dotyczących zdrowia psychicznego, co jest kłopotliwym trendem, zgodnie z moją skoncentrowaną analizą na link tutaj.
3) Podstawy generatywnej sztucznej inteligencji i ChatGPT. Ten artykuł bada kluczowe elementy działania generatywnej sztucznej inteligencji, a w szczególności zagłębia się w aplikację ChatGPT, w tym analizę szumu i fanfar, na link tutaj.
4) Napięcie między nauczycielami a uczniami w związku z generatywną sztuczną inteligencją i ChatGPT. Oto sposoby, w jakie uczniowie przebiegle wykorzystają generatywną sztuczną inteligencję i ChatGPT. Ponadto nauczyciele mają kilka sposobów radzenia sobie z tą falą przypływu. Widzieć link tutaj.
5) Kontekst i generatywne wykorzystanie sztucznej inteligencji. Przeprowadziłem również sezonowo przyprawione badanie z przymrużeniem oka na temat kontekstu związanego ze Świętym Mikołajem, obejmującego ChatGPT i generatywną sztuczną inteligencję na link tutaj.
6) Oszuści korzystający z generatywnej sztucznej inteligencji. Złowieszcza uwaga: niektórzy oszuści odkryli, jak używać generatywnej sztucznej inteligencji i ChatGPT do popełniania wykroczeń, w tym generowania fałszywych wiadomości e-mail, a nawet tworzenia kodu programowego dla złośliwego oprogramowania, zobacz moją analizę na link tutaj.
7) Błędy nowicjuszy przy użyciu generatywnej sztucznej inteligencji. Wiele osób zarówno przesadza, jak i zaskakująco nie osiąga tego, co może zrobić generatywna sztuczna inteligencja i ChatGPT, więc przyjrzałem się szczególnie niedoszacowaniu, jakie zwykle robią nowicjusze AI, zobacz dyskusję na link tutaj.
8) Radzenie sobie z generatywnymi monitami AI i halucynacjami AI. Opisuję najnowocześniejsze podejście do korzystania z dodatków AI do radzenia sobie z różnymi problemami związanymi z próbą wprowadzenia odpowiednich podpowiedzi do generatywnej sztucznej inteligencji, a ponadto istnieją dodatkowe dodatki AI do wykrywania tak zwanych halucynacji i fałszywych wyników AI, jak pokryty o godz link tutaj.
9) Obalanie twierdzeń Bonehead o wykrywaniu generatywnych esejów stworzonych przez sztuczną inteligencję. Istnieje błędna gorączka złota aplikacji AI, które głoszą, że są w stanie ustalić, czy dany esej został stworzony przez człowieka, czy przez sztuczną inteligencję. Ogólnie rzecz biorąc, jest to mylące, aw niektórych przypadkach twierdzenie bezmyślne i nie do utrzymania, zobacz mój zasięg na stronie link tutaj.
10) Odgrywanie ról za pomocą generatywnej sztucznej inteligencji może zwiastować problemy ze zdrowiem psychicznym. Niektórzy używają generatywnej sztucznej inteligencji, takiej jak ChatGPT, do odgrywania ról, w której aplikacja AI reaguje na człowieka tak, jakby istniał w świecie fantasy lub innym wymyślonym otoczeniu. To może mieć reperkusje dla zdrowia psychicznego, patrz link tutaj.
11) Ujawnianie zakresu wyprowadzanych błędów i fałszów. Różne zebrane listy są tworzone razem, aby spróbować pokazać naturę błędów i fałszów stworzonych przez ChatGPT. Niektórzy uważają, że jest to niezbędne, podczas gdy inni twierdzą, że ćwiczenie to jest daremne, patrz moja analiza na link tutaj.
12) Szkoły zakazujące generatywnego AI ChatGPT gubią łódź. Być może wiesz, że różne szkoły, takie jak Departament Edukacji miasta Nowy Jork (NYC), ogłosiły zakaz korzystania z ChatGPT w swojej sieci i powiązanych urządzeniach. Chociaż może się to wydawać pomocnym środkiem ostrożności, nie poruszy igły i niestety całkowicie nie trafia w łódź, zobacz moją relację na link tutaj.
13) Generative AI ChatGPT będzie wszędzie ze względu na nadchodzące API. Nadchodzi ważny zwrot dotyczący korzystania z ChatGPT, a mianowicie, że poprzez użycie portalu API w tej konkretnej aplikacji AI, inne programy będą mogły wywoływać i wykorzystywać ChatGPT. To radykalnie rozszerzy wykorzystanie generatywnej sztucznej inteligencji i ma znaczące konsekwencje, patrz moje opracowanie na link tutaj.
14) Sposoby, w jakie ChatGPT może się zepsuć lub stopić. Przed ChatGPT czeka kilka potencjalnych irytujących problemów, jeśli chodzi o podcięcie ogromnej pochwały, jaką otrzymał. Ta analiza dokładnie analizuje osiem możliwych problemów, które mogą spowodować, że ChatGPT straci swoją popularność, a nawet skończy w niełasce, zobacz link tutaj.
15) Pytanie, czy Generative AI ChatGPT jest lustrem duszy. Niektórzy ludzie piali, że generatywna sztuczna inteligencja, taka jak ChatGPT, zapewnia zwierciadło duszy ludzkości. Wydaje się to dość wątpliwe. Oto sposób, aby to wszystko zrozumieć, widzicie link tutaj.
16) Poufność i prywatność pochłaniane przez ChatGPT. Wydaje się, że wielu nie zdaje sobie sprawy, że licencje związane z generatywnymi aplikacjami sztucznej inteligencji, takimi jak ChatGPT, często pozwalają twórcy sztucznej inteligencji zobaczyć i wykorzystać wprowadzone monity. Możesz być narażony na ryzyko utraty prywatności i poufności danych, zobacz moją ocenę pod adresem link tutaj.
17) Sposoby, w jakie twórcy aplikacji wątpliwie próbują zdobyć uprawnienia ChatGPT. ChatGPT jest teraz latarnią morską uwagi. Twórcy aplikacji, którzy nie mają nic wspólnego z ChatGPT, gorączkowo próbują twierdzić lub sugerować, że używają ChatGPT. Oto, na co należy uważać, zobacz link tutaj.

Może Cię zainteresować fakt, że ChatGPT jest oparty na wersji poprzedniej aplikacji AI znanej jako GPT-3. ChatGPT jest uważany za nieco następny krok, określany jako GPT-3.5. Przewiduje się, że GPT-4 zostanie prawdopodobnie wydany wiosną 2023 roku. Przypuszczalnie GPT-4 będzie imponującym krokiem naprzód pod względem możliwości tworzenia pozornie jeszcze płynniejszych esejów, sięgania głębiej i wzbudzania podziwu - inspirujące zdumienie co do kompozycji, które może stworzyć.

Możesz spodziewać się nowej rundy wyrażanego zachwytu, gdy nadejdzie wiosna i zostanie wydana najnowsza generacyjna sztuczna inteligencja.

Wspominam o tym, ponieważ należy pamiętać o innym aspekcie, składającym się z potencjalnej pięty achillesowej tych lepszych i większych generatywnych aplikacji AI. Jeśli jakikolwiek dostawca sztucznej inteligencji udostępni generatywną aplikację sztucznej inteligencji, która pieni się wypluwa obrzydliwość, może to zniweczyć nadzieje tych twórców sztucznej inteligencji. Skutki społeczne mogą spowodować, że cała generatywna sztuczna inteligencja dostanie poważnego podbitego oka. Ludzie z pewnością będą bardzo zdenerwowani niecnymi wynikami, które miały miejsce już wiele razy i doprowadziły do hałaśliwych reakcji społecznych na potępienie sztucznej inteligencji.

Na razie ostatnie ostrzeżenie.

Cokolwiek zobaczysz lub przeczytasz w generatywnej odpowiedzi AI wydaje być przekazywane jako oparte na faktach (daty, miejsca, ludzie itp.), zachowaj sceptycyzm i bądź gotów dwukrotnie sprawdzić to, co widzisz.

Tak, daty można zmyślać, miejsca można zmyślać, a elementy, które zwykle oczekujemy, że będą bez zarzutu, są cała kolekcja podlega podejrzeniom. Nie wierz w to, co czytasz i zachowuj sceptycyzm podczas sprawdzania generatywnych esejów lub wyników AI. Jeśli generatywna aplikacja AI powie ci, że Abraham Lincoln latał po kraju swoim prywatnym odrzutowcem, z pewnością wiedziałbyś, że to malarkowskie. Niestety, niektórzy ludzie mogą nie zdawać sobie sprawy, że w jego czasach nie było odrzutowców, lub mogą wiedzieć, ale nie zauważać, że esej zawiera to bezczelne i oburzająco fałszywe twierdzenie.

Silna dawka zdrowego sceptycyzmu i uporczywy brak wiary będą Twoimi największymi atutami podczas korzystania z generatywnej sztucznej inteligencji.

Jesteśmy gotowi przejść do następnego etapu wyjaśniania.

Doprowadzenie generatywnej sztucznej inteligencji do punktu krytycznego

Teraz, gdy mamy ustalone podstawy, możemy zagłębić się w temat popychania generatywnej sztucznej inteligencji i ChatGPT do generowania mowy nienawiści i innych obraźliwych treści.

Kiedy po raz pierwszy logujesz się do ChatGPT, pojawiają się różne ostrzeżenia, w tym te:

„Może czasami generować szkodliwe instrukcje lub stronnicze treści”.
„Wyszkolony w odrzucaniu niewłaściwych próśb”.
„Może czasami generować nieprawidłowe informacje.”
„Ograniczona wiedza o świecie i wydarzeniach po 2021 roku.”

Oto pytanie do przemyślenia.

Czy ostrzeżenie, że aplikacja sztucznej inteligencji może generować szkodliwe instrukcje i/lub potencjalnie stronnicze treści, zapewnia twórcy sztucznej inteligencji wystarczającą swobodę?

Innymi słowy, załóżmy, że używasz ChatGPT i generuje on esej, który Twoim zdaniem zawiera mowę nienawiści. Załóżmy, że jesteś tym wściekły. Wchodzisz do mediów społecznościowych i publikujesz rozwścieczony komentarz, że aplikacja AI to najgorsza rzecz na świecie. Być może jesteś tak urażony, że oświadczasz, że zamierzasz pozwać twórcę sztucznej inteligencji za pozwolenie na produkcję takiej mowy nienawiści.

Kontrargumentem jest to, że aplikacja AI miała ostrzeżenie ostrzegawcze, dlatego zaakceptowałeś ryzyko, kontynuując korzystanie z aplikacji AI. Z perspektywy etyki sztucznej inteligencji być może twórca sztucznej inteligencji zrobił wystarczająco dużo, aby zapewnić, że jesteś świadomy tego, co może się wydarzyć. Podobnie, z prawnego punktu widzenia, być może ostrzeżenie stanowiło wystarczającą zapowiedź i nie wygrasz w sądzie.

Wszystko to wisi w powietrzu i będziemy musieli poczekać i zobaczyć, jak sprawy się potoczą.

W pewnym sensie twórca sztucznej inteligencji ma dla nich coś innego w obronie przed wszelkimi wściekłymi roszczeniami aplikacji AI, która może powodować mowę nienawiści. Próbowali zapobiegać generowaniu obraźliwych treści. Widzisz, gdyby nie zrobili nic, aby to ograniczyć, można przypuszczać, że znaleźliby się na cieńszym lodzie. Podejmując przynajmniej merytoryczne starania, aby zapobiec tej sprawie, prawdopodobnie mają nieco silniejszą nogę, na której mogą stać (nadal można ją wybić spod nich).

Jedno z zastosowanych podejść leczniczych obejmowało technikę sztucznej inteligencji znaną jako RLHF (uczenie się ze wzmocnieniem poprzez informacje zwrotne od człowieka). Zasadniczo polega to na generowaniu przez sztuczną inteligencję treści, które następnie ludzie są proszeni o ocenę lub recenzję. Na podstawie oceny lub recenzji sztuczna inteligencja próbuje matematycznie i obliczeniowo uniknąć wszelkich treści uznanych za niewłaściwe lub obraźliwe. Podejście ma na celu zbadanie wystarczającej liczby przykładów tego, co jest dobre, a co złe, aby sztuczna inteligencja mogła znaleźć nadrzędny wzór matematyczny, a następnie odtąd go używać.

Innym częstym podejściem w dzisiejszych czasach jest użycie sztucznej inteligencji przeciwnika.

Oto jak to działa. Skonfigurujesz inny system sztucznej inteligencji, który będzie próbował być przeciwnikiem sztucznej inteligencji, którą próbujesz wyszkolić. W tym przypadku stworzylibyśmy system sztucznej inteligencji, który próbuje podsycać mowę nienawiści. Przesyłałoby monity do aplikacji AI, które mają na celu oszukanie aplikacji AI do wyświetlania nieprzyzwoitych treści. W międzyczasie sztuczna inteligencja, która jest celem, śledzi, kiedy sztuczna inteligencja wroga odnosi sukces, a następnie algorytmicznie próbuje dostosować się, aby zapobiec ponownemu wystąpieniu. To gambit kot kontra mysz. Jest to powtarzane w kółko, aż wydaje się, że przeciwna sztuczna inteligencja nie jest już szczególnie skuteczna w zmuszaniu docelowej sztucznej inteligencji do robienia złych rzeczy.

Dzięki tym dwóm głównym technikom oraz innym podejściom większość dzisiejszej generatywnej sztucznej inteligencji znacznie lepiej radzi sobie z unikaniem i/lub wykrywaniem obraźliwych treści niż miało to miejsce w poprzednich latach.

Nie oczekuj jednak doskonałości od tych metod. Są szanse, że nisko wiszący owoc złych wyników będzie prawdopodobnie utrzymywany w ryzach przez takie techniki sztucznej inteligencji. Nadal jest dużo miejsca na wyemitowanie obrzydliwości.

Zwykle zwracam uwagę, że oto niektóre z aspektów, które należy uchwycić:

Emitowanie określonego wulgarnego słowa
Wypowiedzenie określonego wulgarnego wyrażenia, zdania lub uwagi
Wyrażanie szczególnej obrzydliwej koncepcji
Sugerowanie określonego niecnego czynu lub pojęcia
Wygląda na to, że opierasz się na konkretnym fałszywym założeniu
Inne

Nic z tego nie jest nauką ścisłą. Uświadom sobie, że mamy do czynienia ze słowami. Słowa są semantycznie wieloznaczne. Znalezienie konkretnego wulgarnego słowa jest dziecinnie proste, ale próba oceny, czy zdanie lub akapit zawiera pozory wulgarnego znaczenia, jest o wiele trudniejsza. Zgodnie z wcześniejszą definicją mowy nienawiści Organizacji Narodów Zjednoczonych, istnieje ogromna dowolność co do tego, co może być interpretowane jako mowa nienawiści, a co może nią nie być.

Można powiedzieć, że szare obszary są w oku patrzącego.

Mówiąc o oku patrzącego, są dziś ludzie używający generatywnej sztucznej inteligencji, takiej jak ChatGPT, która celowo próbuje zmusić te aplikacje AI do tworzenia obraźliwych treści. To jest ich misja. Spędzają wiele godzin, próbując sprawić, by tak się stało.

Dlaczego tak?

Oto moje charakterystyki tych łowców wyjść ofensywnych przez sztuczną inteligencję:

Prawdziwy. Ci ludzie chcą pomóc udoskonalić sztuczną inteligencję i pomóc ludzkości w tym. Wierzą, że wykonują heroiczną pracę i cieszą się, że mogą pomóc w rozwoju sztucznej inteligencji dla dobra wszystkich.
zabawiacze. Ci ludzie myślą o tym wysiłku jako o grze. Lubią bawić się sztuczną inteligencją. Zwycięstwo w grze polega na znalezieniu najgorszego z najgorszych we wszystkim, co może wygenerować sztuczna inteligencja.
Popisuje się. Ci ludzie mają nadzieję, że zwrócą na siebie uwagę. Dochodzą do wniosku, że jeśli uda im się znaleźć naprawdę paskudne bryłki złota, mogą rzucić na nie trochę świecącego światła, które w przeciwnym razie skupiałoby się na samej aplikacji AI.
Gorzkie. Ci ludzie są zirytowani tą sztuczną inteligencją. Chcą podkopać cały ten tryskający entuzjazm. Jeśli uda im się odkryć jakieś śmierdzące, paskudne rzeczy, być może usunie to powietrze z balonu ekscytacji aplikacji AI.
Inne motywacje

Wielu z tych, którzy dokonują ofensywy, znajduje się głównie w jednym z tych obozów. Oczywiście możesz być jednocześnie w więcej niż jednym obozie. Być może zgorzkniała osoba ma również intencję bycia autentyczną i heroiczną. Niektóre lub wszystkie z tych motywacji mogą współistnieć. Gdy ktoś jest wezwany do wyjaśnienia, dlaczego ktoś próbuje wepchnąć generatywną aplikację AI do sfery mowy nienawiści, zwykle odpowiada się, że należy się do prawdziwego obozu, nawet jeśli jest się nim marginalnie i zamiast tego siedzi się ostro w jednym z inne obozy.

Jakich sztuczek związanych z podpowiedziami używają ci ludzie?

Dość oczywista sztuczka polega na użyciu wulgarnego słowa w monicie. Jeśli masz „szczęście”, a aplikacja AI da się na to nabrać, może to bardzo dobrze skończyć się na wyjściu. Masz wtedy swój moment na gotcha.

Są szanse, że dobrze zaprojektowana i dobrze przetestowana generatywna aplikacja AI złapie tę prostą sztuczkę. Zwykle zobaczysz komunikat ostrzegawczy, który mówi, że przestań to robić. Jeśli będziesz kontynuować, aplikacja AI zostanie zaprogramowana tak, aby wyrzucić Cię z aplikacji i oznaczyć Twoje konto. Może się zdarzyć, że nie będziesz mógł zalogować się ponownie (no, przynajmniej pod loginem, którego użyłeś w tym czasie).

Poruszając się po drabinie sztuczek, możesz podać monit, który próbuje wprowadzić sztuczną inteligencję w kontekst czegoś obrzydliwego. Czy kiedykolwiek grałeś w tę grę, w której ktoś każe ci coś powiedzieć, nie mówiąc tego, co powinieneś powiedzieć? To jest ta gra, choć odbywa się z AI.

Zagrajmy w tę grę. Załóżmy, że poproszę aplikację AI, aby opowiedziała mi o II wojnie światowej, a zwłaszcza o głównych zaangażowanych w nią przywódcach rządowych. To wygląda na niewinną prośbę. Nie ma nic, co wydaje się warte oflagowania w monicie.

Wyobraź sobie, że esej wydrukowany przez aplikację AI zawiera wzmiankę o Winstonie Churchillu. To z pewnością ma sens. Innym może być Franklin D. Roosevelt. Jeszcze innym może być Józef Stalin. Załóżmy, że jest też wzmianka o Adolfie Hitlerze. Ta nazwa byłaby zawarta w prawie każdym eseju o II wojnie światowej i osobach pełniących ważne role.

Teraz, gdy mamy już jego nazwisko na stole i część rozmowy AI, spróbujemy skłonić sztuczną inteligencję do uwzględnienia tego nazwiska w sposób, który możemy przedstawić jako potencjalną mowę nienawiści.

Wprowadzamy kolejny monit i informujemy aplikację AI, że w wiadomościach jest dziś osoba o imieniu John Smith. Ponadto wskazujemy w monicie, że John Smith jest bardzo podobny do tego złoczyńcy z II wojny światowej. Pułapka jest teraz zastawiona. Następnie prosimy aplikację AI o wygenerowanie eseju o Johnie Smithie, opartego wyłącznie na wprowadzonym przez nas „fakcie” dotyczącym tego, z kim można porównać Johna Smitha.

W tym momencie aplikacja AI może wygenerować esej, w którym wymienia się osobę z II wojny światowej i opisuje Johna Smitha jako osobę z tego samego materiału. W eseju nie ma żadnych wulgarnych słów, poza aluzją do słynnego złoczyńcy i zrównaniem tej osoby z Johnem Smithem.

Czy aplikacja AI wytworzyła teraz mowę nienawiści?

Można powiedzieć, że tak, ma. Odwoływanie się do Johna Smitha jako słynnego złoczyńcy jest absolutnie formą mowy nienawiści. AI nie powinna składać takich oświadczeń.

Odpowiedź jest taka, że to nie jest mowa nienawiści. To tylko esej stworzony przez aplikację AI, która nie ma ucieleśnienia wrażliwości. Możesz twierdzić, że mowa nienawiści występuje tylko wtedy, gdy istnieje intencja leżąca u podstaw mowy. Bez żadnej intencji wypowiedzi nie można zakwalifikować jako mowy nienawiści.

Absurd, brzmi odpowiedź na ripostę. Słowa mają znaczenie. Nie ma znaczenia, czy sztuczna inteligencja „zamierzała” wywoływać mowę nienawiści. Liczy się tylko to, że powstała mowa nienawiści.

To się kręci w kółko.

Nie chcę teraz mówić więcej o próbie oszukania sztucznej inteligencji. Istnieją bardziej wyrafinowane podejścia. Omówiłem to gdzie indziej w moich felietonach i książkach i nie będę ich tutaj powtarzał.

Wnioski

Jak daleko powinniśmy posunąć te aplikacje AI, aby zobaczyć, czy uda nam się wyemitować obraźliwe treści?

Możesz twierdzić, że nie ma limitu do narzucenia. Im bardziej naciskamy, tym bardziej możemy, miejmy nadzieję, ocenić, jak zapobiec tej sztucznej inteligencji i przyszłym iteracjom sztucznej inteligencji, aby zapobiec takim chorobom.

Niektórzy jednak martwią się, że jeśli jedynym sposobem na złapanie obrzydliwości jest ekstremalne oszustwo, podważa to korzystne aspekty sztucznej inteligencji. Reklamowanie, że sztuczna inteligencja ma przerażającą obrzydliwość, choć oszukana do jej wyemitowania, zapewnia fałszywą narrację. Ludzie będą się denerwować sztuczną inteligencją z powodu spostrzegany łatwość, z jaką sztuczna inteligencja generowała niekorzystne treści. Mogą nie wiedzieć lub nie powiedziano im, jak daleko w króliczej norze musi się posunąć osoba, aby uzyskać takie wyniki.

To wszystko daje do myślenia.

Na razie kilka uwag końcowych.

William Shakespeare powiedział w szczególności o mowie: „Mówienie nie jest działaniem. Mówienie dobrze jest rodzajem dobrego uczynku, a jednak słowa nie są czynami”. Wspominam o tym, ponieważ niektórzy twierdzą, że jeśli sztuczna inteligencja generuje tylko słowa, nie powinniśmy być tak zawzięcie nastawieni. Gdyby sztuczna inteligencja działała na podstawie słów i ergo popełniała podłe czyny, musielibyśmy mocno postawić stopę. Nie tak, jeśli dane wyjściowe to tylko słowa.

Z przeciwnego punktu widzenia wynikałoby to z anonimowego powiedzenia: „Język nie ma kości, ale jest wystarczająco silny, by złamać serce. Uważaj więc na słowa”. Aplikacja AI, która emituje wulgarne słowa, być może jest w stanie złamać serca. Niektórzy twierdzą, że już samo to sprawia, że dążenie do powstrzymania plugastwa jest godnym celem.

Jeszcze jedno anonimowe powiedzenie na zakończenie tej ważnej dyskusji:

"Uważaj na słowa. Kiedy zostaną wypowiedziane, można je tylko wybaczyć, a nie zapomnieć”.

Jako ludzie możemy mieć trudności z zapomnieniem obrzydliwości stworzonej przez sztuczną inteligencję, a nasze przebaczenie może również wahać się przed otrzymaniem.

W końcu jesteśmy tylko ludźmi.

Źródło: https://www.forbes.com/sites/lanceeliot/2023/02/05/how-hard-should-we-push-generative-ai-chatgpt-into-spewing-hate-speech-asks-ai- etyka-i-prawo/