Spojrzenie na nową Al Generative Art

Al sztuka generatywna jest rodzajem sztuki, najczęściej wizualnej, polegającej na współpracy człowieka z autonomicznym systemem. „System autonomiczny” jest definiowany jako Artificial Intelligence oprogramowanie, algorytm lub model zdolne do wykonywania złożonych operacji bez konieczności ingerencji programisty.

Z dziwacznych zestawień obrazów tworzonych przez Dall-E Mini do NFT rynku, obrazy generowane przez algorytmy sztucznej inteligencji coraz częściej wkraczają do głównego nurtu wyobraźni. W rzeczywistości dwa ważne projekty na ten temat, które zasługują na analizę, to: W połowie drogi i DALL-E2.

Oczywiście wiadomość dotarła również na Twittera. Komentuje to między innymi Charles Hoskinson, który napisał:

Sztuka generowana przez AI. Udało mi się zrobić to zdjęcie w kilka minut. Nie mogę sobie wyobrazić, jak niezwykła będzie ta technologia za 3 lata pic.twitter.com/jOTOCZj7ki
- Charles Hoskinson (@IOHK_Charles) 1 lutego 2023 r.

Al Generative Art: wczesne eksperymenty i funkcje

Po zrozumieniu, czym jest sztuka generatywna, ważne jest, aby podkreślić jedną z jej podstawowych zasad: przypadkowość. Co jest podstawową właściwością sztuki generatywnej.

W rzeczywistości, w zależności od rodzaju oprogramowania, autonomiczny system jest w stanie przetwarzać wyniki, które są zawsze różne i unikalne za każdym razem, gdy wykonywane jest polecenie generowania, lub może zwracać zmienną liczbę wyników w odpowiedzi na dane wejściowe użytkownika.

Pierwsze eksperymenty w sztuce generatywnej sięgają lat 1960 Harolda Cohena i jego AARON program. Cohen po raz pierwszy użył samodzielnego oprogramowania do wygenerowania abstrakcyjnych dzieł sztuki inspirowanych sitodrukiem Pop Art. Prace Cohena są obecnie wystawiane w Tate Gallery w Londynie.

Innym atrybutem sztuki generatywnej, ale coraz mniej prerogatywą, jest powtarzalność wzorców lub abstrakcyjnych elementów dostarczonych przez programistę i zaimplementowanych w kodzie programu.

Ponadto rozwój coraz bardziej złożonych sieci neuronowych działających na zasadzie kojarzenia tekstu z obrazem umożliwił opracowanie modeli generatywnych zdolnych do tworzenia coraz bardziej realistycznych i dokładnych obrazów. Najbardziej znanym przykładem tej kategorii sztuki generatywnej jest Płyta.

Dall-E to multimodalna sieć neuronowa oparta na GPT-3 model głębokiego uczenia się od OpenAI, ta sama firma, która również niedawno się rozwinęła ChatGPT, chatbot uruchomiony w listopadzie 2022 r. i zoptymalizowany pod kątem „nadzorowany” i techniki uczenia się przez wzmacnianie.

Wracając do Dall-E, widzimy, że ten system jest w stanie generować obrazy z opisu tekstowego, zwanego a "podpowiedź," na podstawie zestawu danych par tekst-obraz.

Pierwsza wersja Dall-E, która została zaprezentowana publicznie w styczniu 2021 roku i pozostała prerogatywą niewielkiej liczby profesjonalistów w tej dziedzinie, stanowiła prawdziwą rewolucję w tego typu modelu generatywnym, przewyższając innowacje GPT- 3 sam.

Nie bez znaczenia jest również fakt, że dokładność wyników przetwarzanych przez Dall-E okazała się idealnym polem dla innego rozwiązania OpenAI: CLIP (Kontrastowe szkolenie językowo-obrazowe).

Sieć neuronowa służąca do klasyfikacji i rankingu obrazów trenowana na podstawie skojarzeń tekst-obraz, takich jak podpisy znalezione w Internecie. Dzięki interwencji CLIP, która zmniejszyła liczbę wyników proponowanych użytkownikowi na monit do 32, stwierdzono, że Dall-E zwraca w większości przypadków zadowalające obrazy.

Midjourney: projektowanie, infrastruktura ludzka i sztuczna inteligencja

Jak przewidywano, W połowie drogi to ważny projekt będący częścią powstającej koncepcji Al Generative Art. W szczególności Midjourney to niezależne laboratorium badawcze, które bada nowe sposoby myślenia i rozszerza wyobraźnię gatunku ludzkiego.

Korzystanie z niego jest proste: najpierw należy założyć konto Discord, platformę, na której znajdują się różne społeczności, a jedną z nich jest Midjourney. W aplikacji znajdują się różne czaty, w których można aktywnie uczestniczyć lub nie w dyskusjach.

Należy zaznaczyć, że aby po raz pierwszy spróbować użyć sztucznej inteligencji, należy przejść do strony „nowicjusze” kanały, gdzie 25 darmowych renderów są dostępne.

Jeden render odpowiada wygenerowaniu czterech różnych wariantów wygenerowanych z tego samego tekstu.

Zatem 25 renderów odnosi się do 25 zadań przetwarzania wykonywanych przez bota Midjourney. W związku z tym wygenerowanie obrazu wymaga interakcji z botem Midjourney za pośrednictwem wiadomości tekstowej zwanej „monitem”, w której znajdą się słowa kluczowe opisujące obraz, który użytkownik ma na myśli.

Możesz dodać tyle szczegółów, ile chcesz, ważne jest, aby słowa kluczowe podzielić przecinkiem. Po zakończeniu renderowania komputer zwraca cztery różne obrazy na podstawie opisów do wyboru.

Ponadto, gdy program zakończy renderowanie, możesz przekazać swoje preferencje na podstawie obrazów i, jeśli chcesz, ponownie wygenerować cztery kolejne wersje.

DALL-E 2: nowy system sztucznej inteligencji dla dzieł sztuki

Oprócz Midjourney, DALL-E 2 to także nowy system sztucznej inteligencji, który może tworzyć realistyczne obrazy i dzieła sztuki na podstawie opisu w języku naturalnym. Co więcej, DALL-E 2 może również łączyć koncepcje, atrybuty i style.

Siła nowego systemu sztucznej inteligencji polega również na możliwości rozszerzania obrazów poza to, co jest w oryginalnym płótnie, tworząc nowe, rozbudowane kompozycje. Ponadto może wprowadzać realistyczne zmiany w istniejących obrazach z napisów w języku naturalnym oraz dodawać i usuwać elementy, uwzględniając cienie, odbicia i tekstury.

Możliwości DALL-E 2 obejmują również zrobienie zdjęcia i stworzenie kilku jego wariacji inspirowanych oryginałem. DALL-E 2 nauczył się relacji między obrazami a tekstem używanym do ich opisu.

Wykorzystuje proces tzw "dyfuzja," który zaczyna się od wzoru losowych kropek i stopniowo zmienia ten wzór w kierunku obrazu, gdy rozpoznaje określone aspekty tego obrazu.

Tak więc, po wprowadzeniu przez OpenAI DALL-E w styczniu 2021 r., najnowszy system, DALL-E 2, generuje bardziej realistyczne i dokładne obrazy z czterokrotnie większą rozdzielczością.

DALL-E 2 zaczął jako projekt badawczy i jest teraz dostępny jako wersja beta. Ograniczenia bezpieczeństwa, które system opracował i nadal ulepsza, obejmują: ograniczenie zdolności systemu do generowania obrazów przedstawiających przemoc, nienawiść lub dorosłych oraz stopniowe wdrażanie oparte na uczeniu się.

Źródło: https://en.cryptonomist.ch/2023/02/02/ai-generative-art/