Założyciel Midjourney, David Holz, o wpływie sztucznej inteligencji na sztukę, wyobraźnię i kreatywną gospodarkę

W połowie drogi jest jednym z wiodących motorów powstającej technologii wykorzystującej sztuczną inteligencję (AI) do tworzenia wizualnych obrazów z podpowiedzi tekstowych. Startup z San Francisco niedawno opublikował wiadomości jako silnik stojący za dziełem sztuki, które zdobyło nagrodę w uczciwym konkursie w stanie Kolorado, i prawdopodobnie nie będzie to ostatnia skomplikowana kwestia, z którą sztuka AI będzie musiała się zmierzyć w nadchodzących latach.

Midjourney odróżnia się od innych w przestrzeni, podkreślając malarską estetykę wytwarzanych obrazów. Platforma nie próbuje tworzyć fotorealistycznych obrazów, które można pomylić ze zdjęciami, a dyrektor generalny David Holz mówi, że osobiście jest bardzo zaniepokojony niesamowitą jakością deepfake i innych prac, które zbyt ściśle symulują rzeczywistość. Holz mówi, że Midjourney ma na celu odblokowanie kreatywności zwykłych ludzi, dając im narzędzia do robienia pięknych zdjęć po prostu przez ich opisywanie.

Ale pomimo humanistycznego, zorientowanego na konsumenta nastawienia firmy, nieuniknione są pytania o implikacje dla sztuki komercyjnej i profesjonalnych artystów. Przeprowadziłem wywiad z Holzem przez szerszy artykuł na temat potencjalnych zakłóceń, jakie sztuka AI może spowodować w produkcji obrazów dla rozrywki, gier wideo i publikacji. Oto dłuższy fragment naszej rozmowy, w której Holz zapewnia więcej głębi i kontekstu, omawiając te problemy i przedstawiając swoją wizję firmy, branży i technologii. Wywiad został zredagowany pod kątem długości i jasności.

Rob Salkowitz, współtwórca Forbesa: Jaka jest twoja rola i tytuł?

David Holz, Podróż w połowie drogi. Jestem założycielem i CEO. Zwykle jednak wolę być nazywany założycielem, ponieważ CEO brzmi bardzo biznesowo, a my nie jesteśmy zbyt biznesowi. Jesteśmy laboratorium badań stosowanych, które wytwarza produkty.

Jaka jest misja Midjourney?

Lubimy mówić, że staramy się rozwinąć wyobraźnię gatunku ludzkiego. Celem jest sprawienie, by ludzie byli bardziej pomysłowi, a nie wymyśleni maszyn, co moim zdaniem jest ważnym rozróżnieniem.

Czy możesz podać krótką historię firmy do tej pory?

Prace nad częścią wyobraźni naszej firmy rozpoczęliśmy około półtora roku temu. Było kilka przełomów w modelach dyfuzji, ludzie rozumiejący clip, openAI, tego typu rzeczy. Prawie wszyscy zaangażowani w to są w San Francisco i wszyscy zdaliśmy sobie sprawę, że to będzie poważne, że różni się od wielu innych rzeczy.

Co Midjourney postrzega jako korzyści płynące z tej technologii przetwarzania tekstu na obraz dla biznesu i społeczeństwa?

Zdecydowanie bardziej interesuje mnie społeczeństwo niż biznes. Jesteśmy produktem konsumenckim, ale może 30%-50% naszych użytkowników to obecnie profesjonaliści. Większość nie. Artyści na platformie mówią nam, że pozwala im to być bardziej kreatywnym i odkrywczym na początku, wymyślając wiele pomysłów w krótkim czasie.

Obecnie nasi profesjonalni użytkownicy korzystają z platformy do tworzenia koncepcji. Najtrudniejsza część [komercyjnego projektu artystycznego] jest często na początku, kiedy interesariusz nie wie, czego chce i musi zobaczyć jakieś pomysły, na które mógłby zareagować. Midjourney może pomóc ludziom szybciej zbliżyć się do pomysłu, którego chcą, ponieważ iteracja tych koncepcji jest bardzo pracochłonna.

Kolejną zaletą dla artystów jest to, że daje ludziom pewność siebie w obszarach, w których nie są pewni. Większość, jeśli nie wszyscy, artyści mają wrażenie, że jest jakaś część sztuki, której nie potrafią dobrze wykonać. Mogą to być kolory, kompozycja, tła. Mamy znanego projektanta postaci, który używa naszego produktu i ludzie pytają go, dlaczego miałbyś używać sztucznej inteligencji, skoro już jesteś taki dobry. A on powiedział: „Cóż, jestem dobry tylko w roli postaci. Pomaga mi to z resztą, światem, tłem, schematami kolorów”.

O ile osób korzysta z produktu?

Miliony go używają. Nasz Discord to ponad dwa miliony. To jak dotąd największy aktywny serwer Discord.

Czy licencja Midjourney pozwala na komercyjne wykorzystanie obrazów generowanych przez platformę?

TAk. Ale jeśli pracujesz dla firmy o rocznych przychodach przekraczających milion dolarów, prosimy o wykupienie licencji korporacyjnej.

Jak zbudowano zbiór danych?

To tylko duży skrawek Internetu. Używamy otwartych zbiorów danych, które są publikowane i szkolimy się w nich. Powiedziałbym, że to jest coś, co robi 100% ludzi. Nie byliśmy wybredni. Nauka naprawdę szybko ewoluuje pod względem ilości danych, których naprawdę potrzebujesz, w porównaniu z jakością modelu. To zajmie kilka lat, zanim naprawdę się zorientujesz, a do tego czasu możesz mieć modelki, które trenujesz prawie z niczym. Nikt tak naprawdę nie wie, co mogą zrobić.

Czy poprosiłeś o zgodę żyjących artystów lub prace nadal objęte prawami autorskimi?

Nie. Tak naprawdę nie ma sposobu, aby uzyskać sto milionów obrazów i dowiedzieć się, skąd pochodzą. Byłoby fajnie, gdyby obrazy zawierały metadane dotyczące właściciela praw autorskich lub czegoś podobnego. Ale to nie jest rzecz; nie ma rejestru. Nie ma sposobu, aby znaleźć zdjęcie w Internecie, a następnie automatycznie wyśledzić je do właściciela, a następnie zrobić cokolwiek, aby je uwierzytelnić.

Czy artyści mogą zrezygnować z udziału w Twoim modelu treningu danych?

Patrzymy na to. Wyzwaniem jest teraz ustalenie, jakie są zasady i jak dowiedzieć się, czy dana osoba jest naprawdę artystą konkretnego dzieła, czy po prostu umieszcza na nim swoje nazwisko. Nie spotkaliśmy nikogo, kto chciałby usunąć swoje nazwisko ze zbioru danych.

Czy artyści mogą zrezygnować z podawania imion w monitach?

Nie teraz. Patrzymy na to. Ponownie musielibyśmy znaleźć sposób na uwierzytelnienie tych żądań, co może się skomplikować.

Co powiesz artystom komercyjnym, którzy obawiają się, że zniszczy ich źródło utrzymania? W pewnym momencie, po co dyrektor artystyczny miałby zatrudniać ilustratora do tworzenia takich prac, jak grafika koncepcyjna, projekt produkcyjny, tła – tego rodzaju rzeczy – kiedy może po prostu wprowadzać podpowiedzi i uzyskiwać przydatne wyniki znacznie szybciej i przy znacznie niższych kosztach?

To wciąż dużo pracy. Nie chodzi tylko o „uczynienie ze mnie tła”. Może to być dziesięć razy mniej pracy, ale jest to o wiele więcej pracy, niż może wykonać menedżer.

Myślę, że można to zrobić na dwa sposoby. Jednym ze sposobów jest zapewnienie takiego samego poziomu treści, jaki konsumują ludzie, po niższej cenie, prawda? Innym sposobem na to jest tworzenie znacznie lepszych treści po cenach, które już jesteśmy w stanie wydać. Uważam, że większość ludzi, jeśli już wydaje pieniądze, a masz wybór między znacznie lepszą zawartością a tańszą zawartością, w rzeczywistości wybiera znacznie lepszą zawartość. Rynek ustalił już cenę, którą ludzie są gotowi zapłacić.

Myślę, że niektórzy spróbują wyciąć artystów. Będą próbowali zrobić coś podobnego mniejszym kosztem i myślę, że zawiodą na rynku. Myślę, że rynek pójdzie w kierunku wyższej jakości, większej kreatywności i znacznie bardziej wyrafinowanej, zróżnicowanej i głębokiej treści. A ludzie, którzy faktycznie potrafią używać takich narzędzi jak artyści i używać do tego narzędzi, wygrają.

Technologie te faktycznie tworzą znacznie głębsze uznanie i umiejętność czytania i pisania w medium wizualnym. Możesz mieć popyt, przewyższyć zdolność produkowania na tym poziomie, a wtedy może faktycznie podniesiesz pensje artystów. To może być dziwne, ale tak się stanie. Tempo wzrostu zapotrzebowania na jakość i różnorodność doprowadzi do powstania wspaniałych i nieoczekiwanych projektów.

Pokolenie studentów ukończyło szkoły artystyczne, wielu z nich mocno zadłużonych, licząc na stosunkowo dobrze płatną pracę w produkcji rozrywkowej, produkcji gier wideo, sztuce komercyjnej i tak dalej. Jak pojawienie się platform AI do przetwarzania tekstu na obraz wpłynie na ich przyszłość?

Myślę, że niektórzy będą próbowali ciąć koszty, a niektórzy będą próbowali poszerzyć ambicje. Myślę, że ludzie, którzy poszerzają swoje ambicje, nadal będą płacić te same pensje, a ci, którzy próbują ciąć koszty, moim zdaniem poniosą porażkę.

Ai jest zwykle używany na dużą skalę do takich rzeczy, jak call center lub sprawdzanie bagażu na lotniskach i rodzaj prac, na których ludzie tak naprawdę nie dbają. Propozycja wartości polega na tym, że uwalnia ludzi do wykonywania bardziej satysfakcjonujących, ciekawszych rodzajów pracy. Ale prace artystyczne są satysfakcjonujące i interesujące. Ludzie pracują całe życie i rozwijają swoje umiejętności, aby zdobyć tego rodzaju pracę. Dlaczego miałbyś wskazać tę technologię na tym poziomie gospodarki jako rodzaj koncentracji biznesowej i priorytetu dla rzeczy, które robisz?

Osobiście nie. Moje rzeczy nie są stworzone dla profesjonalnych artystów. Jeśli lubią go używać, to świetnie. Moje rzeczy są stworzone dla ludzi, którzy, na przykład, jest taka kobieta w Hongkongu, która przyszła do mnie i mówi: „Jedyną rzeczą w Hongkongu, którą twoi rodzice nigdy nie chcą, abyś był artystą, a ja” Teraz jestem bankierem. Żyję dobrym bankierem. Ale dzięki Midjourney teraz zaczynam doświadczać tego doświadczenia bycia osobą, którą naprawdę chciałem być”. Albo faceta na postoju ciężarówek, który dla zabawy tworzy własne karty baseballowe z dzikimi obrazkami. Jest stworzony dla tych ludzi, ponieważ, jak większość ludzi, nigdy nie robią takich rzeczy.

Należy podkreślić, że nie chodzi o sztukę. Tu chodzi o wyobraźnię. Wyobraźnia jest czasami wykorzystywana w sztuce, ale często tak nie jest. Większość obrazów tworzonych w Midjourney nie jest używana profesjonalnie. Nie są nawet udostępniane. Są po prostu wykorzystywane do innych celów, tych bardzo ludzkich potrzeb.

Niemniej jednak wynikiem Twojego produktu są zdjęcia, które mają wartość handlową w kontekście zawodowym, oprócz wszystkich tych innych właściwości. A to jest bardzo destrukcyjne dla tej gospodarki.

Myślę, że to tak, jakbyśmy robili łódź i ktoś może się nią ścigać, ale to nie znaczy, że łódź ma się ścigać. Jeśli użyjesz łodzi do ścigania się, to może tak, jasne. W tym momencie tak jest. Ale ludzka strona naprawdę ma znaczenie i myślę, że nie jesteśmy… Chcemy, aby zdjęcia wyglądały ładnie. Nie postrzegamy siebie jako próbujących tworzyć sztukę jako część naszej rzeczy. Chcemy, aby świat był bardziej pomysłowy. Wolimy robić rzeczy piękne niż brzydkie.

Czy uważasz, że jakikolwiek organ rządowy ma jurysdykcję lub uprawnienia do regulowania tej technologii? A jeśli tak, czy uważasz, że powinni?

Nie wiem. Ciekawe jest rozporządzenie. Musisz zrównoważyć wolność robienia czegoś z wolnością bycia chronionym. Sama technologia nie jest problemem. To jak woda. Woda może być niebezpieczna, można się w niej utopić. Ale to też jest niezbędne. Nie chcemy zakazać wody tylko po to, by uniknąć niebezpiecznych części.

Cóż, chcemy mieć pewność, że nasza woda jest czysta.

Tak to prawda.

Źródło: https://www.forbes.com/sites/robsalkowitz/2022/09/16/midjourney-founder-david-holz-on-the-impact-of-ai-on-art-imagination-and-the- kreatywna-gospodarka/