Co nowe rozwiązanie Text-To-3D firmy Nvidia oznacza dla inżynierii i projektowania produktów

tl; dr: Generatywna sztuczna inteligencja ewoluuje w niesamowitym tempie. Najnowszy algorytm Nvidii konwertuje tekst na siatkę 3D dwa razy szybciej niż projekty opublikowane zaledwie 2 miesiące temu. Oznacza to, że możliwości techniczne już teraz przewyższają naszą zdolność do pracy z nimi.

Ostatnie tygodnie papier przez naukowców Nvidii zademonstrowali wykładniczą prędkość, z jaką ewoluuje przestrzeń generatywnej sztucznej inteligencji. Ta eksplozja aktywności – szczególnie widoczna w ciągu ostatnich 9 miesięcy – będzie miała wpływ na każdą dziedzinę życia, nie tylko na projektowanie produktów, inżynierię i produkcję. Zmiany uwolnią branżę od ograniczeń strukturalnych w sposobie komunikowania pomysłów, przyspieszą cykle innowacji i ostatecznie pozwolą jej spełnić obietnice dotyczące zrównoważonego rozwoju.

Przykładowe siatki z algorytmów Magic 3D firmy Nvidia Research wraz z monitami użytymi do ich wygenerowania.

Badania Nvidia Deep Imagination

Od lat mówiono, że sztuczna inteligencja zasadniczo zrewolucjonizuje sposób, w jaki pracujemy, ale niewielu spodziewało się, że sektor kreatywny będzie jedną z jej pierwszych ofiar. Pojawienie się w 3 roku przypominającego człowieka generatora tekstu GPT-2020 sprawiło, że możliwości stały się bardziej widoczne. Od tego czasu to była szalona jazda: DALL-E (zamiana tekstu na obraz), Whisper (rozpoznawanie mowy), a ostatnio stabilna dyfuzja (zamiana tekstu na obraz) nie tylko zwiększyły możliwości mowy i wizualnych narzędzi sztucznej inteligencji, ale także zmniejszono zasoby wymagane do ich użycia (z 175 miliardów parametrów dla GPT-3 do 900 milionów dla stabilnej dyfuzji).

Rozmiar Stable Diffusion oznacza mniej niż 5 GB miejsca na dysku – można go uruchomić na dowolnym laptopie. Nie tylko to; w przeciwieństwie do OpenAI (które jest finansowane głównie przez Microsoft i publikuje GPT-3, DALL-E i Whisper), Stable Diffusion jest open source, co oznacza, że inni mogą znacznie łatwiej korzystać z jego wiedzy. Oznacza to, że jesteśmy świadkami dopiero początku innowacyjnego cyklu – jak pokazuje artykuł Nvidii, czeka nas znacznie więcej.

Zwolennicy Stable Diffusion (stable.ai) dalej przyspieszają ten trend, zapewniając technologiczne i finansowe granty innym zespołom, które kierują eksplorację w nowe kierunki. Dodatkowo liczne projekty sprawiają, że narzędzia stają się dostępne dla coraz szerszego grona użytkowników. Wśród nich są wtyczki do Blendera, narzędzia do projektowania typu open source oraz zastrzeżony odpowiednik Adobe Photoshop. Pełny dostęp API do narzędzi jest finansowany z dużych dolarów Venture Capital, co oznacza, że setki milionów programistów, a nie tylko kilkaset tysięcy inżynierów danych, będzie teraz tworzyć własne narzędzia na tych algorytmach.

Mowa, obrazy i tekst to jedne z pierwszych branż, które zostaną zakłócone przez te technologie. Ale 3D nie jest daleko w tyle. Poza niszową sztuką generatywną, karykatury są oczywistym pierwszym punktem zastosowania. Istnieje już generator Pokémonów oparty na Stable Diffusion. Efekty wizualne i filmy są następne. Jednak wiele innych sektorów prawdopodobnie zostanie zakłóconych, w tym projektowanie wnętrz, na czele z Interiorai.com.

W całym tym podekscytowaniu zastosowanie innowacji w dziale projektowania i inżynierii wydaje się być refleksją. Jednak jest prawdopodobne, że ostatecznie będzie to obszar najbardziej dotknięty. Oczywiście istnieją początkowe wyzwania: po pierwsze, Stable Diffusion i jego rodacy nie są jeszcze bardzo precyzyjni. Nie stanowi to problemu w przypadku kreskówek, ale stanowi poważne wyzwanie dla każdej próby przekształcenia tekstu w pełne geometrie 3D używane w kontekstach przemysłowych. Jest to obszar, który budził pewne zainteresowanie (projekt o nazwie Bits101 został uruchomiony w Izraelu w 2015 r.). Może to być święty Graal branży, ale istnieje wiele pośrednich wyzwań, które mogą być znacznie łatwiejsze do rozwiązania. Należą do nich ulepszone rozpoznawanie obiektów (algorytm Yolo jest już używany z doskonałym skutkiem), co doprowadzi do lepszego cytowania i adnotacji – poprawiając jakość i zmniejszając liczbę błędów. Wtyczki powinny również ułatwiać korzystanie z Generative AI do opracowywania podstawowych projektów (Primitives), które można następnie edytować w narzędziach do projektowania w celu poprawy tolerancji zgodnie z wymaganiami. Jest to podejście stosowane już w Inspire Altaira, w którym wykorzystano analizę elementów skończonych, aby zrobić to samo. Te prymitywy mogą również służyć jako syntetyczna baza danych modeli z adnotacjami, których brakuje w branży 3D CAD. CEO i założyciel firmy Physna zwraca na to uwagę w artykule szczegółowo opisując własne próby wykorzystania tych nowatorskich metod do tworzenia szczegółowych projektów 3D, co również podkreśla szereg pułapek związanych z wykorzystaniem danych syntetycznych do napędzania tych algorytmów Tworzenie projektów 3D z rysunków 2D to kolejny potencjalny obszar zastosowań, podobnie jak inteligentne CAM – karmienie się bibliotekę zużycia narzędzi w celu określenia najlepszych strategii obróbki.

Wyzwania te są ważne i opłacalne, aby stawić im czoła same w sobie i dla nich. Jednak ich główny wpływ będzie polegał na pomocy w ewolucji ścieżki od pomysłu do projektu poprzez ostateczne ograniczenie polegania na projektach 3D w przekazywaniu intencji. Projekty, zarówno 2D, jak i 3D, służyły jako podstawowy sposób przekładania potrzeb klientów na produkty końcowe. To ogranicza branżę, ponieważ projekty te służą jako czarna skrzynka, w której przechowywane są wszystkie te cenne spostrzeżenia klientów, ograniczenia produkcyjne i cele firmy, których nie można rozplątać, ale samodzielnie zidentyfikować. Oznacza to, że gdy coś się zmienia, po prostu dostosowanie projektu jest prawie niemożliwe. To jest powód, dla którego wdrażanie innowacji produkcyjnych, takich jak drukowanie 3D, trwa tak długo i wiecznie rozczarowuje inwestorów krótkoterminowych. Komponenty, z których składa się samolot, są „ustawione” od momentu ich zaprojektowania, pomimo ponad 20-letniego okresu eksploatacji. Nie ma prawie żadnego zakresu innowacji – muszą one poczekać na wprowadzenie na rynek następnej generacji.

Możliwość zmiany pojedynczego ograniczenia i umożliwienia algorytmowi, takiemu jak Stable Diffusion, odtworzenia parametrów projektu i produkcji znacznie przyspieszy przyjęcie nowych innowacji i pozwoli nam szybciej budować lżejsze, wydajniejsze produkty. Podobnie jak w przypadku Formuły 1 czy projektowania systemów, przyszli inżynierowie będą działać jako menedżerowie ograniczeń, którzy będą w stanie wyrazić słowami iw odniesieniu do źródeł danych, jaki jest cel i ograniczenia produktu.

Bez przyspieszenia w ten sposób procesu inżynieryjnego dla nowych i istniejących produktów prawie nie mamy możliwości osiągnięcia ambitnych celów w zakresie zrównoważonego rozwoju, które musimy sobie wyznaczyć. Aby to zrobić, musimy najpierw uzgodnić język, za pomocą którego możemy komunikować się poza projektami. Ten nowy model semantyczny jest oczywistą luką w opisanych powyżej innowacjach. Wiele firm już zaczęło z tym eksperymentować, np nTopologia z jej koncepcjami pól. A jednak tempo zmian jest powolne, w przeciwieństwie do algorytmów, które zasila model semantyczny. Nowy algorytm Nvidii jest podobno ponad dwa razy szybszy niż DreamFusion, opublikowane mniej niż 2 miesiące temu. Firmy produkcyjne i inżynieryjne muszą teraz pracować nad uchwyceniem swoich pomysłów w nowy, przyszłościowy sposób, aby jak najlepiej wykorzystać możliwości, jakie niesie ze sobą ta eksplozja generatywnej sztucznej inteligencji. Szybkość zmian w algorytmach po raz kolejny pokazała, że prawo Morse'a ma zastosowanie wszędzie tam, gdzie narzędzia są digitalizowane. Wyzwaniem pozostaje nasza ludzka niezdolność do przyjęcia tej zmiany i wdrożenia nowych metod komunikacji zdolnych do uwolnienia ich potencjału, pomimo pilności zadania.

Źródło: https://www.forbes.com/sites/andrewegner/2022/11/24/what-nvidias-new-text-to-3d-means-for-engineering–product-design/