Postępy w dziedzinie wizji komputerowej napędzają autonomię transportu

Wizja jest potężnym bodźcem sensorycznym człowieka. Umożliwia wykonywanie złożonych zadań i procesów, które przyjmujemy za pewnik. Wraz ze wzrostem AoT™ (autonomia rzeczy) w różnych zastosowaniach, od transportu i rolnictwa po robotykę i medycynę, rola kamer, komputerów i uczenia maszynowego w zapewnianiu ludzkiego widzenia i poznania staje się coraz istotniejsza. Wizja komputerowa jako dyscyplina akademicka wystartowała w latach 1960., głównie na uniwersytetach zajmujących się powstającą dziedziną sztucznej inteligencji (AI) i uczenia maszynowego. W ciągu następnych czterdziestu lat poczyniono znaczne postępy, gdy poczyniono znaczące postępy w technologiach półprzewodnikowych i obliczeniowych. Ostatnie postępy w głębokim uczeniu i sztucznej inteligencji jeszcze bardziej przyspieszyły zastosowanie wizji komputerowej w celu zapewnienia percepcji i poznania środowiska w czasie rzeczywistym z małymi opóźnieniami, umożliwiając autonomię, bezpieczeństwo i wydajność w różnych zastosowaniach. Transport to jeden z obszarów, który odniósł znaczne korzyści.

LiDAR (Light Detection and Ranging) to aktywne podejście do obrazowania optycznego, które wykorzystuje lasery do określania środowiska 3D wokół obiektu. Jest to jedna z technologii, którą rozwiązania komputerowego widzenia (które opierają się wyłącznie na świetle otoczenia i nie wykorzystują laserów do percepcji 3D) próbują zakłócić. Wspólnym tematem jest to, że kierowcy nie potrzebują LiDAR do percepcji głębi, więc maszyny też nie. Aktualne komercyjne funkcje autonomicznej jazdy L3 (pełna autonomia w określonych lokalizacjach geograficznych i warunkach pogodowych, z kierowcą gotowym do przejęcia kontroli w ciągu kilku sekund) produkty dzisiaj użyj LiDAR. Techniki czysto oparte na wizji nadal nie są w stanie zaoferować tej możliwości komercyjnie.

REKLAMA

TeslaTSLA
jest dominującym zwolennikiem używania pasywnej wizji komputerowej opartej na kamerach w celu zapewnienia autonomii pojazdom osobowym. Podczas niedawnego wydarzenia AI Day firmy Elon Musk i jego inżynierowie przedstawili imponującą prezentację jej sztucznej inteligencji, zarządzania danymi i możliwości obliczeniowych, które obsługują między innymi funkcję Full Self Driving (FSD) w wielu modelach Tesla. FSD wymaga, aby kierowca był przez cały czas zaangażowany w kierowanie pojazdem (co jest zgodne z autonomią L2). Obecnie ta opcja jest dostępna dla 160,000 8 pojazdów zakupionych przez klientów w USA i Kanadzie. Zestaw 360 kamer w każdym pojeździe zapewnia mapę zajętości 75°. Dane z kamer (i innych) z tych pojazdów są wykorzystywane do trenowania sieci neuronowej (która wykorzystuje automatyczne etykietowanie) do rozpoznawania obiektów, wykreślania potencjalnych trajektorii pojazdów, wybierania optymalnych i aktywowania odpowiednich działań kontrolnych. W ciągu ostatnich 12 miesięcy przeprowadzono około 1 7 aktualizacji sieci neuronowej (~4 aktualizacja co XNUMX minut), ponieważ stale gromadzone są nowe dane i wykrywane są błędy etykietowania lub błędy w manewrowaniu. Przeszkolona sieć wykonuje czynności planowania i sterowania za pomocą wbudowanej, nadmiarowej architektury specjalnie skonstruowanej elektroniki obliczeniowej. Tesla spodziewa się, że FSD ostatecznie doprowadzi do autonomicznych pojazdów (AV), które zapewnią pełną autonomię w pewnych operacyjnych dziedzinach projektowania bez konieczności angażowania kierowcy (zwanej również autonomią LXNUMX).

Inne firmy, takie jak Phiar, Helm.ai i NODAR również podążają drogą wizji komputerowej. NODAR ma na celu znaczne poszerzenie zakresu obrazowania i postrzegania 3D systemów kamer stereofonicznych, ucząc się dostosowywania do niewspółosiowości kamery i efektów wibracji za pomocą opatentowanych algorytmów uczenia maszynowego. Niedawno zebrał 12 mln USD za produkcję swojego flagowego produktu, Hammerhead™, który wykorzystuje „gotowe” kamery samochodowe i standardowe platformy obliczeniowe.

Poza kosztami i rozmiarami, częstym argumentem przeciwko używaniu LiDAR jest to, że ma ograniczony zasięg i rozdzielczość w porównaniu z kamerami. Na przykład obecnie dostępne są LiDARy o zasięgu 200 m i 5-10 mln punktów na sekundę (PPS zbliżona do rozdzielczości). Na 200 m małe przeszkody, takie jak cegły lub szczątki opon, zarejestrują bardzo mało punktów (może 2-3 w pionie i 3-5 w kierunku poziomym), co utrudnia rozpoznanie obiektów. Sprawy stają się jeszcze bardziej szorstkie na dłuższych dystansach. Dla porównania, standardowe kamery megapikselowe pracujące z częstotliwością 30 Hz mogą generować 30 mln pikseli na sekundę, umożliwiając doskonałe rozpoznawanie obiektów nawet z dużych odległości. Bardziej zaawansowane kamery (12 M pikseli) mogą to jeszcze bardziej zwiększyć. Problem polega na tym, jak wykorzystać te ogromne dane i wytworzyć praktyczną percepcję z opóźnieniami na poziomie milisekund, niskim zużyciem energii i gorszymi warunkami oświetleniowymi.

REKLAMA


Rozpoznaj, firma z Kalifornii, próbuje rozwiązać ten problem. Według CEO Marka Bolitho, jego misją jest:zapewniają nadludzką percepcję wzrokową dla w pełni autonomicznych pojazdów”. Firma została założona w 2017 roku, do tej pory zebrała 75 milionów dolarów i zatrudnia 70 pracowników. RK Anand, absolwent Juniper Networks, jest jednym ze współzałożycieli i Chief Product Officer. Uważa on, że używanie kamer o wyższej rozdzielczości, z zakresem dynamiki > 120 dB, pracujących z dużą liczbą klatek na sekundę (na przykład OnSemi, Sony i Omnivision) zapewnia dane wymagane do tworzenia informacji 3D o wysokiej rozdzielczości, co ma kluczowe znaczenie dla realizacji AV. Czynnikami do tego są:

  1. Specjalnie zaprojektowane układy ASIC do wydajnego przetwarzania danych i tworzenia dokładnych i wysokiej rozdzielczości map 3D otoczenia samochodu. Są one wytwarzane w procesie TSMC 7 nm, z chipem o wielkości 100 mm², pracującym z częstotliwością 1 GHz.
  2. Opatentowane algorytmy uczenia maszynowego do przetwarzania milionów punktów danych w trybie offline w celu stworzenia wytrenowanej sieci neuronowej, która następnie może działać wydajnie i uczyć się w sposób ciągły. Ta sieć zapewnia percepcję i obejmuje klasyfikację i wykrywanie obiektów, segmentację semantyczną, wykrywanie pasów ruchu, znaki drogowe i rozpoznawanie sygnalizacji świetlnej
  3. Minimalizacja operacji przechowywania i mnożenia poza układem, które są energochłonne i powodują duże opóźnienia. Konstrukcja ASIC Recogni jest zoptymalizowana pod kątem matematyki logarytmicznej i wykorzystuje dodawanie. Dalsze usprawnienia są realizowane poprzez optymalne grupowanie wag w wytrenowanej sieci neuronowej.

W fazie szkolenia komercyjny LiDAR jest używany jako podstawa do trenowania danych z kamery stereo o wysokiej rozdzielczości i wysokim zakresie dynamiki, aby wyodrębnić informacje o głębokości i zapewnić odporność na niewspółosiowość i efekty drgań. Według pana Ananda, ich implementacja uczenia maszynowego jest tak wydajna, że ​​może ekstrapolować szacunki głębokości poza zakresy treningowe zapewniane przez kalibrację LiDAR (która zapewnia dokładność gruntu do zakresu 100 m).

REKLAMA

Powyższe dane treningowe zostały przeprowadzone w ciągu dnia za pomocą stereofonicznej pary kamer 8.3 megapiksela pracujących z częstotliwością klatek 30 Hz (~0.5 B pikseli na sekundę). Pokazuje zdolność przeszkolonej sieci do wyodrębniania informacji 3D w scenie poza zasięgiem 100 m, z którym została przeszkolona. Rozwiązanie Recogni może również ekstrapolować uczenie się z danych dziennych na wydajność w nocy (Rysunek 2).

REKLAMA

Według pana Ananda dane dotyczące zasięgu są dokładne w granicach 5% (na długich dystansach) i blisko 2% (na krótszych dystansach). Rozwiązanie zapewnia 1000 TOPS (bilion operacji na sekundę) z opóźnieniem 6 ms i zużyciem energii 25 W (40 TOPS/W), co jest liderem w branży. Konkurenci korzystający z matematyki liczb całkowitych są > 10X niżsi w tej metryce. Rozwiązanie firmy Recogni jest obecnie testowane u wielu dostawców sektora motoryzacyjnego Tier 1.

Prorok („przewidywanie i sprawdzanie, gdzie jest akcja”), z siedzibą we Francji, wykorzystuje swoje kamery oparte na zdarzeniach dla AV, Advanced Driver Assistance Systems (ADAS), automatyki przemysłowej, aplikacji konsumenckich i opieki zdrowotnej. Założona w 2014 roku firma niedawno zamknęła finansowanie rundy C w wysokości 50 mln USD, przy czym do tej pory zebrano łącznie 127 mln USD. Jednym z inwestorów jest Xiaomi, wiodący producent telefonów komórkowych. Celem proroka jest naśladowanie ludzkiego wzroku, w którym receptory w siatkówce reagują na dynamiczną informację. Ludzki mózg skupia się na przetwarzaniu zmian na scenie (zwłaszcza podczas jazdy). Podstawową ideą jest wykorzystanie architektur kamery i pikseli, które wykrywają zmiany natężenia światła powyżej progu (zdarzenie) i dostarczają tylko te dane do stosu obliczeniowego do dalszego przetwarzania. Piksele działają asynchronicznie (nie w ramkach jak w zwykłych kamerach CMOS) i przy znacznie wyższych prędkościach, ponieważ nie muszą integrować fotonów jak w konwencjonalnej kamerze opartej na ramkach i czekać na zakończenie całej klatki przed odczytem danych. Korzyści są znaczące — mniejsza przepustowość danych, opóźnienie decyzji, pamięć masowa i zużycie energii. Pierwszy komercyjny czujnik wizyjny VGA oparty na zdarzeniach tej firmy charakteryzował się wysokim zakresem dynamiki (>120 dB), niskim zużyciem energii (26 mW na poziomie czujnika lub 3 nW/zdarzenie). Wprowadzono również wersję HD (High Definition) (opracowaną wspólnie z Sony) z wiodącym w branży rozmiarem piksela (< 5 μm).

REKLAMA

Czujniki te stanowią rdzeń platformy czujnikowej Metavision®, która wykorzystuje sztuczną inteligencję, aby zapewnić inteligentną i wydajną percepcję dla aplikacji autonomicznych i jest oceniana przez wiele firm z branży transportowej. Oprócz orientacji skierowanej do przodu dla AV i ADAS, Prophesee aktywnie współpracuje z klientami w celu monitorowania sterowników w kabinie dla aplikacji L2 i L3, patrz Rysunek 4:

Możliwości motoryzacyjne są lukratywne, ale cykle projektowania są długie. W ciągu ostatnich dwóch lat Prophesee odnotował znaczne zainteresowanie i trakcję w obszarze widzenia maszynowego do zastosowań przemysłowych. Obejmują one szybkie liczenie, kontrolę powierzchni i monitorowanie drgań.

REKLAMA

Prorok niedawno ogłosił współpracę z wiodącymi twórcami systemów wizyjnych maszyn w celu wykorzystania możliwości w automatyce przemysłowej, robotyce, motoryzacji i IoT (Internet of Things). Inne natychmiastowe możliwości to korekcja rozmycia obrazu w telefonach komórkowych i aplikacjach AR/VR. Wykorzystują one czujniki o niższym formacie niż te używane w długoterminowych możliwościach ADAS/AV, zużywają jeszcze mniej energii i działają ze znacznie mniejszymi opóźnieniami.


Izrael jest wiodącym innowatorem w dziedzinie zaawansowanych technologii, ze znaczącymi inwestycjami typu venture i aktywnym środowiskiem start-upów. Od 2015 r. zainwestowano około 70 mld USD w inwestycje typu venture w sektor technologii. Część tego dotyczy wizji komputerowej. Mobileye stał na czele tej rewolucji w 1999 roku, kiedy Amnon Shashua, wiodący badacz sztucznej inteligencji na Uniwersytecie Hebrajskim, założył firmę, aby skupić się na percepcji opartej na kamerach dla systemów ADAS i AV. Firma złożyła wniosek o IPO w 2014 roku i została przejęta przez IntelINTC
w 2017 roku za 15 miliardów dolarów. Dziś z łatwością jest czołowym graczem w dziedzinie wizji komputerowej i AV, a od niedawna ogłosił zamiar złożenia wniosku o IPO i stać się niezależnym podmiotem. Mobileye osiągnął przychody w wysokości 1.4 mld USD rocznie i niewielkie straty (75 mln USD). Zapewnia możliwości widzenia komputerowego 50 producentom OEM, którzy wdrażają go w 800 modelach samochodów dla funkcji ADAS. W przyszłości zamierzają prowadzić autonomię pojazdów L4 (bez konieczności posiadania sterownika), korzystając z wiedzy o wizji komputerowej i możliwości LiDAR opartych na platformie fotoniki krzemowej Intela. Wycena Mobileye jest szacowana na około 50 miliardów dolarów, kiedy w końcu wejdą na giełdę.

REKLAMA

Stolica Champel, z siedzibą w Jerozolimie, jest liderem w inwestycjach w firmy opracowujące produkty oparte na wizji komputerowej do różnych zastosowań, od transportu i rolnictwa po bezpieczeństwo i ochronę. Amir Weitman jest współzałożycielem i partnerem zarządzającym, a swoją spółkę venture założył w 2017 roku. Pierwszy fundusz zainwestował 20 mln USD w 14 firm. Jedną z ich inwestycji była firma Innoviz, która w 2018 roku weszła na giełdę dzięki fuzji SPAC i stała się jednorożcem LiDAR. Kierowany przez Omera Keilafa (pochodzącego z jednostki technologicznej Korpusu Wywiadu Sił Obronnych Izraela), firma jest dziś liderem we wdrożeniach LiDAR dla ADAS i AV, z wieloma zwycięstwami projektowymi w BMW i Volkswagen.

Drugi fundusz Champel Capital (Impact Deep Tech Fund II) powstał w styczniu 2022 r. i pozyskał do tej pory 30 mln USD (docelowo 100 mln USD do końca 2022 r.). Dominujący nacisk kładziony jest na widzenie komputerowe, z 12 milionami dolarów rozmieszczonymi w pięciu firmach. Trzy z nich wykorzystują wizję komputerową do transportu i robotyki.

CzołgU, z siedzibą w Hajfie, rozpoczęła działalność w 2018 r. i pozyskała 10 mln USD finansowania. Dan Valdhorn jest dyrektorem generalnym i absolwentem Unit 8200, elitarnej grupy high-tech w Izraelskich Siłach Obronnych, odpowiedzialnej za wywiad sygnałowy i deszyfrowanie kodu. Produkty TankU SaaS (Software as a Service) automatyzują i zabezpieczają procesy w złożonych środowiskach zewnętrznych obsługujących pojazdy i kierowców. Produkty te są wykorzystywane przez właścicieli flot pojazdów, samochodów prywatnych, stacji paliw i ładowania elektrycznego w celu zapobiegania kradzieżom i oszustwom w zautomatyzowanych transakcjach finansowych. Usługi paliwowe do pojazdów generują około 2 ton globalnych przychodów rocznie, z czego właściciele prywatnych i komercyjnych flot pojazdów zużywają 40% lub 800 miliardów dolarów. Sprzedawcy detaliczni i właściciele flot tracą ok. 100 mld USD rocznie z powodu kradzieży i oszustw (na przykład korzystania z karty paliwowej floty w przypadku nieautoryzowanych pojazdów prywatnych). Oszustwa CNP (Card not present) i manipulacje/kradzież paliwa to dodatkowe źródła strat, szczególnie w przypadku wykorzystywania skradzionych danych karty w aplikacjach mobilnych do płatności.

REKLAMA

Produkt firmy TUfuel umożliwia bezpieczną płatność jednym dotknięciem, blokuje większość rodzajów oszustw i ostrzega klientów o podejrzeniu oszustwa. Czyni to w oparciu o silnik AI wyszkolony na danych z istniejących CCTV w tych obiektach oraz danych transakcji cyfrowych (w tym danych POS i innych danych zaplecza). Parametry, takie jak trajektoria i dynamika pojazdu, identyfikator pojazdu, czas podróży, przebieg, czas tankowania, ilość paliwa, historia paliwa i zachowanie kierowcy to niektóre atrybuty monitorowane w celu wykrywania oszustw. Dane te pomagają również sprzedawcom detalicznym optymalizować działanie witryny, zwiększać lojalność klientów i wdrażać oparte na wizji narzędzia marketingowe. Według dyrektora generalnego Dana Valdhorna, ich rozwiązanie wykrywa 70% floty, 90% kart kredytowych i 70% przypadków oszustw związanych z manipulacjami.

Sonol to firma świadcząca usługi energetyczne, która jest właścicielem i operatorem sieci 240 stacji i sklepów spożywczych w całym Izraelu. TUfuel jest wdrożony w ich zakładach i wykazuje zwiększone bezpieczeństwo, zapobieganie oszustwom i lojalność klientów. Testy produktów są w toku w Stanach Zjednoczonych we współpracy z wiodącym światowym dostawcą stacji benzynowych i wyposażenia sklepów ogólnospożywczych. Podobne inicjatywy realizowane są również w Afryce i Europie.

REKLAMA

Z Tel Awiwu ITC została założona w 2019 roku przez naukowców zajmujących się uczeniem maszynowym z Uniwersytetu Ben-Guriona. ITC tworzy produkty SaaS, które: „mierzyć przepływ ruchu, przewidywać zatory i łagodzić je poprzez inteligentne manipulowanie sygnalizacją świetlną – zanim zaczną się tworzyć korki”. Podobnie jak TankU, wykorzystuje dane z gotowych kamer (już zainstalowanych na wielu skrzyżowaniach) w celu uzyskania aktualnych danych o ruchu. Analizowane są dane z tysięcy kamer w całym mieście, a parametry, takie jak typ pojazdu, prędkość, kierunek ruchu i sekwencja typów pojazdów (ciężarówki kontra samochody) są wyodrębniane za pomocą zastrzeżonych algorytmów sztucznej inteligencji. Symulacje przewidują natężenie ruchu i potencjalne korki nawet z 30-minutowym wyprzedzeniem. Sygnalizacja świetlna jest dostosowywana na podstawie tych wyników, aby usprawnić przepływ ruchu i zapobiegać korkom.

Szkolenie systemu AI zajmuje jeden miesiąc danych wizualnych w typowym mieście i obejmuje połączenie uczenia nadzorowanego i nienadzorowanego. Rozwiązanie ITC zostało już wdrożone w Tel-Awiwie (miejsce 25. w najbardziej zatłoczonych miastach na świecie w 2020 r.), z tysiącami kamer rozmieszczonych na setkach skrzyżowań kontrolowanych przez sygnalizację świetlną. System ITC zarządza obecnie 75 tys. pojazdów, które mają nadal rosnąć. Firma instaluje podobne możliwości w Luksemburg i rozpoczyna próby w największych miastach USA. Globalnie jego rozwiązanie zarządza 300,000 XNUMX pojazdów z oddziałami w Izraelu, USA, Brazylii i Australii. Dvir Kenig, CTO, z pasją rozwiązuje ten problem – aby dać ludziom z powrotem czas osobisty, zmniejszyć emisję gazów cieplarnianych, zwiększyć ogólną produktywność i, co najważniejsze, zmniejszyć liczbę wypadków na zatłoczonych skrzyżowaniach. Według pana Keniga, „Nasze wdrożenia wykazują 30-procentową redukcję korków, redukując nieproduktywny czas jazdy, stres, zużycie paliwa i zanieczyszczenie”.

REKLAMA

Robotyka wewnętrzna była założony w 2018 i niedawno zebrał 18 mln USD finansowania. Firma, z siedzibą w pobliżu Tel-Avivu w Izraelu, opracowuje i sprzedaje autonomiczne rozwiązania dronów do ochrony wnętrz, bezpieczeństwa i monitorowania konserwacji. Dyrektor generalny i współzałożyciel, Doron Ben-David, ma duże doświadczenie w robotyce i aeronautyce zgromadzone w IAIIAI
(główny główny wykonawca w dziedzinie obronności) i MAFAT (zaawansowana organizacja badawcza w ramach izraelskiego Ministerstwa Obrony), która jest podobna do DARPA w Stanach Zjednoczonych. Rosnące inwestycje w inteligentne budynki i komercyjne rynki zabezpieczeń napędzają zapotrzebowanie na autonomiczne systemy, które mogą wykorzystywać wizję komputerową i inne sygnały sensoryczne w małych i dużych wnętrzach komercyjnych powierzchni (biurach, centrach danych, magazynach i powierzchniach handlowych). Indoor Robotics kieruje się na ten rynek, używając dronów wewnętrznych wyposażonych w gotowe kamery oraz czujniki termiczne i na podczerwień.

Ofir Bar-Levav jest dyrektorem ds. biznesu. Wyjaśnia, że ​​brak GPS utrudnił dronom w pomieszczeniach lokalizowanie się wewnątrz budynków (zazwyczaj brak GPS lub niedokładność). Dodatkowo brakowało wygodnych i wydajnych rozwiązań do dokowania i zasilania. Indoor Robotics rozwiązuje ten problem dzięki czterem kamerom zamontowanym na dronach (góra, dół, lewo, prawo) i prostym czujnikom zasięgu, które dokładnie mapują przestrzeń wewnątrz i jej zawartość. Dane z kamer (kamery dostarczają dane lokalizacyjne i mapujące) oraz czujniki termiczne (również zamontowane na dronie) są analizowane przez system AI w celu wykrycia potencjalnych problemów związanych z bezpieczeństwem, bezpieczeństwem i konserwacją oraz ostrzeżenia klienta. Drony zasilają się przez zamontowaną na suficie „płytkę dokującą”, która oszczędza cenną powierzchnię podłogi i umożliwia zbieranie danych podczas ładowania. Korzyści finansowe wynikające z automatyzacji tych przyziemnych procesów, w których praca ludzka jest złożona i kosztowna pod względem rekrutacji, utrzymania i szkolenia, są oczywiste. Korzystanie z dronów powietrznych w porównaniu z robotami naziemnymi ma również istotne zalety pod względem kosztów kapitałowych i operacyjnych, lepszego wykorzystania powierzchni, swobody poruszania się bez napotykania przeszkód oraz wydajności przechwytywania danych z kamer. Według pana Bar-Levava, do 80 r. TAM (całkowity adresowalny rynek) Indoor Robotics w zakresie inteligentnych systemów bezpieczeństwa wewnętrznego wyniesie 2026 mld USD. Obecnie kluczowe lokalizacje klientów obejmują magazyny, centra danych i kampusy biurowe wiodących światowych korporacji.

REKLAMA


Wizja komputerowa rewolucjonizuje grę o autonomię – w automatyce ruchu, bezpieczeństwie, monitorowaniu inteligentnych budynków, wykrywaniu oszustw i zarządzaniu ruchem. Moc półprzewodników i sztuczna inteligencja to potężne czynniki. Gdy komputery opanują tę niesamowitą modalność sensoryczną w skalowalny sposób, możliwości są nieograniczone.

Źródło: https://www.forbes.com/sites/sabbirrangwala/2022/10/04/advances-in-computer-vision-propel-transportation-autonomy/