Generatory obrazów AI narodziły się z połączenia dwóch odrębnych technologii. Jednym z nich to sieci neuronowe deep learning, które mogły generować spójne, realistyczne obrazy, a druga technologia to model języka naturalnego, który mógł służyć jako interfejs do silnika obrazu. Oba zostały połączone w generator obrazów. Naukowcy przeszukali Internet w poszukiwaniu wszystkich obrazów, które miały przylegający tekst, taki jak podpisy, i wykorzystali miliardy tych przykładów, aby połączyć formy wizualne ze słowami, a słowa z formami. Dzięki tej nowej kombinacji użytkownicy mogli wprowadzić ciąg słów (monit), który opisywał poszukiwany obraz, a monit generowałby obraz na podstawie tych słów.
Sztuczna inteligencja generator obrazów jest zasadniczo narzędziem, które wykorzystuje uczenie maszynowe do tworzenia sztuki. W najprostszej formie użyje ciągów słów, aby opisać rodzaj grafiki, którą chcesz stworzyć, a następnie zrobi wszystko, co w jej mocy, aby zrobić to za Ciebie. Niektóre narzędzia zawierają dodatkowe style i parametry do swoich generatorów, aby wyniki były bardziej unikalne.
Naukowcy pracujący obecnie w Google wynaleźli modele obliczeniowe, które są dziś podstawą generatorów obrazów, ale ich nie upublicznili. To nie przypadek, że obecnie trzy najpopularniejsze platformy generatorów obrazów to trzy startupy, które nie mają prawa do ochrony.
Midjourney to start-up uruchomiony przez Davida Holza, który oparł generator na powstającej społeczności artystów. Wszystkie prace i podpowiedzi były upubliczniane od samego początku. DALL-E to produkt drugiej generacji non-profit OpenAI, finansowany przez Elona Muska i innych. Stable Diffusion pojawiło się na scenie w sierpniu 2022 roku, stworzone przez Emada Mostaque, europejskiego przedsiębiorcę. Jest to projekt typu open source, z dodatkową korzyścią polegającą na tym, że każdy może pobrać jego oprogramowanie i uruchomić je lokalnie na własnym komputerze.
Ta nowa sztuka plasuje się gdzieś pomiędzy malarstwem a fotografią. Żyje w przestrzeni możliwości tak wielkiej jak malarstwo i rysunek – tak ogromnej jak ludzka wyobraźnia. Poprawiając podpowiedzi, możesz dotrzeć do miejsca, którego nikt wcześniej nie odwiedził, więc powoli eksploruj ten obszar, robiąc migawki po drodze. Terytorium może być tematem, nastrojem lub stylem i może warto do niego wrócić. Sztuka polega na znalezieniu nowego obszaru i ustawieniu się tam, wyćwiczeniu dobrego smaku i uważnego spojrzenia na to, co uchwycisz. Kiedy po raz pierwszy pojawiła się fotografia, wydawało się, że fotograf musi tylko nacisnąć przycisk. Podobnie wydaje się, że wszystko, co człowiek musi zrobić, aby uzyskać wspaniały obraz AI, to nacisnąć przycisk. W obu przypadkach otrzymasz obraz. Ale zdobycie świetnego – prawdziwie artystycznego – cóż, to inna sprawa.
*na podstawie https://michaelhoweely.com/2022/08/16/comparing-craiyon-dall-e-2-and-midjourney
DALL-E 2 jest uważany za jedno z najlepszych narzędzi do generowania obrazów przez sztuczną inteligencję. Narzędzie zawiera szereg opcji, które pozwalają użytkownikom, od początkujących po ekspertów, znaleźć swoją niszę dzięki generatorowi tekstu na obraz. Zawiera również funkcje, które pozwalają skalować obrazy w górę lub w dół bez utraty jakości, oraz specjalne narzędzia programistyczne, które zapewniają, że kreacje są unikalne dla artysty.
Oryginalna iteracja DALL-E była dostępna tylko na zaproszenie ze względu na zapotrzebowanie klientów. Twórcy narzędzia, OpenAI, twierdzą, że obsługuje ono ponad 1,5 miliona aktywnych użytkowników, którzy codziennie tworzą około 2 milionów obrazów.
Od końca września DALL-E 2 jest teraz dostępny dla publiczności, aby zarejestrować się za darmo, ale pod pewnymi zastrzeżeniami.
Craiyon to generator obrazów AI, który ma wersję strony internetowej, a także wersję aplikacji, która jest dostępna na urządzenia z systemem Android w sklepie Google Play. Wcześniej znana jako DALL-E mini, ta bezpłatna usługa działa w podobny sposób, jak jej płatny odpowiednik.
Midjourney AI jest generatorem obrazów, które powstają na podstawie tworzonych przez użytkownika słów. Algorytm jest w stanie przetworzyć cały opis.
Odpowiedzialnymi za program są inżynierowie z niezależnego laboratorium badawczego prowadzonego przez Davida Holza, współzałożyciela LeapMotion. W ramach modelu biznesowego freemium program jest obecnie w fazie otwartej bety i można go znaleźć na Discordzie.
Inne znane generatory AI obrazu to m.in.: Jasper.ai, Photosonic, StarryAI, Nightcafe, Artbreeder, Dream by Wombo, Stable Diffusion, Deep Dream Generator.
Można zobaczyć gołym okiem, że każdy program do generowania obrazów z tekstu, ma swoją własną estetykę.
Zamiast bać się sztucznej inteligencji, lepiej jest myśleć o tym, czego nas uczy. Najważniejszą rzeczą, której uczą nas generatory obrazów AI, jest to, że kreatywność nie jest jakąś nadprzyrodzoną siłą. Jest to coś, co można zsyntetyzować, wzmocnić i zmanipulować. Okazuje się, że wcale nie musieliśmy osiągnąć inteligencji, aby wykluć kreatywność. Kreatywność jest bardziej elementarna niż myśleliśmy. Jest niezależna od świadomości. Możemy generować kreatywność w sieciach neuronowych głębokiego uczenia. Ogromne dane i algorytmy rozpoznawania wzorców wydają się wystarczające do zaprojektowania procesu, który będzie nas zaskakiwał i pomagał bez przerwy.