CoDi на Microsoft обработува и генерира текст, слики, видео и аудио

Истражувачите на Мајкрософт го презентираа CoDi

Composable Diffusion (CoDi) е претставена од проектот i-Code на Microsoft, кој има за цел да развие интегративна и компонирачка мултимедиална AI. Тоа е мултимедиален модел на AI кој може истовремено да обработува и генерира содржина преку повеќе модeлитети, вклучувајќи текст, слики, видео и аудио. Овој модел се разликува од традиционалните генеративни системи за АI, кои се ограничени на специфични влезни модeлитети.

Бидејќи збирките на податоци за обука се ретки за повеќето денешни комбинации на модалитет, истражувачите користеа стратегија за усогласување што одговара на модeлитетите и во влезниот и во излезниот простор. Како резултат на тоа, CoDi може слободно да условува каква било комбинација на влезови и да генерира какви било модeлитети, дури и оние кои не се присутни во податоците за обуката.

Предизвици во развојот на мултимедиална AI

CoDi обезбедува решение за често незгодниот и бавен процес на комбинирање на генеративни модели специфични за модeлитет. Овој нов модел користи уникатна стратегија за генерирање на компонирање што го премостува усогласувањето во процесот на дифузија и го олеснува синхронизираното генерирање на испреплетени модeлитети, како што се привремено порамнетите видео и аудио. Процесот на обука на CoDi е исто така карактеристичен. Тоj вклучува проектирање на влезни модeлитети како што се слики, видео, аудио и јазик во заеднички семантички простор. Ова овозможува флексибилна обработка на мултимодeлни влезови, а со модул за вкрстено внимание и енкодер за околина, тој е способен да генерира која било комбинација на излезни модeлитети истовремено.

Развојот на CoDi отвора нови можности за апликации во реалниот свет и претставува значаен чекор кон подобрување и попривлечни интеракции човек-компјутер.

Најдобри таблети за графички дизајн

AI AI technology future Machine learning solutions технологија