Oliver Ewinger :verified: · @ewingo13
327 followers · 761 posts · Server colearn.social

Die Kosmos-1 von Microsoft löst visuelle Rätsel und erklärt Bilder:

soll weiter bildlich dargestellten Text erkennen, visuelle Intelligenztests bestehen und Sprachanweisungen befolgen können.
🌟Das Besondere ist: es ist ein multimodales großes Sprachmodell. Das hat die Fähigkeit Input mehrerer unterschiedlicher Wahrnehmungs- und Darstellungsarten zu erkennen und im Kontext sinngemäß zu erfassen.

Quelle: social.heise.de/@heisedevelope

#ki #kosmos1 #mllm #meinziel23 #artificialintelligence

Last updated 3 years ago

Vladimir Savić · @firusvg
63 followers · 693 posts · Server mastodon.social

Be afraid. Be very afraid. It begins.

's new Kosmos-1 is a Multimodal Large Language Model () that can understand images, text, images with text, OCR, image captioning, visual QA, and even solve IQ tests. It was evaluated on various tasks and datasets, and the team behind the paper has been identified. AlphaSignal's weekly summary is a great way to stay up to date with the latest breakthroughs in . mem.ai/p/BYx42WLVOn9fozYo3GVP

#microsoft #mllm #ai

Last updated 3 years ago