亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

AIGC行業(yè)資訊2年前 (2023)更新 管理員
823 0

LMM將會(huì)全面替代大語(yǔ)言模型?人工智能新里程碑GPT-V美國(guó)預(yù)先公測(cè),醫(yī)療領(lǐng)域/OCR實(shí)踐+166頁(yè)GPT-V試用報(bào)告首發(fā)解讀

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

ChatGPT Vision,亦被廣泛稱(chēng)為GPT-V或GPT-4V,代表了人工智能技術(shù)的新里程碑。作為LMM (Large Multimodal Model)?的代表,它不僅繼承了LLM (Large Language Model) 的文本處理能力,還加入了圖像處理的功能,實(shí)現(xiàn)了文本與圖像的多模態(tài)交互。與傳統(tǒng)的LLM相比,GPT-V更加強(qiáng)大和靈活,能夠更深入地理解和生成與圖像相關(guān)的內(nèi)容。這種進(jìn)化打開(kāi)了無(wú)數(shù)新的應(yīng)用可能性,從圖像描述、創(chuàng)意設(shè)計(jì)到復(fù)雜的圖文結(jié)合任務(wù),GPT-4V都展現(xiàn)出了卓越的性能和廣泛的潛力。

使用方法:GPT-V目前對(duì)于美國(guó)區(qū)ChatGPT Plus賬戶(hù)開(kāi)放。

相關(guān)鏈接ChatGPT can now see, hear, and speak

相關(guān)介紹GPTV_System_Card.pdf

166頁(yè)GPT-V試用報(bào)告Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)

性能:對(duì)于ChatGPT-4,速度比純文本中文prompt慢40%左右。(注意,當(dāng)從GPT4切換到GPT-V后,純文本中文Prompt速度提升了大概200%)

花費(fèi):$20美元一月,限速3小時(shí)25條,尚未開(kāi)放API

調(diào)研版本:10-12 ChatGPT Vision(圖片聊天/GPT多模態(tài)功能)?ChatGPT September 25 Version

本文圖片部分為實(shí)踐(OCR/醫(yī)學(xué)等),部分來(lái)自網(wǎng)絡(luò)(推特/Arxiv試用報(bào)告),題圖由ChatGPT DALL-E 3生成。

本文嘗試從以下案例,對(duì)AI新里程碑LMM進(jìn)行探索

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

TLDR總結(jié)

  1. ChatGPT Vision更偏向于有創(chuàng)造性的圖片理解,而非機(jī)器性細(xì)節(jié)識(shí)別。
  2. ChatGPT Vision試圖以大模型的涌現(xiàn)能力,從高層次理解整個(gè)圖片,將圖片如同文字一般對(duì)待,而非是OCR式的匹配識(shí)別。ChatGPT Vision和OCR的區(qū)別,與語(yǔ)義搜索和關(guān)鍵詞搜索的區(qū)別類(lèi)似。
  3. ChatGPT Vision具有較大幻覺(jué)問(wèn)題,F(xiàn)ew-shot/CoT等Prompting方法也無(wú)法改善這一點(diǎn)(涌現(xiàn)能力不足),說(shuō)明ChatGPT Vision仍處于像當(dāng)年ChatGPT v3一樣的初期階段。預(yù)計(jì)未來(lái)幾年隨著參數(shù)規(guī)模的進(jìn)一步提升,多模態(tài)大模型可能會(huì)復(fù)現(xiàn)文本大模型的發(fā)展路徑。
收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

(圖1:Few-shot方法不能提高GPT-4V獲取儀表板信息的準(zhǔn)確性,紅色代表回答錯(cuò)誤)

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

(圖2:CoT方法不能穩(wěn)定質(zhì)變提高GPT-4V數(shù)蘋(píng)果的準(zhǔn)確性,紅色代表回答錯(cuò)誤,綠色代表正確)

適用場(chǎng)景

  1. 上下文概念性工作,如文章頭圖的自動(dòng)審核初篩、皮膚病的照片輔助篩選,DR/CT照片影像學(xué)診斷,提供HTML alt text等。
  2. 圖片創(chuàng)意性工作,如1.3節(jié) 商品銷(xiāo)售文案生成、商品使用建議生成、商品創(chuàng)意名稱(chēng)生成等。

不適用場(chǎng)景

  1. 有精確性要求的文字工作:如1.1節(jié) 患者診療單等OCR場(chǎng)景。
  2. 主體過(guò)多的復(fù)雜圖片,如1.3節(jié) 前端網(wǎng)頁(yè)代碼復(fù)刻。

有潛力的場(chǎng)景

  1. 清晰圖片/截圖的總結(jié)性工作,包括1.3節(jié) 圖片的復(fù)雜理性/感性分析,如網(wǎng)絡(luò)熱圖解釋、教育場(chǎng)景
  2. 高緯度大模型推理,如1.3節(jié) 辨別電影/景點(diǎn)、客服、氣候分析、設(shè)計(jì)圖/網(wǎng)站設(shè)計(jì)建議等

1.0 基礎(chǔ)功能

多圖片上下文識(shí)別能力

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

(圖3:研究者輸入了多張購(gòu)物賬單小票/菜單圖片,GPT-4V做出了正確回答)

理解圖中標(biāo)識(shí)(如箭頭)和強(qiáng)調(diào)(如紅圈標(biāo)紅)

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

(圖4:對(duì)于使用箭頭/畫(huà)圈標(biāo)識(shí)的圖片,GPT-4V能做出了正確理解和回答)

1.1 OCR功能(幻覺(jué)嚴(yán)重,中文效果差)

中文:電腦截圖(準(zhǔn)確)

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

中文:清晰中文表格圖片(幻覺(jué)嚴(yán)重)

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

中文:有復(fù)雜信息的真實(shí)患者診療單(幻覺(jué)嚴(yán)重)

患者診療單(給GPT的是原圖,以下圖片經(jīng)過(guò)二次處理模糊了患者信息)

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

英文:準(zhǔn)確:強(qiáng)對(duì)比度、輕微鏡頭畸變、中等像素噪聲圖片

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

阿拉伯語(yǔ):部分準(zhǔn)確:手寫(xiě)體轉(zhuǎn)譯英文

muin on X: “GPT-4V will be able to transcribe and translate manuscripts and texts. I am excited to try out Arabic manuscripts to see how well it does. It does a phenomenal job with transcription even better than most humans.?https://t.co/K6y6WffLvz” / X

1.2 醫(yī)學(xué)診斷(高準(zhǔn)確率)

肺部X光:肺炎判斷(準(zhǔn)確)

圖像來(lái)源:GitHub – linhandev/dataset: 醫(yī)學(xué)影像數(shù)據(jù)集列表 『An Index for Medical Imaging Datasets』https://github.com/linhandev/dataset?https://www.kaggle.com/datasets/nih-chest-xrays/data#:~:text=Class%20descriptions,Hernia

圖片輸入

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

GPT-V判別結(jié)果:(肺炎, 0.7

1.肺炎:

?置信度: 0.7

?原因: X光片上下肺區(qū)的密度增加可能提示肺炎的存在,但根據(jù)圖片無(wú)法明確確定。

2.肺水腫:

?置信度: 0.6

?原因: 下肺區(qū)的密度增加可能與液體積聚有關(guān),如心力衰竭導(dǎo)致的肺水腫。

3.間質(zhì)性肺病:

?置信度: 0.5

?原因: 有一些間質(zhì)改變的跡象,但需要與先前的影像進(jìn)行比較。

4.支氣管炎:

?置信度: 0.4

?原因: 慢性支氣管炎可能導(dǎo)致一些觀(guān)察到的不透明度。

5.結(jié)核病:

?置信度: 0.3

?原因: 盡管結(jié)核病可表現(xiàn)為不透明和可能的固實(shí)化,但該圖像并不強(qiáng)烈地表現(xiàn)出結(jié)核病的典型特征。

6.肺癌:

?置信度: 0.2

?原因: 雖然沒(méi)有明確的結(jié)節(jié)或腫塊,但由于X光在顯示其他結(jié)構(gòu)后面的小結(jié)節(jié)時(shí)的局限性,肺癌不能完全排除。

皮膚病:黑色素瘤判斷(部分準(zhǔn)確)

數(shù)據(jù)源:ISIC Archive

https://gallery.isic-archive.com/#!/topWithHeader/onlyHeaderTop/gallery?filter=[]

圖片輸入

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

GPT-V判別結(jié)果(常見(jiàn)痣 0.6,黑色素瘤 0.3

  1. 黑色素細(xì)胞痣?(常見(jiàn)痣)

? 信心分?jǐn)?shù): 0.6

? 原因: 該皮損表現(xiàn)出與常見(jiàn)痣相似的特征,中央有深色區(qū)域。50歲左右的人群中很常見(jiàn)。

  1. 老年性角化病

? 信心分?jǐn)?shù): 0.4

? 原因: 老年性角化病是老年人中常見(jiàn)的非癌性皮膚生長(zhǎng),顏色可能會(huì)有所不同。

  1. 異型痣

? 信心分?jǐn)?shù): 0.5

? 原因: 這類(lèi)痣與常見(jiàn)痣有所不同,通常較大。鑒于大小 (1.4mm) 和位置 (下肢),需要考慮此診斷。

  1. 黑色素瘤

? 信心分?jǐn)?shù): 0.3

? 原因: 黑色素瘤是一種皮膚癌,雖然所提供的圖像有可能與黑色素瘤一致的特征,但需要皮膚科醫(yī)生進(jìn)行全面評(píng)估才能確診。

  1. 基底細(xì)胞癌

? 信心分?jǐn)?shù): 0.2

? 原因: 它是最常見(jiàn)的皮膚癌形式,但所提供的圖像沒(méi)有基底細(xì)胞癌的典型跡象。但鑒于患者的年齡,仍需考慮。

  1. 血管瘤

? 信心分?jǐn)?shù): 0.2

? 原因: 血管瘤是由血管組成的良性腫瘤。圖像中的紅色可能暗示這一點(diǎn),但從整體外觀(guān)看,可能性較小。

老年疣(0.7)

數(shù)據(jù)源:ISIC Archive

圖片輸入

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

GPT-V判別結(jié)果(老年疣 0.7)

  1. 老年疣 – 置信度:0.7
  2. 黑色素痣 – 置信度:0.5
  3. 基底細(xì)胞癌 – 置信度:0.4
  4. 日光角化癥 – 置信度:0.4
  5. 鱗狀細(xì)胞癌 – 置信度:0.3

該圖像顯示了皮膚的放大視圖,老年疣在頭部和頸部區(qū)域較為常見(jiàn),且經(jīng)常出現(xiàn)在中老年人群中,因此我給予了較高的置信度。

其他腦部/胸部X光診斷(高準(zhǔn)確率)

(綠色代表正確,紅色代表錯(cuò)誤,黃色代表幻覺(jué))

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

1.3 高緯度識(shí)別能力(高質(zhì)量,雖有幻覺(jué)問(wèn)題)

大眾點(diǎn)評(píng)/小紅書(shū)文案

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

商品使用建議(左),商品銷(xiāo)售文案(右)

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

車(chē)禍車(chē)輛識(shí)別

紅色代表錯(cuò)誤

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

理解流程圖

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

解釋笑話(huà)

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

商品新穎命名

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

電路圖描述

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

地標(biāo)描述

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

菜譜生成

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

分析球類(lèi)運(yùn)動(dòng)局勢(shì)/運(yùn)動(dòng)員姿勢(shì)(存在幻覺(jué))

Abran Maldonado on X: “One of my favorite demos I tested out, in honor of football season, ChatGPT Vision will forever change coaching and sports analytics. Whether i build it or not, ChatGPT for coaching will be on every sideline in the league. Mark my words.?https://t.co/uUYhsKpEGh” / X

幻覺(jué)(該運(yùn)動(dòng)員使用的是反手Backhand,而非正手forehand):

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

識(shí)別電影/相機(jī)/景點(diǎn)等

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

給予用戶(hù)產(chǎn)品安裝/攝像等的建議和幫助

X: “ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms).?https://t.co/uNZjgbR5Bm?https://t.co/paG0hMshXb” / X

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

輔導(dǎo)撲克(存在幻覺(jué))

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

網(wǎng)頁(yè)截圖到HTML代碼(理解不足)

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

結(jié)果:

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

白板骨架到前端項(xiàng)目

Mckay Wrigley on X: “You can give ChatGPT a picture of your team’s whiteboarding session and have it write the code for you. This is absolutely insane.?https://t.co/bGWT5bU8MK” / X

https://twitter.com/mckaywrigley/status/1707101465922453701

清晰圖片的復(fù)雜理性/感性分析

Pietro Schirano on X: “This is absolutely wild. I am completely speechless.?https://t.co/wGTAx1hFgS” / X

https://twitter.com/skirano/status/1706874309124194707?

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

Mckay Wrigley on X: “ChatGPT breaks down this diagram of a human cell for a 9th grader. This is the future of education.?https://t.co/L0Za0ZB5rs” / X

主體多的復(fù)雜圖片的復(fù)雜理性分析

Alex Northstar on X: “Thanks ChatGPT, that can read & understand better than humans!?https://t.co/TgVSuHgf8j” / X

https://twitter.com/NorthstarBrain/status/1707668600281063514

1.4 不足與風(fēng)險(xiǎn)

圖片(含人眼不可見(jiàn)文字)的注入風(fēng)險(xiǎn)

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

(圖中,用戶(hù)以不可見(jiàn)的淺色字添加了Sephora化妝品促銷(xiāo)水印,人眼無(wú)法察覺(jué),但GPT-V可感知)

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

(圖中,用戶(hù)以不可見(jiàn)的淺色字使GPT-4V一定對(duì)這份簡(jiǎn)歷會(huì)給出雇傭建議)

不能使用于人臉識(shí)別

當(dāng) GPT-4 在2023年3月首次發(fā)布時(shí),GPT-4V面部識(shí)別功能可能存在安全和隱私問(wèn)題,因此 GPT-4V(具備視覺(jué)功能的 GPT-4)被暫緩發(fā)布。

在早期的模型中,用戶(hù)本可以理論上上傳人物照片,并要求識(shí)別他們,這顯然是對(duì)隱私的侵犯。根據(jù)技術(shù)論文,GPT-4V(為 ChatGPT Vision 提供支持)現(xiàn)在拒絕此類(lèi)請(qǐng)求的時(shí)間達(dá)到了98%。

收藏!36種場(chǎng)景分析多模態(tài)GPT-4Vision能力,LMM是什么?會(huì)全面替代大語(yǔ)言模型嗎?

GPT-4V(ision) technical work and authors

作者:京東健康 李卓倫

來(lái)源:京東云開(kāi)發(fā)者社區(qū) 轉(zhuǎn)載請(qǐng)注明來(lái)源

? 版權(quán)聲明

相關(guān)文章