亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

收藏！36種場(chǎng)景分析多模態(tài)GPT-4Vision能力，LMM是什么？會(huì)全面替代大語(yǔ)言模型嗎？

AIGC行業(yè)資訊2年前 (2023)更新管理員

LMM將會(huì)全面替代大語(yǔ)言模型？人工智能新里程碑GPT-V美國(guó)預(yù)先公測(cè)，醫(yī)療領(lǐng)域/OCR實(shí)踐+166頁(yè)GPT-V試用報(bào)告首發(fā)解讀

收藏！36種場(chǎng)景分析多模態(tài)GPT-4Vision能力，LMM是什么？會(huì)全面替代大語(yǔ)言模型嗎？

ChatGPT Vision，亦被廣泛稱(chēng)為GPT-V或GPT-4V，代表了人工智能技術(shù)的新里程碑。作為LMM (Large Multimodal Model)?的代表，它不僅繼承了LLM (Large Language Model) 的文本處理能力，還加入了圖像處理的功能，實(shí)現(xiàn)了文本與圖像的多模態(tài)交互。與傳統(tǒng)的LLM相比，GPT-V更加強(qiáng)大和靈活，能夠更深入地理解和生成與圖像相關(guān)的內(nèi)容。這種進(jìn)化打開(kāi)了無(wú)數(shù)新的應(yīng)用可能性，從圖像描述、創(chuàng)意設(shè)計(jì)到復(fù)雜的圖文結(jié)合任務(wù)，GPT-4V都展現(xiàn)出了卓越的性能和廣泛的潛力。

使用方法：GPT-V目前對(duì)于美國(guó)區(qū)ChatGPT Plus賬戶(hù)開(kāi)放。

相關(guān)鏈接：ChatGPT can now see, hear, and speak

相關(guān)介紹：GPTV_System_Card.pdf

166頁(yè)GPT-V試用報(bào)告：Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)

性能：對(duì)于ChatGPT-4，速度比純文本中文prompt慢40%左右。（注意，當(dāng)從GPT4切換到GPT-V后，純文本中文Prompt速度提升了大概200%）

花費(fèi)：$20美元一月，限速3小時(shí)25條，尚未開(kāi)放API

調(diào)研版本：10-12 ChatGPT Vision（圖片聊天/GPT多模態(tài)功能）?ChatGPT September 25 Version

本文圖片部分為實(shí)踐（OCR/醫(yī)學(xué)等），部分來(lái)自網(wǎng)絡(luò)（推特/Arxiv試用報(bào)告），題圖由ChatGPT DALL-E 3生成。

本文嘗試從以下案例，對(duì)AI新里程碑LMM進(jìn)行探索：

TLDR總結(jié)：

ChatGPT Vision更偏向于有創(chuàng)造性的圖片理解，而非機(jī)器性細(xì)節(jié)識(shí)別。
ChatGPT Vision試圖以大模型的涌現(xiàn)能力，從高層次理解整個(gè)圖片，將圖片如同文字一般對(duì)待，而非是OCR式的匹配識(shí)別。ChatGPT Vision和OCR的區(qū)別，與語(yǔ)義搜索和關(guān)鍵詞搜索的區(qū)別類(lèi)似。
ChatGPT Vision具有較大幻覺(jué)問(wèn)題，F(xiàn)ew-shot/CoT等Prompting方法也無(wú)法改善這一點(diǎn)（涌現(xiàn)能力不足），說(shuō)明ChatGPT Vision仍處于像當(dāng)年ChatGPT v3一樣的初期階段。預(yù)計(jì)未來(lái)幾年隨著參數(shù)規(guī)模的進(jìn)一步提升，多模態(tài)大模型可能會(huì)復(fù)現(xiàn)文本大模型的發(fā)展路徑。

（圖1：Few-shot方法不能提高GPT-4V獲取儀表板信息的準(zhǔn)確性，紅色代表回答錯(cuò)誤）

（圖2：CoT方法不能穩(wěn)定質(zhì)變提高GPT-4V數(shù)蘋(píng)果的準(zhǔn)確性，紅色代表回答錯(cuò)誤，綠色代表正確）

適用場(chǎng)景：

上下文概念性工作，如文章頭圖的自動(dòng)審核初篩、皮膚病的照片輔助篩選，DR/CT照片影像學(xué)診斷，提供HTML alt text等。
圖片創(chuàng)意性工作，如1.3節(jié) 商品銷(xiāo)售文案生成、商品使用建議生成、商品創(chuàng)意名稱(chēng)生成等。

不適用場(chǎng)景：

有精確性要求的文字工作：如1.1節(jié) 患者診療單等OCR場(chǎng)景。
主體過(guò)多的復(fù)雜圖片，如1.3節(jié) 前端網(wǎng)頁(yè)代碼復(fù)刻。

有潛力的場(chǎng)景：

清晰圖片/截圖的總結(jié)性工作，包括1.3節(jié) 圖片的復(fù)雜理性/感性分析，如網(wǎng)絡(luò)熱圖解釋、教育場(chǎng)景
高緯度大模型推理，如1.3節(jié) 辨別電影/景點(diǎn)、客服、氣候分析、設(shè)計(jì)圖/網(wǎng)站設(shè)計(jì)建議等

1.0 基礎(chǔ)功能

多圖片上下文識(shí)別能力

（圖3：研究者輸入了多張購(gòu)物賬單小票/菜單圖片，GPT-4V做出了正確回答）

理解圖中標(biāo)識(shí)（如箭頭）和強(qiáng)調(diào)（如紅圈標(biāo)紅）

（圖4：對(duì)于使用箭頭/畫(huà)圈標(biāo)識(shí)的圖片，GPT-4V能做出了正確理解和回答）

1.1 OCR功能（幻覺(jué)嚴(yán)重，中文效果差）

中文：電腦截圖（準(zhǔn)確）

中文：清晰中文表格圖片（幻覺(jué)嚴(yán)重）

中文：有復(fù)雜信息的真實(shí)患者診療單（幻覺(jué)嚴(yán)重）

患者診療單（給GPT的是原圖，以下圖片經(jīng)過(guò)二次處理模糊了患者信息）

英文：準(zhǔn)確：強(qiáng)對(duì)比度、輕微鏡頭畸變、中等像素噪聲圖片

阿拉伯語(yǔ)：部分準(zhǔn)確：手寫(xiě)體轉(zhuǎn)譯英文

muin on X: “GPT-4V will be able to transcribe and translate manuscripts and texts. I am excited to try out Arabic manuscripts to see how well it does. It does a phenomenal job with transcription even better than most humans.?https://t.co/K6y6WffLvz” / X

1.2 醫(yī)學(xué)診斷（高準(zhǔn)確率）

肺部X光：肺炎判斷（準(zhǔn)確）

圖像來(lái)源：GitHub – linhandev/dataset: 醫(yī)學(xué)影像數(shù)據(jù)集列表『An Index for Medical Imaging Datasets』https://github.com/linhandev/dataset?https://www.kaggle.com/datasets/nih-chest-xrays/data#:~:text=Class%20descriptions,Hernia

圖片輸入

GPT-V判別結(jié)果：（肺炎, 0.7）

1.肺炎:

?置信度: 0.7

?原因: X光片上下肺區(qū)的密度增加可能提示肺炎的存在，但根據(jù)圖片無(wú)法明確確定。

2.肺水腫:

?置信度: 0.6

?原因: 下肺區(qū)的密度增加可能與液體積聚有關(guān)，如心力衰竭導(dǎo)致的肺水腫。

3.間質(zhì)性肺病:

?置信度: 0.5

?原因: 有一些間質(zhì)改變的跡象，但需要與先前的影像進(jìn)行比較。

4.支氣管炎:

?置信度: 0.4

?原因: 慢性支氣管炎可能導(dǎo)致一些觀(guān)察到的不透明度。

5.結(jié)核病:

?置信度: 0.3

?原因: 盡管結(jié)核病可表現(xiàn)為不透明和可能的固實(shí)化，但該圖像并不強(qiáng)烈地表現(xiàn)出結(jié)核病的典型特征。

6.肺癌:

?置信度: 0.2

?原因: 雖然沒(méi)有明確的結(jié)節(jié)或腫塊，但由于X光在顯示其他結(jié)構(gòu)后面的小結(jié)節(jié)時(shí)的局限性，肺癌不能完全排除。

皮膚病：黑色素瘤判斷（部分準(zhǔn)確）

數(shù)據(jù)源：ISIC Archive

https://gallery.isic-archive.com/#!/topWithHeader/onlyHeaderTop/gallery?filter=[]

圖片輸入

GPT-V判別結(jié)果（常見(jiàn)痣 0.6，黑色素瘤 0.3）

黑色素細(xì)胞痣?(常見(jiàn)痣)

? 信心分?jǐn)?shù): 0.6

? 原因: 該皮損表現(xiàn)出與常見(jiàn)痣相似的特征，中央有深色區(qū)域。50歲左右的人群中很常見(jiàn)。

老年性角化病

? 信心分?jǐn)?shù): 0.4

? 原因: 老年性角化病是老年人中常見(jiàn)的非癌性皮膚生長(zhǎng)，顏色可能會(huì)有所不同。

異型痣

? 信心分?jǐn)?shù): 0.5

? 原因: 這類(lèi)痣與常見(jiàn)痣有所不同，通常較大。鑒于大小 (1.4mm) 和位置 (下肢)，需要考慮此診斷。

黑色素瘤

? 信心分?jǐn)?shù): 0.3

? 原因: 黑色素瘤是一種皮膚癌，雖然所提供的圖像有可能與黑色素瘤一致的特征，但需要皮膚科醫(yī)生進(jìn)行全面評(píng)估才能確診。

基底細(xì)胞癌

? 信心分?jǐn)?shù): 0.2

? 原因: 它是最常見(jiàn)的皮膚癌形式，但所提供的圖像沒(méi)有基底細(xì)胞癌的典型跡象。但鑒于患者的年齡，仍需考慮。

血管瘤

? 信心分?jǐn)?shù): 0.2

? 原因: 血管瘤是由血管組成的良性腫瘤。圖像中的紅色可能暗示這一點(diǎn)，但從整體外觀(guān)看，可能性較小。

老年疣（0.7）

數(shù)據(jù)源：ISIC Archive

圖片輸入

GPT-V判別結(jié)果（老年疣 0.7）

老年疣 – 置信度：0.7
黑色素痣 – 置信度：0.5
基底細(xì)胞癌 – 置信度：0.4
日光角化癥 – 置信度：0.4
鱗狀細(xì)胞癌 – 置信度：0.3

該圖像顯示了皮膚的放大視圖，老年疣在頭部和頸部區(qū)域較為常見(jiàn)，且經(jīng)常出現(xiàn)在中老年人群中，因此我給予了較高的置信度。

其他腦部/胸部X光診斷（高準(zhǔn)確率）

（綠色代表正確，紅色代表錯(cuò)誤，黃色代表幻覺(jué)）

1.3 高緯度識(shí)別能力（高質(zhì)量，雖有幻覺(jué)問(wèn)題）

大眾點(diǎn)評(píng)/小紅書(shū)文案

商品使用建議（左），商品銷(xiāo)售文案（右）

車(chē)禍車(chē)輛識(shí)別

紅色代表錯(cuò)誤

理解流程圖

解釋笑話(huà)

商品新穎命名

電路圖描述

地標(biāo)描述

菜譜生成

分析球類(lèi)運(yùn)動(dòng)局勢(shì)/運(yùn)動(dòng)員姿勢(shì)（存在幻覺(jué)）

Abran Maldonado on X: “One of my favorite demos I tested out, in honor of football season, ChatGPT Vision will forever change coaching and sports analytics. Whether i build it or not, ChatGPT for coaching will be on every sideline in the league. Mark my words.?https://t.co/uUYhsKpEGh” / X

幻覺(jué)（該運(yùn)動(dòng)員使用的是反手Backhand，而非正手forehand）：

識(shí)別電影/相機(jī)/景點(diǎn)等

給予用戶(hù)產(chǎn)品安裝/攝像等的建議和幫助

X: “ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms).?https://t.co/uNZjgbR5Bm?https://t.co/paG0hMshXb” / X

輔導(dǎo)撲克（存在幻覺(jué)）

網(wǎng)頁(yè)截圖到HTML代碼（理解不足）

結(jié)果：

白板骨架到前端項(xiàng)目

Mckay Wrigley on X: “You can give ChatGPT a picture of your team’s whiteboarding session and have it write the code for you. This is absolutely insane.?https://t.co/bGWT5bU8MK” / X

https://twitter.com/mckaywrigley/status/1707101465922453701

清晰圖片的復(fù)雜理性/感性分析

Pietro Schirano on X: “This is absolutely wild. I am completely speechless.?https://t.co/wGTAx1hFgS” / X

https://twitter.com/skirano/status/1706874309124194707?

Mckay Wrigley on X: “ChatGPT breaks down this diagram of a human cell for a 9th grader. This is the future of education.?https://t.co/L0Za0ZB5rs” / X

主體多的復(fù)雜圖片的復(fù)雜理性分析

Alex Northstar on X: “Thanks ChatGPT, that can read & understand better than humans!?https://t.co/TgVSuHgf8j” / X

https://twitter.com/NorthstarBrain/status/1707668600281063514

1.4 不足與風(fēng)險(xiǎn)

圖片（含人眼不可見(jiàn)文字）的注入風(fēng)險(xiǎn)

（圖中，用戶(hù)以不可見(jiàn)的淺色字添加了Sephora化妝品促銷(xiāo)水印，人眼無(wú)法察覺(jué)，但GPT-V可感知）

（圖中，用戶(hù)以不可見(jiàn)的淺色字使GPT-4V一定對(duì)這份簡(jiǎn)歷會(huì)給出雇傭建議）

不能使用于人臉識(shí)別

當(dāng) GPT-4 在2023年3月首次發(fā)布時(shí)，GPT-4V面部識(shí)別功能可能存在安全和隱私問(wèn)題，因此 GPT-4V（具備視覺(jué)功能的 GPT-4）被暫緩發(fā)布。

在早期的模型中，用戶(hù)本可以理論上上傳人物照片，并要求識(shí)別他們，這顯然是對(duì)隱私的侵犯。根據(jù)技術(shù)論文，GPT-4V（為 ChatGPT Vision 提供支持）現(xiàn)在拒絕此類(lèi)請(qǐng)求的時(shí)間達(dá)到了98%。

GPT-4V(ision) technical work and authors

作者：京東健康李卓倫

來(lái)源：京東云開(kāi)發(fā)者社區(qū) 轉(zhuǎn)載請(qǐng)注明來(lái)源

# AIGC行業(yè)資訊 # AI # ChatGPT # GPT # GPT-4 # LLM # prompt # 京東云 # 人工智能 # 健康 # 圖片 # 大模型 # 客服 # 開(kāi)發(fā)者 # 文字 # 網(wǎng)頁(yè)# 蘋(píng)果 # 論文 # 銷(xiāo)售

? 版權(quán)聲明

本文轉(zhuǎn)載自互聯(lián)網(wǎng)、僅供學(xué)習(xí)交流，內(nèi)容版權(quán)歸原作者所有，如涉作品、版權(quán)或其它疑問(wèn)請(qǐng)聯(lián)系AIGC工具導(dǎo)航或點(diǎn)擊刪除。

亚洲av无码成h人动漫无遮挡,特级欧美aaaaaaa免费观看,丝袜制服av熟女♀,亚洲avav天堂av在线网阿v,少妇人妻真实偷人精品视频

收藏！36種場(chǎng)景分析多模態(tài)GPT-4Vision能力，LMM是什么？會(huì)全面替代大語(yǔ)言模型嗎？

1.0 基礎(chǔ)功能

多圖片上下文識(shí)別能力

理解圖中標(biāo)識(shí)（如箭頭）和強(qiáng)調(diào)（如紅圈標(biāo)紅）

1.1 OCR功能（幻覺(jué)嚴(yán)重，中文效果差）

中文：電腦截圖（準(zhǔn)確）

中文：清晰中文表格圖片（幻覺(jué)嚴(yán)重）

中文：有復(fù)雜信息的真實(shí)患者診療單（幻覺(jué)嚴(yán)重）

英文：準(zhǔn)確：強(qiáng)對(duì)比度、輕微鏡頭畸變、中等像素噪聲圖片

阿拉伯語(yǔ)：部分準(zhǔn)確：手寫(xiě)體轉(zhuǎn)譯英文

1.2 醫(yī)學(xué)診斷（高準(zhǔn)確率）

肺部X光：肺炎判斷（準(zhǔn)確）

圖片輸入

GPT-V判別結(jié)果：（肺炎, 0.7）

皮膚病：黑色素瘤判斷（部分準(zhǔn)確）

圖片輸入

GPT-V判別結(jié)果（常見(jiàn)痣 0.6，黑色素瘤 0.3）

老年疣（0.7）

圖片輸入

GPT-V判別結(jié)果（老年疣 0.7）

其他腦部/胸部X光診斷（高準(zhǔn)確率）

1.3 高緯度識(shí)別能力（高質(zhì)量，雖有幻覺(jué)問(wèn)題）

大眾點(diǎn)評(píng)/小紅書(shū)文案

商品使用建議（左），商品銷(xiāo)售文案（右）

車(chē)禍車(chē)輛識(shí)別

理解流程圖

解釋笑話(huà)

商品新穎命名

電路圖描述

地標(biāo)描述

菜譜生成

分析球類(lèi)運(yùn)動(dòng)局勢(shì)/運(yùn)動(dòng)員姿勢(shì)（存在幻覺(jué)）

識(shí)別電影/相機(jī)/景點(diǎn)等

給予用戶(hù)產(chǎn)品安裝/攝像等的建議和幫助

輔導(dǎo)撲克（存在幻覺(jué)）

網(wǎng)頁(yè)截圖到HTML代碼（理解不足）

白板骨架到前端項(xiàng)目

清晰圖片的復(fù)雜理性/感性分析

主體多的復(fù)雜圖片的復(fù)雜理性分析

1.4 不足與風(fēng)險(xiǎn)

圖片（含人眼不可見(jiàn)文字）的注入風(fēng)險(xiǎn)

不能使用于人臉識(shí)別

誰(shuí)可能成為多模態(tài)大模型的眼睛，下一代換機(jī)潮如何開(kāi)展？

生成式AI+電商、親子AIoT、柔性定制玩具、AI新硬件正在到來(lái) | 2023 WEB3.0 AIGC高峰論壇

相關(guān)文章

領(lǐng)新人體驗(yàn)大禮包

熱門(mén)文章

熱門(mén)網(wǎng)址

收藏！36種場(chǎng)景分析多模態(tài)GPT-4Vision能力，LMM是什么？會(huì)全面替代大語(yǔ)言模型嗎？

英文：準(zhǔn)確：強(qiáng)對(duì)比度、輕微鏡頭畸變、中等像素噪聲圖片

GPT-V判別結(jié)果（常見(jiàn)痣 0.6，黑色素瘤 0.3）

1.3 高緯度識(shí)別能力（高質(zhì)量，雖有幻覺(jué)問(wèn)題）

商品使用建議（左），商品銷(xiāo)售文案（右）

誰(shuí)可能成為多模態(tài)大模型的眼睛，下一代換機(jī)潮如何開(kāi)展？

生成式AI+電商、親子AIoT、柔性定制玩具、AI新硬件正在到來(lái) | 2023 WEB3.0 AIGC高峰論壇