查看: 914|回覆: 0

[AI 應用] DeepSeek-OCR 釋出！把文字當成圖像處理，幫助 AI 理解更長脈絡 [複製連結]

無人島

座天使(七級)

Rank: 10

狀態︰離線

電梯直達

1樓

發表於 5 天前 |只看該作者 |倒序瀏覽 | 被感謝次數

x 1

中國 DeepSeek（深度求索）釋出「DeepSeek-OCR」，這是一款以大型語言模型為中心的角度研究視覺編碼器作用的模型，目的在於以語言模型壓縮基於圖像的文字文件，讓 AI 處理更長的上下文脈絡不會受到記憶體限制。

DeepSeek 介紹最新 DeepSeek-OCR，主要概念是把文字當成圖像來處理，所需的運算量可比直接處理文字更少。根據 DeepSeek 論文所述，DeepSeek-OCR 可將原始文字內容壓縮 10 倍，同時保留 97% 準確率。

OCR（Optical Character Recognition，光學字元辨識）是將印刷文字、手寫等圖像轉換成機器可讀文字的程序。而 DeepSeek-OCR 的深度解析模式可把財務圖表轉換成結構化資料，生成 Markdown 表格與圖表。DeepSeek-OCR 有 2 個核心部分：負責圖像處理的 DeepEncoder，以及 DeepSeek3B-MoE 為基礎、擁有 5.7 億活躍參數的文字生成器，負責把壓縮後的內容解讀成文字。

DeepEncoder 結合 Meta 的 8,000 萬參數模型 SAM（Segment Anything Model）進行影像分割，與 OpenAI 的 3 億參數模型 CLIP（連結文字與圖像）。兩者之間有一個 16 倍壓縮器，大幅減少圖像詞元（token）數量。以 1024×1024 像素的圖像為例，起初為 4,096 個詞元，經 SAM 處理後，壓縮器會把它降至 256 個詞元，然後傳遞給運算密集的 CLIP。

DeepSeek-OCR 支援不同解析度的圖像，在較低解析度時，每張圖像只需要約 64 個視覺詞元，而在較高解析度可達 400 個詞元。相較之下，傳統 OCR 系統完成同樣任務常常需要數千個詞元。

在 OmniDocBench 測試中，DeepSeek-OCR 僅用 100 個視覺詞元就擊敗 GOT-OCR-2.0，後者使用 256 個詞元，DeepSeek-OCR 也少於 800 個詞元，勝過每頁需要超過 6,000 個詞元的 MinerU 2.0。

實際上所需詞元數量依文件而異，簡單的簡報約要 64 個詞元，書籍與報告約要 100 個，複雜的報紙則需使用 DeepSeek 的 Gundam 模式，最多需要 800 個。

DeepSeek-OCR 支援各種文件類型，從純文字到圖表、化學式及幾何圖形都能處理，支援約 100 種語言，可以保留原始格式，輸出純文字，並提供通用的圖像描述。背後由 DeepSeek 團隊使用約 3,000 萬頁 PDF（涵蓋約 100 種語言，其中約 2,500 萬頁為中文與英文），以及 1,000 萬張合成圖表、500 萬個化學式及 100 萬個幾何圖形，訓練出 DeepSeek-OCR。

錄自：科技新報

已有 1 人評分	SOGO幣	收起理由
smartlion	+ 10	您發表的文章內容豐富，無私分享造福眾人，.

總評分: SOGO幣 + 10 查看全部評分

喜歡嗎？分享這篇文章給親朋好友︰

檢舉

返回列表

本論壇為非營利自由討論平台，所有個人言論不代表本站立場。文章內容如有涉及侵權，請通知管理人員，將立即刪除相關文章資料。侵權申訴或移除要求：abuse@oursogo.com
GMT+8, 2025-10-26 00:46	手機版\|SOGO論壇

	品味生活\|休閒天地\|興趣嗜好\|學術藝文\|女性頻道\|電腦數位\|遊戲天堂\|影視音樂\|宗教綜合\|綜合圖片\|綜合影片\|成人園地
	© 2004-2025 SOGO論壇 OURSOGO.COM