設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

微軟開源新工具 MarkItDown,Office 文件輕松轉(zhuǎn)換為 Markdown 格式

2024/12/17 15:38:23 來源:IT之家 作者:故淵 責(zé)編:故淵

IT之家 12 月 17 日消息,微軟在 GitHub 上發(fā)布了名為 MarkItDown 的開源 Python 庫,可以將 Office 文檔在內(nèi)的多種文件格式,轉(zhuǎn)換為 Markdown 格式。

用戶通過該工具轉(zhuǎn)換后,有助于文本索引、分析等多種應(yīng)用場景,并支持開發(fā)者利用大型語言模型進(jìn)行圖像描述。

IT之家附上 MarkItDown 庫當(dāng)前支持的文件格式如下:

  • PDF (.pdf)

  • PowerPoint (.pptx)

  • Word (.docx)

  • Excel (.xlsx)

  • Images (EXIF metadata, and OCR)

  • Audio (EXIF metadata, and speech transcription)

  • HTML (special handling of Wikipedia, etc.)

  • 其它各種文本格式 (csv, json, xml, etc.)

開發(fā)人員還可以配置 MarkItDown 庫,使用大型語言模型來描述圖像,需要將 mlm_client 和 mlm_model 參數(shù)設(shè)置為 MarkItDown 對象,如下所示:

from markitdown import MarkItDown
from openai import OpenAI
client = OpenAI()
md = MarkItDown(mlm_client=client, mlm_model="gpt-4o")
result = md.convert("example.jpg")
print(result.text_content)

由于 MarkItDown 庫在 MIT 開源許可下可用,因此開發(fā)人員可以自由使用、修改和分發(fā)它,唯一的要求是他們在分發(fā)時(shí)包含原始許可證和版權(quán)聲明。

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時(shí)間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:微軟Office,Markdown

軟媒旗下網(wǎng)站: IT之家 最會(huì)買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會(huì)買 要知