苹果测试工程师的日常
14:07 · 2024年5月11日 · 周六
https://fxtwitter.com/9hills/status/1789174465269751973
FxTwitter / FixupX
九原客 (@9hills)
!!真正的全过程开源的中英文双语大模型。
1. 4.7T tokens 的中英文清洗后语料,配比挺合理。
https://huggingface.co/datasets/m-a-p/Matrix
2. 扫描PDF 转 Markdown 的工作流,可以识别图片、表格和公式!!!
https://github.com/multimodal-art-projection/MAP-NEO/tree/main/Matrix/document-convert
3. 中英文的预训练数据处理 Pipeline,拿来即用~…
Home
Powered by
BroadcastChannel
&
Sepia