近日,在2024年世界人工智能大會(WAIC)上,合合信息推出TextIn智能文檔處理平臺,這一創新舉措不僅旨在解決當前大模型訓練面臨的數據局限與質量問題,特別是針對中文語料稀缺和復雜文檔解析的難題,更為合合信息的IPO之路增添了濃墨重彩的一筆,為其在AI行業發展提供了強有力的“加速器”。
隨著人工智能技術的飛速發展,大模型展現出前所未有的強大能力,其性能的提升離不開海量高質量數據的支持。然而,在中文領域,高質量數據資源的匱乏成為了制約大數據性能進一步提升的瓶頸。合合信息此次推出的Textin智能文檔處理平臺,針對這一痛點為行業帶來了前所未有的解決方案,同時也為公司未來的IPO市場表現奠定了堅實的基礎。
該平臺集成了TextIn文檔解析、TextIn Embedding(文本向量數據模型)以及OpenKIE三大核心工具,旨在從源頭提升語料質量,加速大模型的訓練與迭代。使用后的大模型具備了更快速、優秀的文檔要素分析、表格內容識別能力。其中,TextIn文檔解析引擎以其卓越的性能和廣泛的適用性,在復雜文檔解析方面展現出了強大實力,為大模型提供了更加純凈、結構化的訓練數據。
除了文檔解析,TextIn Embedding模型也是該平臺的重要組成部分。該模型通過深入學習大量中文語料,能夠迅速定位目標信息,提取有效文本特征,提高大模型在信息搜索和問答方面的質量、效率和準確性。相比其他開源模型,TextIn Embedding模型具有體積小、占用資源少、支持可變輸出維度等優勢,能夠更好地適應不同場景的需求。
此外,OpenKIE信息抽取工具也為TextIn智能文檔處理平臺增色不少。該工具能夠自動抽取文檔中的關鍵信息,并直接應用于其他系統,極大地提高了工作效率。在大模型文檔處理場景中,合合信息與百川智能等頭部企業合作,共同破解了多文檔元素識別、版面分析等難題,將百頁文檔的整體處理速率提升超過10倍。
合合信息智能創新事業部總經理唐琪表示,TextIn智能文檔處理平臺目前已覆蓋金融、醫學、財經、媒體等47個場景,共支持3200余類文檔的處理。該平臺已被多家頭部大模型廠商納入預訓練流程,并積累了小批量開發者用戶。。
未來,合合信息將繼續深耕文檔處理領域,為大模型的訓練與應用提供更多優質“燃料”,推動人工智能技術的持續進步。同時,隨著公司IPO進程的推進,合合信息將進一步加速其在AI領域的布局和發展,為社會創造更大的價值。