7月7日—10日,以“智聯世界 眾智成城”為主題的2021世界人工智能大會將在上海舉行。中國領先的人工智能以及大數據科技企業合合信息在本次大會上展示了能“讀懂”甲骨文的智能文字識別技術,并發布“數字政務大腦”平臺,將為考古工作帶來極大的便利。
雖然甲骨文是迄今為止中國發現的年代最早的成熟文字系統,更是漢字的源頭和中華優秀傳統文化的根脈。但該文字很多時候都是以圖片的形式出現,給文字檢索帶來了一定的困難,而如今的年輕人對甲骨文的一更是了解甚少。此次在世界人工智能大會上展示智能文字識別技術能對甲骨文進行識別,將形象豐富的甲骨文復刻在龜甲上再進行重新排列組合后,“單身狗”“白富美”“買它買它”等網絡熱詞被一一識別出來。
據介紹,合合信息的智能文字識別技術主要包含了智能圖像處理,基于深度學習的復雜場景文字識別,自然語言處理三個核心技術層。智能圖像處理技術主要對用戶拍攝的復雜文檔圖像進行預處理,使得文檔圖像質量得到大幅度提升。基于深度學習的復雜場景文字識別技術,主要利用合合信息自研的手寫印刷混排識別,抗強干擾識別,扭曲文字識別,復雜印章和手寫識別等一系列先進深度學習識別技術來解決各種不同復雜場景下的文字識別問題,而自然語言處理技術,則是對識別出的結果進行進一步的語義理解。
合合信息相關技術負責人表示,“甲骨文識別的難點在于甲骨殘缺嚴重、素材難獲取、拓片清晰度低等難點,這些都是需要通過技術來解決。例如樣本素材少,從技術層面上,我們需要解決少樣本訓練的問題。目前我們主要是初步研究,更多的工作還在路上。”