日 | 一 | 二 | 三 | 四 | 五 | 六 |
|
||||
|
||||
■ 本報記者 皮磊 眼下,數(shù)字技術(shù)、人工智能、AI已成為社會發(fā)展熱詞。今年的政府工作報告中提到,深化大數(shù)據(jù)、人工智能等研發(fā)應(yīng)用,開展“人工智能+”行動。這是“人工智能+”首次被寫入政府工作報告,為各行各業(yè)發(fā)展釋放了積極的信號。在公益慈善領(lǐng)域,前沿技術(shù)的發(fā)展也促進(jìn)了行業(yè)不斷升級迭代,新的公益項目、公益產(chǎn)品不斷涌現(xiàn)。 2022年3月,字節(jié)跳動向北京大學(xué)教育基金會進(jìn)行捐贈,支持“北京大學(xué)—字節(jié)跳動數(shù)字人文開放實驗室”。字節(jié)跳動依托在OCR(光學(xué)字符識別)、自然語言處理、知識圖譜等技術(shù)領(lǐng)域的經(jīng)驗積累,以及互聯(lián)網(wǎng)產(chǎn)品設(shè)計與研發(fā)優(yōu)勢,探索借助人工智能提高古籍修復(fù)、整理工作效率。當(dāng)年10月,由該實驗室研發(fā)的古籍?dāng)?shù)字化平臺——“識典古籍”上線,讓古籍保護(hù)與傳承工作步入“快車道”,更多中華文化瑰寶得以進(jìn)入大眾視野。 有報道指出,“識典古籍”平臺不僅是一個公益性數(shù)字化平臺,對于古籍愛好者尤其是專業(yè)研究人員來說,其更是一座橫跨千年歷史的知識寶庫。目前,該平臺對社會免費開放的古籍超過了2900部,其提供的分詞檢索、圖文對照、字典釋義等功能,讓普通人也能輕松閱讀古籍文獻(xiàn)。 不過,隨著該平臺上線的古籍?dāng)?shù)量越來越多,平臺功能和相關(guān)工具不斷優(yōu)化,如何讓用戶學(xué)會使用越來越多的工具,更加高效便捷地找到自己需要的資料來源,成為一個新的問題。 記者從字節(jié)跳動方面了解到,為進(jìn)一步解決“找不到”“不會用”等問題,“識典古籍”平臺于近期上線古籍智能助手。簡單來說,通過古籍智能助手,用戶可以用平常說話的方式與正在閱讀的古籍進(jìn)行對話。當(dāng)遇到不懂的古文時,用戶可以點擊“問AI”,就能夠看到這句話的翻譯,還可以讓智能助手總結(jié)古文的主要內(nèi)容,提出可供參考的研究問題。 這也是大語言模型技術(shù)在古籍?dāng)?shù)字化以及公益領(lǐng)域的一個創(chuàng)新案例。 據(jù)“識典古籍”產(chǎn)品負(fù)責(zé)人王宇介紹,古籍保護(hù)與文化傳承一直是字節(jié)跳動公益重點關(guān)注的領(lǐng)域,“識典古籍”平臺一方面是一個面向社會公眾的數(shù)字化古籍閱讀工具,同時也是一個開放的古籍?dāng)?shù)字化智能整理平臺?!皬?022年上線到現(xiàn)在,我們根據(jù)用戶的反饋對平臺功能進(jìn)行了一系列優(yōu)化。我們也在探索一些更高效的方式,開發(fā)更好的產(chǎn)品和工具,幫助大家更好地閱讀和理解古籍。此次依托大語言模型技術(shù),上線古籍智能助手,也是我們在這一領(lǐng)域的思考和創(chuàng)新。” 此前爆火的ChatGPT讓很多人第一次聽說了“大語言模型”這個專業(yè)術(shù)語。簡單來說,一些使用了大模型技術(shù)的產(chǎn)品,能和用戶自然地對話和交流。不過,將該技術(shù)應(yīng)用在古籍檢索及閱讀領(lǐng)域,目前并沒有先例。加之古籍內(nèi)容的特殊性和專業(yè)性,如何更好地利用這一技術(shù),使其能夠準(zhǔn)確識別用戶意圖并給出讓人滿意的結(jié)果,仍是不小的挑戰(zhàn)。 具體而言,在“識典古籍”平臺,當(dāng)用戶輸入問題或者選中古籍中的文字請AI進(jìn)行解釋時,古籍智能助手首先會對用戶提出的問題進(jìn)行意圖判斷;如果回答這個問題需要利用字典中的條目或者古籍?dāng)?shù)據(jù)庫搜索結(jié)果作為上下文,智能助手會獲取相關(guān)的上下文,然后通過大語言模型綜合總結(jié)并給出回復(fù)。經(jīng)過前期測試,其準(zhǔn)確率也已達(dá)到了較高的水平。 不過,由于目前沒有可供參考的應(yīng)用案例,為了讓大模型能夠準(zhǔn)確地回答用戶的問題,“識典古籍”研發(fā)團(tuán)隊付出了不少努力。為了讓大模型在回答問題時采用專業(yè)的參考來源,古籍智能助手采用了檢索增強(qiáng)生成(RAG)技術(shù),即通過檢索不同資料來源,獲得所需上下文,以此增強(qiáng)大模型生成答案的質(zhì)量。 此外,王宇介紹說,根據(jù)用戶意圖如何判斷該使用什么樣的檢索工具,如何優(yōu)化提供上下文的內(nèi)容,團(tuán)隊也花了不少精力。比如,從古籍?dāng)?shù)據(jù)庫里檢索古籍資料,為了讓用戶獲得的上下文更加相關(guān),在關(guān)鍵詞檢索之外,研發(fā)團(tuán)隊也開發(fā)了語義檢索,讓智能助手在回答時能參考到文字不一樣但含義相關(guān)的相關(guān)古籍段落。研發(fā)團(tuán)隊也有意在答案后加上原文鏈接,在界面上也會提示“回答由人工智能生成,請注意查證”,方便用戶去查證原文并做出自己的判斷。 借助新技術(shù)將復(fù)雜的事情簡單化,是研發(fā)團(tuán)隊的方向和目標(biāo)。 據(jù)不完全統(tǒng)計,我國現(xiàn)存古籍約有20萬種,其中有數(shù)字化掃描影像的有8萬種,實現(xiàn)文本數(shù)字化的僅有3-4萬種左右。由于古籍種類、數(shù)量繁雜,保存程度不一,加之從事古籍修復(fù)的專業(yè)人員數(shù)量不足、資金匱乏等多重原因,古籍資源的挖掘傳承保護(hù)工作仍面臨巨大壓力。 記者了解到,目前“識典古籍”除了網(wǎng)頁版,今日頭條產(chǎn)品側(cè)還設(shè)置了“古籍”頻道。由于公益項目的延展性,在字節(jié)跳動內(nèi)部,有很多不同業(yè)務(wù)板塊的員工參與其中,為此還專門成立了一個古籍保護(hù)公益社團(tuán)。這種開放、協(xié)作的氛圍,也是平臺在兩年時間內(nèi)實現(xiàn)上線并不斷優(yōu)化的基礎(chǔ)。 “古籍智能助手的定位是提升查閱古籍的效率,它代替不了專業(yè)的學(xué)術(shù)判斷和閱讀積累,但我們希望它能為使用古籍及閱讀工具的人節(jié)約時間、開拓新的思路?!蓖跤畋硎?,因為是一個創(chuàng)新性功能,古籍智能助手目前還有一定的實驗性,但字節(jié)跳動決定將其免費開放給公眾使用,一方面是希望用戶能夠多使用、多反饋,為后續(xù)優(yōu)化提供更多建議,另一方面也是希望通過實踐和應(yīng)用來打磨出更好的產(chǎn)品。 2022年“識典古籍”平臺剛剛上線時,為自己設(shè)定了一個三年目標(biāo):未來三年,“識典古籍”將陸續(xù)完成一萬種古籍的智能化整理工作,基本覆蓋儒家、道家和佛學(xué)的核心典籍目錄,屆時將全部免費開放。對于項目團(tuán)隊來說,距離目標(biāo)的實現(xiàn)仍有一定的差距。 記者獲悉,除了配套開展多種形式的宣傳倡議活動,下一步,“識典古籍”研發(fā)團(tuán)隊將有計劃地為古籍智能助手開發(fā)更多的工具。除此之外,該團(tuán)隊還將繼續(xù)提升AI在古籍整理等領(lǐng)域的應(yīng)用,希望能夠整理和校對更多的古籍,并將其數(shù)字化,促進(jìn)古籍資源的高效利用,讓平臺在文化傳承中發(fā)揮更大的作用。 |