理光開發(fā)出高性能日語大語言模型

2024年06月05日10:29 來源：新華網(wǎng)

原標(biāo)題：理光開發(fā)出高性能日語大語言模型

　　新華社東京6月4日電（記者錢錚）日本理光公司日前表示，該公司利用和日本理化學(xué)研究所共同研發(fā)得到的指令數(shù)據(jù)訓(xùn)練理光的日語大語言模型，提高了模型的指令遵循性能。

　　理光公司3日發(fā)布新聞公報說，他們用10329份指令數(shù)據(jù)對公司研發(fā)的130億參數(shù)日語大語言模型進行了指令調(diào)優(yōu)。與調(diào)優(yōu)前相比，大語言模型的指令遵循性能得分從1.19分大幅提高至3.02分。

　　指令調(diào)優(yōu)是訓(xùn)練大語言模型的一個過程，主要為了縮小模型的下一個標(biāo)記預(yù)測目標(biāo)與用戶期望的模型遵循人類指令的目標(biāo)之間差距。

　　理光公司說，隨著老齡化和隨之而來的勞動人口減少，許多企業(yè)寄希望于利用人工智能來提高生產(chǎn)效率，實現(xiàn)高附加值的勞動方法。而要將人工智能應(yīng)用于實際業(yè)務(wù)，需要讓大語言模型追加學(xué)習(xí)包括企業(yè)所處行業(yè)、所經(jīng)營業(yè)務(wù)、以及企業(yè)固有用語等在內(nèi)的大量數(shù)據(jù)。

　　相比英語國家圍繞大語言模型研發(fā)的競爭，日語大語言模型的研發(fā)相對滯后。這主要是因為日語的語法和表達與英語完全不同，以英語為基礎(chǔ)的模型難以充分發(fā)揮功能，而研發(fā)適合日語的模型首先必須花時間研究日語的特征。

　　大語言模型的研發(fā)還需要大量數(shù)據(jù)，而日語的數(shù)據(jù)遠少于英語，品質(zhì)和多樣性方面也存在問題，日語數(shù)據(jù)的收集和完善需要大量時間和成本。大語言模型研發(fā)還需要很高的算力，而日本超算和云等計算資源原本就不足，能運用這些計算資源的技術(shù)和人才也不足。

(責(zé)編：許文金、陳建軍)