多語種文本生成系統(tǒng)
項目持有者:曾慶輝 聯(lián)系方式:E-mail:zqhmail@yahoo.com 項目介紹: 自然語言處理是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。它可以分成語言理解和語言生成兩個互逆的過程。自然語言生成是一種從大量數(shù)據(jù)、深層語言結(jié)構(gòu)到表層結(jié)構(gòu)的轉(zhuǎn)換。經(jīng)過多年的研究,工程化的自然語言處理--語言技術(shù)(Language Technology) 已經(jīng)使復(fù)雜的人類語言處理技術(shù)從實驗室走向市場成為可能。 項目申請人在上海交通大學(xué)和德國人工智能研究中心在這方面從事了多年的研究和開發(fā),積累的豐富的經(jīng)驗。所開發(fā)的多語種文本生成系統(tǒng)采用淺層生成(Shallow Approach)和深層生成(Deep Approach) 。淺層生成采用面向任務(wù)基於模板的格式化生成,可移植性強,開發(fā)周期短而且成本低。深層生成采用流水線式結(jié)構(gòu)(即由內(nèi)容規(guī)劃器、句子規(guī)劃器和表層生成器組成)。在內(nèi)容規(guī)劃階段采用Schema方法,較好地解決了文本結(jié)構(gòu)和內(nèi)容的靈活組織問題。在句子規(guī)劃階段,采用了語句優(yōu)化和資源類映射技術(shù),消除了語句的冗余部分,并可用形式化方法表述不同語種以及各語種的不同語句結(jié)構(gòu)。使同一內(nèi)容生成的語句呈現(xiàn)多樣化形式。在表層生成階段,完善了FB-LTAG(基于特征的詞匯樹連接文法),解決了生成中構(gòu)造句法樹的“組合爆炸”問題,并在選詞時做到恰如其份。針對不同客戶和應(yīng)用可以分別和組合使用這兩種方法。潛在的應(yīng)用領(lǐng)域包括: 旅游: 航班信息的實時文本匯報 氣象信息的文本預(yù)報 體育: 上報國際體育組織的各種實時報表或簡報; 供中外媒體(報刊、電臺、電視臺、網(wǎng)站等)使用的成績報表和簡報; 供裁判使用的運動員歷史成績等情況介紹; 自動綜合每天的各項比賽情況(報表); 實時文字報導(dǎo)運動員比賽情況; 企業(yè): 公司客戶電子郵件問訊回復(fù)自動生成
|