成果報告書詳細
管理番号100013569
タイトル平成17年度-平成19年度成果報告書 国際共同研究助成事業 2005IS020 Semantic Webアプリケーションを指向した言語資源の国際標準の開発 平成19年度最終
公開日2009/4/24
報告書年度2005 - 2007
委託先名徳永健伸 Nicoletta CALZOLARI Chu-Ren HUANG 白井清昭 Virach SORNLERTLAMVANICH Xia YINGJU
プロジェクト番号P88001
部署名研究開発推進部
和文要約言語資源の整備についてはヨーロッパ、米国が進んでおり、特に多言語を扱う必要性の高いヨーロッパでは、言語資源の標準化のための活動が活発に行われてきた。最近では、この活動を発展させ、ヨーロッパの標準を基礎として国際標準を策定するための委員会(TC37)がISOに設置され活動が続いている。一方、アジアも多様な文化・民族・言語が混在する地域ではあるが、残念ながらヨーロッパほど斉一的な構造を持っておらず、言語資源の整備、標準化について遅れを取っている。しかしながら、ヨーロッパ言語とは大きく性質を異にするアジアの言語を考慮しない国際標準はありえない。このような背景をふまえ、本研究開発では、策定中の言語資源の国際標準にアジア言語の特徴を十分に反映させ、真の国際標準にすることを目的としている。研究の基本的な進め方として、以下のようなアプローチを取った。(a)策定中の国際標準のドラフトに基づき、各研究分担者が担当する言語の記述をおこない、問題点を洗い出す。(b)ミーティングによって各言語における問題を報告し、それらを解消するためのドラフトの拡張について議論する。(c)ドラフトの有効性を具体的なアプリケーションの実装によって検証する。主な研究成果を各年度別に示す。2005年度:アジア言語の観点からドラフト(ISO24613Rev.9)には以下のような問題があることを明らかにした。(1)統語枠の項と意味述語の項の対応関係の記述枠組、(2)派生(derivation)、(3)数量詞(classifier)、(4)正書法(orthography)、(5)敬語(honorifics)。このうち(1)と(2)については、CD(CommitteeDraft)への日本からのコメントという形でその解決策を提案し、2006年8月に北京で開催されたISOTC37の全体会議において、(1)の提案については採択され、(2)については、今後、継続議論することが認められた。2006年度:上記(2)、(3)、(4)については、以下の提案をドラフト(ISO24613Rev.13)に盛り込むように、日本からのコメントとして提案し、これを含む案がCDとして採択された。この案は、2007年8月に米国Provoで開催された全体会議で、DIS(DraftInternationalStandard)として認められた。(2')派生(derivation)に関するパッケージの分離と充実、(3')数量詞に関する統語-意味間のインターフェースの記述、(4')複数のスクリプトの混在した表記への対応(特に日本語)。2007年度:ISO24613がFDISの段階になり、ほぼ仕様が安定したので、これに基づいて、小規模な辞書を作成し、より言語的に豊かな資源に基づいたクエリ拡張システムを構築した。また、資源の構築に関する基本的な方針を定め、日本語、英語、中国語、イタリア語、タイ語の語彙項目(動詞、名詞)を記述し、ISO24613の枠組で記述すれば言語に依存しないようなシステムを実装できることを確認した。このシステムはWebに公開しており、下記のURLで参照可能である。http://www.cl.cs.titech.ac.jp/NEDO/search。また、ISO24613(LMF)は2008年10月の投票によって承認され、2008年11月17日に国際標準ISO-26413:2008として公開された。
英文要約During the last two decades corpus-based approaches have come to the forefront in NLP research. Since without corpora there can be no corpus-based research, the creation of such language resources has also necessarily advanced as well, in a mutually beneficial synergetic relationship. One of the advantages of corpus-based approaches is that the techniques used are less language specific than classical rule-based approaches where a human analyses the behaviour of target languages and constructs rules manually. This naturally led the way for international resource standardisation, and indeed there is a long standing precedent in the West for it. The Human Language Technology society in Europe has been particularly zealous in this regard, propelling the creation of resource interoperability through a series of initiatives, namely EAGLES, PAROLE/SIMPLE, ISLE/MILE, and LIRICS. These continuous efforts have matured into activities in ISO-TC37/SC4, which aims at making an international standard for language resources. However, due to the great diversity of languages themselves and the differing degree of technological development for each, Asian languages, have received less attention for creating resources than their Western counterparts. Thus, it has yet to be determined if corpus-based techniques developed for well computerised languages are applicable on a broader scale to all languages. In order to efficiently develop Asian language resources, utilising an international standard in this creation has substantial merits. This project aims to create an international standard for language resources that includes Asian languages. We took the following approach in seeking this goal. Based on existing description frameworks, each research member tries to describe several lexical entries and find problems with them. Through periodical meetings, we exchange information about problems found and generalise them to propose solutions. Through an implementation of an application system, we verify the effectiveness of the proposed framework. The following is a summary of the significant research results from the last three years. (05/10-06/9) After considering many characteristics of Asian languages, we elucidated the shortcomings of the LMF draft (ISO24613 Rev.9). These shortcomings are listed below. (1) A mapping mechanism between syntactic and semantic arguments, (2) Derivation, (3) Classifiers, (4) Orthography, (5) Honorifics, Among these, we proposed solutions for (1) and (2) in the comments for the draft from the Japanese delegate. In the ISO-TC37 plenary meeting in Beijing (2006/8), the solution for (1) was admitted and a solution for (2) succeeded in initiating a discussion on the above enumerated shortcomings. (06/10-07/9) We proposed solutions for above (2), (3) and (4) in the comments of the Committee Draft (ISO24613 Rev.
ダウンロード成果報告書データベース(ユーザ登録必須)から、ダウンロードしてください。

▲トップに戻る