日志

2

已有 44 次阅读2013-2-3 09:30

１． ここには分岐があらわした。一つ応用は検索(searching).これに関する論文はTSUBAKI: An Open Search Engine Infrastructure for Developing Information Access Methodology, Relevance Feedback using Latent Information。前者のあらすじは、a.ネット標準格式（Web Standard Format）を紹介し,ネット情報は実にはテキスト形式、分析可能。b.検索のセンテンスを分析し、そのなかの言葉を似ているほかの表現方で一緒に検索。ｃ.結果への審査。ｄ。TSUBAKI APIのご紹介。後者は捜索方法を専念し「いったいどうの様なサイトは検索に当てはまるのか？標準は何だ？」、いろいろのモデルを提供した。特にLatent Informationを使用した。

２．３の続き。成分標識の後、関連度の認識がスタートです。その原因は言葉には省略が多い。関連ができてあれば、その省略は推測できます。これに関する論文はAcquiring Strongly-related Events using Predicate-argument Co-occurring Statistics and Case Frames A Discriminative Approach to Japanese Zero Anaphora Resolution with Large-scale Lexicalized Case Frames,二つの論文はともにcase frameをつくり（図１）。前者はcase frameの間直接比較し、スコアを計算し、「が」「を」「に」とかともに分析し、関連を判断する。後者は統計の最尤推定を利用し、一つの公式を作り、そのparameterをtraining dataで統計知識を用いて獲得。

３． ここからはプログラムの世界、以前は数学主。コンパイル原理から見ると、翻訳を実現するために、構文木を構築なければならない。これに関する論文はEBMT System of KYOTO Team in PatentMT Task at NTCIR-9, Japanese-Chinese Phrase Alignment Using Common Chinese Characters Information,前者は大まかにtree-based translationを紹介した。後者は中国語à日本語特有の利点を使えて、便利で構文木を構築する方法。

４． 構文木の照合アルゴリズム。これに関する論文はEfficient retrieval of tree translation examples for Syntax-Based Machine Translation,この文は最も読みづらい、定義が多い。でも、この文は最も詳しく、とても勉強になりました、この文を読み終わる時。図解のうえに、擬似コードも提供しました。最初はInclusion DAGを紹介し、この方法は最もわかりやすい、わたしに良い印象を残した。でもさすがにこれは非現実的。構文木は必ず下（葉）から纏めて分析する、理由は上のnodeは実際には実際の情報は持っていない、ただの論理ノード。ですから、作者はpostorder traversal,pruning non-maximal treelets方法を紹介した、非常に辻褄が合ってきる。最後、複雑度（complexity）を述べた。

わたしの研究計画

わたしは最後の翻訳部分に勤めたいと思います。詳しく話してみると。

１．自動翻訳の適する場。

文学、芸術、哲学、詩、歌およびいろいろ。こういうカルチャーや感情を膨大に含むんでいるものはさすがに現段階では自動翻訳は無理がある。また、専門学が多い文章、絶対の正確率が求めされる。なおう、専門学がオリジナルを見たほうがいい、自動翻訳は適するとは考えにくい。ですからわたしの考えによると、自動翻訳は一般人に対して一般の話を翻訳する。具体的言うと、もしもわたしは日本語ができないならば、わたしは日本のアニメやゲームを遊んでいるとき、理解できない部分がある。このとき、専門家を求めると、金がかかる、そして面倒がおおい。自動翻訳は大適切。わたしは日本の新聞を見ると、NHKのサイトで日本語がわからない、自動翻訳はとても便利。ですから、自動翻訳必ず正確に翻訳すること意味はない、その言葉の大体の感じや場の空気を伝えたら、十分と思う。たとえば、 I　have a red bag.翻訳a.　わたしは鞄がある赤い　b．わたしは鞄がある。どちらがよいのか、普通の人に対して、必ずb．人は普段その情報の正確度より、その言葉の流ちょうさを先に重視する。

２．自然語言とプログラムの語言は大きく違えがある。ですから、コンパイル原理で自然語言に通すわけがない。問題点は以下です。当然コンパイル原理を利用するのは有益だと否定はしない。

a.言葉の背景や場の空気が読めない。原因はⅰ自動翻訳は言葉の感情が分別できないⅱこの言葉は何処があるのかわからない、新聞の中？アニメで中？老人から？女の子から？

ですから、この情報はユーザーが提供すべきだ。詳しいは後で言う。たとえば、

（アニメ「わたしの妹はそんなにかわいいわけがない」１０話最初から）

妹のパソコンでエロサーフィンなんて、超あり得ないし。

「つんでる。アニメ」

Use the imoto’s computer to eroi-surfing,Really too impossible!

[日本のアニメ文化は外国に純分伝わるせいで、eroi、imotoと言う概念はある、フランスのサイトで日本アニメは流出、フランス人の翻訳英語化は以上]

もしこの言葉は「客観的、真面目」とつけられたら（当然日本人はこの言葉は決して真面目の場いう話ではない、「なんて」「し」とかいろいろの側面からみると、でもパソコンは分別にくい）翻訳できないわくがない、真面目の感じは：

It is impossible that someone use the sister’s computer to eroi-surfing.

b.言葉の誕生は、人々が自分の感情を表現するための武器だ。ですから、言葉のなかは各自民族特色の文化やその習慣を強く感じられるに違えはありません。日本人のゲームはたとえ英語バージョンでも、聞く途端で、それは英語の感じではないと判断できます。アメリカ人のゲームたとえ日本語バージョンがあると、常に「こんれは日本語だろうか、違和感を抱く」