人工知能は小説を読み書きできるか?:第3回『逆翻訳による「探索」と「深化」』(全3回)

人工知能は小説を読み書きできるか?:第2回『分散表現と「意味」』より続く

「能くああ無造作に鑿を使って、思うような眉や鼻が出来るものだな」と自分はあんまり感心したから独言のように言った。するとさっきの若い男が、

「なに、あれは眉や鼻を鑿で作るんじゃない。あの通りの眉や鼻が木の中に埋っているのを、鑿と槌の力で掘り出すまでだ。まるで土の中から石を掘り出すようなものだから決して間違うはずはない」といった。

──夏目漱石『夢十夜』より、第六夜

 

全ての可能な文字列。全ての本はその中に含まれている。

──円城塔『Self-Reference ENGINE』

 

「小説の書きかた」というのはよくわからない。少なくともぼくはそうだ。おそらくそこらへんにいる作家をとっ捕まえてきて「おい、お前はどのようにして小説を書いているのだ?」と聞いてみても、同じようなことしか返ってこないだろう。それでも安定して小説を生成できる書き手はいるし、かれらはそれぞれに大なり小なり固有のメゾットを有している。世の中には「小説の書きかた」や「文章の書きかた」のハウツー本はたくさんあり、「書く」ということの一定の再現性は認められて然るべき側面もある。それでもわからない。わからないから書く、というのは、わからないからやる、という研究者の発想に近いかもしれない。

「きまぐれ小説プロジェクト 作家ですのよ」では、小説を生成するためにあらかじめ世界や筋書き(プロット)といった構造を人力で用意し、それに沿ったテクストの出力に成功した。つまり、設計図を人間がつくり、コンピュータはそれをテクスト化する「ペン」という役割を担った。もしもこの設計図を自動生成化てきたとしたら、この方法の延長線上てコンピュータは小説を大量に読むことによってより「小説らしい散文」を自動で生成できることになるだろう。しかし、そのときに「人間が文章を書く」ことと比較したとき、大きな違いが生じる。「コンピュータは小説を読むことにより小説を上達できるが、書くことによって小説の上達は期待できない」ということだ。

 人間であれば、一般に「書くこと」が文章の上達に不可欠だといわれ、これについてはぼくも概ね同意したい。前回ぼくは「読むこと」と「書くこと」が等価になるということについて言及したが、無論「書くこと」が独自に持つ性質を否定しているわけではない。人間にとって……と一般化するのは厳しいが、一部の書き手はそもそも完成した設計図を持たずして小説を書きはじめ、途中でおぼろげに見えた「仮設計図」を随時更新しながら小説を完成させる。つまり作中の書き手のなかに学習が生じていて、それはまぎれもなく「書く」ことにより誘発されている。「コンピュータが小説を書く日」の製作者・佐藤理史氏は著書でこのようなことを記している。

 

私の実感としては、「書くこと」を通して物事への理解が深まります。書く前にはわからなかったことが、書くことによって明らかになります。もし、それが事実だとすれば、書くことは、単に頭の中にあることを言語表現として表出するだけでなく、それ以上の何かが含まれることになります。書くことを通して、何かが生みだされるということです。

──佐藤理史『コンピュータが小説を書く日 AI作家に「賞」は取れるか』

 

 設計図に忠実に生成された小説はテクストの「静的性質」をとらえたものにはなりえるだろうが、テクストを生成する過程での内的な変化は見込めない。しかしだからといって、静的性質は動的性質に比べ重要ではないということにはならない。小説(あるいは「正しい」とされるすべての文章は)夏目漱石の『夢十夜』や円城塔の『Self-Reference ENGINE』のように存在しているという考え方も認められる。動的な変化として存在しているのか、それとも普遍的な形で存在しているのか──こうしたものは散文という系に向ける眼差しによって変わる。現状の物理学では、巨視的な系ではニュートン力学が、微視的な系では量子力学が事象をうまく説明でき、それぞれの確からしさを否定できず共存しているように。こういう事情があるからこそ、ぼくは小説の、そして文章の書きかたが一向にわからない。

 

 夏目漱石や円城塔の作品にあるような、「すでに存在しているものを発見する」という考え方は翻訳に似ている。自然言語処理において「変換系」と呼ばれる自動翻訳の研究は、入力された文章がもつ「意味」を、別の言語で掘り起こす行為だとも考えられる。この研究は初期の段階では、原言語(入力)から目的言語(出力)への変換規則の確率を学習する「統計的機械翻訳」が用いられていたが、この方法では「人間らしい訳文」の生成ができないという問題点があった。そして現在では、ニューラル機械翻訳(Neural Machine Translation:NMT)と呼ばれる、単語のみならず文章も数値ベクトルに変換し、ニューラルネットワークを用いて学習、翻訳を行うシステムが主流になってきている。つまり、NMTは使用パターンなどの表面的な特徴ではなく、数値ベクトルとして文章の「意味」を表現し、言葉の使用の多様性を実現しようとしたシステムだと解釈できる。

 NMTを利用した機械翻訳技術の研究は進んでおり、最近では「逆翻訳」を利用した手法も開発された。自然言語処理では「コーパス」と呼ばれる「言語情報の全集」が重要なリソースであり、機械翻訳では大規模な「対訳コーパス」が必要になる。今村ら(2018)は、目的言語のコーパスを用いて原言語の「擬似原文」を生成し、それと小規模な対訳コーパスと混合して学習させることで、小さなコーパスでの機械翻訳の精度を高めることに成功した。他にも、逆翻訳を利用したNMTは「訳抜け」の検出などの研究例がある。

 こうした試みは──あくまで比喩の域を出ないが──翻訳機械が「文章を書く」あるいは「推敲する」という行為に似ている。機械みずからが「書いた」擬似原文という文章を、対訳コーパスという「理想的な文章」と並べることで「正しい文章とは何か」を模索しているかのようで、「多く書く」ことにより翻訳機械そのものが「もっともらしい文章」を学習しているようにも見える。木の中にあらかじめ存在している仁王像を掘り当てる過程において、その像がどのように存在しているのかという姿を「鑿を打つ」という行為の反復の中で確かにしようとするかのように。

 

 我々はすべてを知り得ない。有限の知識と有限の経験をもって事象の理解につとめ、構造と呼ばれる抽象を掴むことで、未知の現象に思考を伸ばす。「書く」という行為は、抽象から生成された具体的事象を前景化させる。その光景を前にして書き手は自身の文章を注意深く読み直し、新たな思考と学習を促される。けっきょくのところ、「文章を書く」という行為はその反復だ。そしてその反復のなかで新たな着想が得られ続ける限り、「文章を書く」ことに終わりはないだろう。職業的に文章を書くことを見れば、ライターにしろ作家にしろ、分量や扱うトピックといった境界条件が提示されることで「便宜的に文章を書き終える」ことができる。そして。コンピュータの創作や翻訳機械であってもそれは変わらない。プロットや原言語文章を入力情報を境界条件として、そのシステムに可能なテクストを吐き出していて、システムの改良には、出力可能な文字列の守備範囲を広げ、同時にそのなかから人間の完成に見合ったテクストを絞り込むという「探索」と「深化」の2軸がある。今回取り上げた「逆翻訳」は、単言語コーパスを拡大し「探索性」を飛躍させ、機械学習によりある程度の「深化」を行なったものだ。

 別言語を経由することにより、ことばへの理解や解釈は飛躍的に伸びる。ときに自己言及的な性質も帯びるこの反復性がどのように技術として拡張されるのか──そのプロセスのモデリングによって、われわれの「読む」「書く」という問題をより深く考察できるのではないだろうか。

 

人工知能は小説を読み書きできるか?:第1回『自然言語処理と新たなツール』

人工知能は小説を読み書きできるか?:第2回『分散表現と「意味」』

まちゃひこ

文筆家。京都大学大学院工学研究科博士課程で熱工学や統計力学の研究を行う。単位取得中退後、求人広告の代理店に勤務したのち独立。創作プロジェクト「大滝瓶太」を主宰し、2018年第1回阿波しらさぎ文学賞を受賞。同年10月中旬発売の文学ムック「たべるのがおそい Vol.6(書肆侃侃房)」に短編小説『誘い笑い』を寄稿。

Twitter:@macha_hiko

ブログ:カプリスのかたちをしたアラベスク