GLOCAL 2025 Vol.25(Special edition)
57/67
2025 Vol.252025 Vol.252025 Vol.2555ディングルールの作成ができる点である。例えば、文章中に議会や政府という単語が登場したら、その文章は「政治」というカテゴリーに属する、というような仕分けのルールのことで、このコーディングルールを任意に設定することができる。ユーザーの研究方針に沿ったコーディングルールによる分析を行うことで、単語同士の関係だけでなく、意味付けされた文章のグループ同士の関わりなどを見ることができる。おわりに 本稿は2つのソフトの紹介に留めるが、こうしたアプローチに基づいた研究構想について簡単に触れたい。筆者の研究対象は近世のオックスフォード大学およびケンブリッジ大学である。中世以来の伝統を誇る両大学だが、18世紀は低迷期にあったとされ、この時期に各方面から提起された批判がやがて19世紀の大学改革へと結びつく、という記述がなされる。ただし、大学批判の実例として引用されるものには、エドワード・ギボンやアダム・スミスなど著名な人物が書き残したものが目立つ。これに対し修士論文では、より広範な史料から記述を集め、計量的な分析を行うことによって、大学批判のあり方や、大学そのもののあり方について、客観的な再検討を試みることを目指している。引用文献小風綾乃「Transkribusを使った18世紀フランス語手稿史料の翻刻実践」『西洋史学』第269巻(2020年)後藤真・橋本雄太編著『歴史情報学の教科書 歴史のデータが世界をひらく』(文学通信、2019年)樋口耕一『社会調査のための計量テキスト分析―内容分析の継承と発展を目指して』(ナカニシヤ出版、2014年)はじめに 昨今ではデジタル技術の発展に伴い、博物館や図書館が所蔵する様々な資料がオープンデータとしてインターネット上で閲覧できるようになってきている。例えば、筆者が研究対象としている18世紀イギリスは多くの新聞や雑誌が創刊された時代であり、デジタルアーカイブ上に膨大な史料が存在する。大量の史料が利用可能であるという利点を活かすためには、史料を量的データとして分析することで全体的な傾向や特徴を把握し、その上で抽出された意味を読み取る、というアプローチが有効だと考えられる。本稿では、そうした計量的な分析を行うために用いるTranskribusとKH coderについて紹介する。Transkribus Transkribusは、オーストリアで開発されたHTRを行うためのソフトである。HTRとは、画像データとして取り込んだ手稿史料の文字をテキストデータ化する技術のことである。このソフトが優れているのは、文字認識のモデルをユーザー自身が作成できる点で、自動認識だと読み取ることができない癖字なども、複数のデータをトレーニングモデルとして積み重ねることで、任意の文字へと読み取らせることができるようになる。 18世紀イギリスの史料の場合、現在では使われていない字形の認識に効力を発揮する。19世紀初頭までの文書にはſ(ロングエス)という文字が頻繁に出てくるが、これを自動でテキストデータ化すると、多くはfに変換されてしまう。計量的な分析において、基本となるテキストデータに誤りが混入することは致命的である。Transkribusでは、このロングエスを手動で認識させたデータを積み重ねることで、正確に小文字のsに変換可能なモデルを作成することができる。また、上部に印字された雑誌名やページ番号など、本文に含まれない部分を文字認識の範囲から除外するようトレーニングすることもできる。このようにして、認識範囲や字形についてのモデルを準備できさえすれば、大量の史料画像であっても短時間でテキストデータ化することができる。Transkribusの画面の一部(赤丸は後付け)KH coder 準備したテキストデータを計量的な分析にかけるために用いるのが、KH coderである。これは社会学者の樋口耕一が計量テキスト分析を行うために開発したソフトで、単語の出現率などを算出するだけでなく、解析結果を可視化したりすることもできる。例えば、文学作品の中に出現する単語の頻度を章ごとに計測して図示することで、潜在的なテーマの変遷を読み取る、といった分析が想定されている。 KH coderの特徴的な機能の一つは、コー18世紀イギリス史料を用いた計量テキスト分析の試行国際人間学研究科 歴史学・地理学専攻 博士前期課程2年中島 亮(なかしま りょう)1995年生まれ。愛知県名古屋市出身。中部大学応用生物学部環境生物科学科卒業後、一般企業での勤務を経て、同大学人文学部歴史地理学科編入学。卒業後、同大学院歴史学・地理学専攻に進学。研究対象は近世イギリス史。写真は今年行ったエジプトのピラミッド。
元のページ
../index.html#57