飽き性の頭の中
citeprocで日本語と英語の文献をそれぞれ違うスタイルで生成するのサムネイル

citeprocで日本語と英語の文献をそれぞれ違うスタイルで生成する

2022-11-15に公開

大学院 > 研究のノウハウ
# pandoc# citeproc# bib# CSL# 日本語# 英語

pandoc と citeproc を使って文献情報を生成しているのだが、日本語と英語の文献を引用する都合上、それぞれのスタイルで文献リストを作る必要がある。

しかし、デフォルトでは複数の言語ごとのスタイルで出力することには対応していないようなのでどうにかハックする必要があるようだった。

そこで、あまりきれいではないが、暫定的にどうにかしたので手順を書いておく。もっといい方法があればぜひ教えてほしい。

前提

今使っている状況を書いておく。

  • 論文は Markdown で書いている
  • 文献は Zotero で管理している
  • Zotero から bib を出力している
  • citeproc を使って、文献リストを生成している
  • CSL ファイルは Visual CSL Editor で編集している

複数言語の難しさ

基本的には CSL をいじって、イメージどおりのスタイルでインラインの文献情報や文献リストが生成できるようにする。

問題となるのは、CSL で日本語と英語の文献をどのように識別するかである。

CSL では、いろんな項目を見て分岐する機能はあるが、その値ごとに分岐できない。

つまり、languageという項目は見られるが、languagejaenかで分岐できない。

だが、値が存在するかどうかはチェックできるので、日英を判定するための項目を専用で設けて、それを使う方針にした。

大まかな方針

まずは、bib に専用の項目を作る。

元々languageという項目は Zotero で管理している情報内に含まれているが、jaenの両方が入っているのでそのまま使うことはできない状況だった。

なので、この情報をスクリプトで加工して、languageという項目を、日本語の文献にはjapanese、それ以外には空を入れるようにした。

あとは、CSL でlanguageis presentかどうかで分岐するようにすればいい。

日本語か英語かで分岐ができるようになったら、あとはお望みのスタイルに頑張れば調整できるはず。

bib を加工する

元々は、次のような.bibファイルを使っていたが、これはスクリプトで加工がしづらい。

@article{rawls1963,
  title = {The {{Sense}} of {{Justice}}},
  author = {Rawls, John},
  year = {1963},
  journal = {The Philosophical Review},
  volume = {72},
  number = {3},
  pages = {281--305},
  publisher = {{[Duke University Press, Philosophical Review]}},
  issn = {0031-8108},
  doi = {10.2307/2183165},
}

そこで、Zotero でBetter CSL JSONで出力するようにした。

2022 11 16 01 56 14

pandoc では.jsonでも問題なく読み込めるので、これを使うことにした1

そして、JSON であれば、node で簡単に修正ができるので、languageの値を次のスクリプトでいい感じにする。

script.js
const path = require("path");
const fs = require("fs");

const mainBibPath = path.join(__dirname, "path-to-input-bib.json");
const mainCustomizedBibPath = path.join(
  __dirname,
  "../",
  "path-to-output-bib.json"
);
const mainBib = JSON.parse(fs.readFileSync(mainBibPath, "utf-8"));

const convertedMainBib = mainBib.map((entry) => {
  const { title } = entry;
  // 日本語を含むかチェック
  if (title.match(/[^\x01-\x7E]/)) {
    entry.language = "japanese";
  } else {
    entry.language = undefined;
  }
  return entry;
});

fs.writeFileSync(mainCustomizedBibPath, JSON.stringify(convertedMainBib));

CSL をいじる

あとは、languageの項目を使って、必要なところで分岐させる。

この編集ツールを使って基本的にやった。

2022 11 16 01 53 20

そうすれば、日本語と英語で分岐できるようになる(はず)。

2022 11 16 02 03 30

(以上はスタイル生成時に使った適当な文献情報)

まとめ

最低限日英で出し分けることができた(はず)。

でも 3 言語以上になってくると、この方法では問題が出るのでその場しのぎに過ぎない。

どうしてももう少しいい感じに文献情報を扱うツールが世の中にないのであろうか。それとも各々が秘伝のタレをもっているのだろうか…。


  1. ただし、Visual Studio Code のプラグインのPandoc Citerは JSON だと認識しないのか、pandoc にセットするもの以外は.bibを引き続き使っている。
Profile picture

たわ / tawachan

1994年生まれ(29歳)

大学院修士課程(政治学)(2021-2023)

Web開発(2017-)

関連記事

タグ一覧

# 福岡:39# 東京:20# 大学院:13# 移住:10# エナジードリンク:9# Google:8# ブロックチェーン:8# Mac:7# Webエンジニア:7# Apple:6# Firebase:6# Next.js:6# Sony:6# サントリー:6# Googleフォト:5# インドネシア:5# 埼玉:5# 英語:5# AWS:4# Canon:4# EOS 8000D:4# Kindle:4# TypeScript:4# ZONe:4# ラーメン:4# 京都:4# 仮想通貨:4# 社会人:4# 鴨川シーワールド:4# Docker:3# EOS8000D:3# Google Drive:3# Lightroom:3# Markdown:3# Pixel:3# React:3# React Native:3# a7iii:3# d.school:3# iPad:3# iPad mini:3# アマルティア・セン:3# アメリカ:3# コワーキングスペース:3# セブンイレブン:3# デザイン思考:3# レッドブル:3# ワークショップ:3# 卒業旅行:3# 寿司:3# 紅葉:3# 長崎:3# API:2# ChatGPT:2# ECR:2# ERC20:2# Expo.io:2# Firestore:2# GPT4:2# Gatsby.js:2# GitHub Actions:2# Kindle Oasis:2# Kindle Paperwhite:2# LINE:2# MacBook Pro:2# NestJS:2# Notion:2# Oculus:2# Oculus Quest:2# Pixel Buds:2# VS Code:2# Zotero:2# iPhone:2# pandoc:2# re:Invent:2# かき小屋:2# カフェ:2# ギグワーカー:2# サーチコンソール:2# ジャカルタ:2# スターバックス:2# ステーキ:2# スマートウォッチ:2# ソラマチ:2# チョコレート:2# ニューヨーク:2# バリ島:2# パンとエスプレッソと:2# ヒュッゲ:2# ビーチ:2# ブックスタンド:2# ブログ:2# マクドナルド:2# ミズマチ:2# モンスターエナジー:2# ワイヤレスイヤホン:2# 三千院:2# 両国:2# 修士論文:2# 兵庫:2# 千葉:2# 博多:2# 堀江貴文:2# 宮崎:2# 就活:2# 嵐山:2# 川越:2# 広島:2# 新宿御苑:2# 旅行:2# 日米学生会議:2# 有馬温泉:2# 東寺:2# 東浩紀:2# 機械学習:2# 歴史:2# 民主主義:2# 江ノ島:2# 清澄白河:2# 独自ドメイン:2# 神奈川:2# 神戸:2# 転職:2

©2023 tawachan All Rights Reserved.