久々の手書き記事。
ここ2週間ほど、一人語りmp3→Whisperによる文字起こし→Claudeによる記事化という流れを何記事か試してみましたので、一旦雑感を書いておきます。
環境の設定、構築については別記事に譲りまして、あくまで上記フローによるアウトプットへの雑感です。
Whisperによる文字起こし
Whisperのモデルサイズがいくつかありまして、ChatGPTにヒアリングしたところ以下のとおりでした。
モデル名 | パラメータ数(約) | 特徴 |
---|---|---|
tiny | 39M | 超軽量で高速、精度は控えめ |
base | 74M | 軽量だけどちょっと精度アップ |
small | 244M | 中くらいのバランス |
medium | 769M | 高精度、速度もそこそこ |
large-v1 | 1.55B | 最初の大型モデル、精度高め |
large-v2 | 1.55B | 精度改善版(推奨) |
large-v3 | 1.55B | 最新・最高精度(2023年9月公開) |
※ B = Billion = 10億、M = Million = 100万
んで、僕が今回試すことができたのは、小さい方からtiny,base,medium,large(v3かな?)です。
検証結果の雑感としては。。。
・tiny 正直使い物にならない
・base/small 多少マシだが、僕の用途では使えない
・medeum まあ使えた。動作環境によってlargeを動かすのが厳しい場合は選択する
・large さすが最大サイズなので、文字起こしのレベル感としては十分。動作環境のspecが許せば使いたい。
というところでした。
少しspecから離れて具体的なアウトプットの感想を書きますと。。。
・元が普通の個人が喋ったmp3なので、誤字が多発する ex.茂木先生→モギー先生
・その他、文脈を意識しないと間違いやすい同音異義語の誤字が多い
まあ、あげ足取ろうとしてもこんなもんじゃないでしょうか。
前後関係とか、1ファイルの中の文脈の一貫性あたりはそれほど重視されていなさそうでした。
あ、ちなみに上記の感想は、Medium以上の場合です。
Small以下はどの角度から見ても少々使い物になりませんでした。
Claudeによる記事起こし
続いて、Claudeによる記事起こしです。
これはいくつかの気になる点を除いて素晴らしいです。
正直、自分が記事化するよりもよほど良い、という感想ですが、一方で人らしさについてはどうだろう。。自分では評価できませんが、あまりにもかっちりしているようにも思うし、うーん、言語化が難しいレイヤーでやっぱり人間の作ではない感があると思います。。
あと、やっぱりちょっと、元の情報(今回は一人語りmp3)にない情報も勝手につけたりとか、逆にこれは入れてよという内容を削られちゃったりするなという、はにま氏の作家性(笑)が失われている感じもあります。これは特に自分だからそう思うような気もするが。。
また、一番どうにかしてほしいと思うのは、生成AIの側で指定のURLを読み込んで、似せて作る、というのをやってほしいんですが、とにかく彼らは人間が指定したURLは見ませんというルールが適用されているようで、事前に僕の文章を学習してから書く、ということはやってくれないんですよね。
これは理由は明確にわかっていて、Malwareなどを踏ませようとしてくる悪意あるユーザー対策ですよね。(確信
なんというか、性悪説に基づいた世界観は好きではないのですが、実害があるのでこれは仕方ないと思います。
んで、僕としては対策として、過去記事を一定量エクスポートして、読んでもらってから文字起こしを与えて記事作成という流れで頼んだのですが、それもまだなんというか、アウトプットにばらつきが激しいです。
常時一定の質/量のデータを元に文字起こししてもらえる、というわけではないので少々のアウトプット品質のブレは当然ではあるのですが、何故かある時突然文字起こしをそのまま整えただけ、みたいな記事しか吐き出さなくなって、、、一旦ここまでか。という現在です。
数カ月後にはこんな残念感も払拭されるんでしょうねえ。遠い目
あ、でもこれはいいなと思うのが、検索などで見つけてもらいやすいようにする方法を教えて、ってことで、少しでもSEOがきくようにする努力、みたいなのもほとんど自分の手数を使わずにできることですね。
まあ、成果はまだ1pvくらいしか感じられていませんが笑
現代のSEOはそもそもコツコツなので、これからこのブログがサーバ増強せざるを得なくなる日も近いでしょう。笑
おしまい
いやはや面白いです。AIと遊ぶの。
このWPももっとガッツリカスタム(またはスリム化)して指数関数的に楽しい状況まで持っていきたいですが、集中してやっているわけではないのでまだ当分楽しめそうだなーという具合です。
ではまた〜。