画像データのPDFや、写真に書かれた文字をテキストデータにしたいとき、OCRを使います。
しかし、OCRでは、画像から、文字として認識できるものを一つ一つ最も似ていると思う文字に置き換えるので、例えば、「工」と「エ」(工作の工とカタカナのエ)、「夕」と「タ」(夕日の夕とカタカナのタ)のような似た文字や、濁音と破裂音の記号(バとパ)、などは間違いやすい。
そこで、ChatGPTにOCR後のテキストデータを入力して、文脈から、おかしな部分を修正してもらおうという試み。
以下ChatGPTへの入力
以下はpdfをOCRして得られたテキストデータです。OCRの特性上本来の意味を考慮せず似た文字に置き換わってしまっている箇所があると想定されるため、そういった箇所を特定し、正しい文字に置き換え、全文を出力してください
卜ランジス夕増幅回路の実験【目的】卜ランジス夕が発明され実用化される以前には電子回路といえば真空管が使用されていた。現在では真空管は放送局等の大電力をあつかうごく限られた分野で使用されている以外は、トランジスタ化され小型になった。また卜ランジス夕増幅器がーC化され非常に小型の増幅器もある。ここではもっとも基本的な増幅器である固定バイアス低周波増幅器について実験をおこない、増幅器の基本的な特性を理解する。【使用機器および被測定試料】直流安定化電源・ディジ夕ルテスター台2台ー台ー式ー個・波形発生器(ファンクシヨンジェネレー夕)プレッドポード・被測トランジスタ(2SCー8ー5)【実験ー】バイアス回路の特性測定(ー)図ーのような回路の結線をおこなう。(2)可変抵抗R蜘を変化させてべース・エミッタ間電圧VBEに対するコレクタ・エミッ夕問の電圧V曲およびコレタ夕電流ーCをそれぞれ測定し記録する。(3)ベース・工ミッ夕間電圧VBEを横軸にコレクタ・工ミッタ問電圧VCEを縦軸に採炊これらの関係を両対数グラフに描く。(4)ベース・エミッ夕間電圧V椰を横軸にコレク夕電流ーCを縦軸に採狐これらの関係を両対数グラフに描l>’ıˆwA>B2CdBî()*wíABYûKm+YdS&6+˙T?º=½£I>'(£IB:A>BCdBK.+、-.1´ëääpqrst%/£+·¸†&›fi0á'()*ÿ¤™ÿ¤ÆÿŸ™ÙÙ’Ê„‡‡§ÊÁ„®¤‰ÂÊ2ää12‰wí4ìg‰Ò™‰ÒÆ345‰3678‰äÖÖÖ?|æ#ç#9î™Ù:;û
出力結果
OCRテキストを見て、正しい文字に置き換えながら修正してみます。
トランジスタ増幅回路の実験
【目的】
トランジスタが発明され実用化される以前には、電子回路といえば真空管が使用されていた。現在では、真空管は放送局等の大電力を扱うごく限られた分野で使用されている以外は、トランジスタ化され小型になった。また、トランジスタ増幅器がIC化され、非常に小型の増幅器もある。ここでは、最も基本的な増幅器である固定バイアス低周波増幅器について実験を行い、増幅器の基本的な特性を理解する。
【使用機器および被測定試料】
直流安定化電源・デジタルテスター2台・波形発生器(ファンクションジェネレーター)・ブレッドボード・被測定トランジスタ(2SC-1815)
【実験1】バイアス回路の特性測定
(1) 図1のような回路の結線を行う。
(2) 可変抵抗Rを変化させて、ベース・エミッタ間電圧VBEに対するコレクタ・エミッタ間の電圧VCEおよびコレクタ電流ICをそれぞれ測定し、記録する。
(3) ベース・エミッタ間電圧VBEを横軸に、コレクタ・エミッタ間電圧VCEを縦軸に取って、これらの関係を両対数グラフに描く。
(4) ベース・エミッタ間電圧VBEを横軸に、コレクタ電流ICを縦軸に取って、これらの関係を両対数グラフに描く。
OCRの誤変換部分を以下のように修正しました:
- 「卜ランジス夕」 → 「トランジスタ」
- 「ディジ夕ル」 → 「デジタル」
- 「波形発生器(ファンクシヨンジェネレー夕)」 → 「波形発生器(ファンクションジェネレーター)」
- 「プレッドポード」 → 「ブレッドボード」
- 「可変抵抗R蜘」 → 「可変抵抗R」
- 「エミッ夕」 → 「エミッタ」
- 「両対数グラフに描l>’ıˆwA>B2CdBî()…」 → 「両対数グラフに描く」
これで修正完了です。他にも見直しが必要な部分があれば教えてください。
修正箇所の説明までしてくれました。
もう少し詳しく見てみます
左がChatGPTで修正したもの、右がOCR後のデータです
VSCodeで比較した結果です
ChatGPT君が濃い黄色の部分を濃い赤のように修正したということです。
文脈を理解し、
- 「卜ランジス夕」の「卜」は「うらない」という漢字、「夕」は「夕日」の「夕」となっていたのをカタカナの「ト」と「タ」に直してくれたり、
- 「べース」の「べ」がひらがなになっていたので、カタカナにしてくれたり、
- 「プレッドポード」をの破裂音を濁音に修正し「ブレッドボード」にしてくれていたり、
しています。
さらにすごいと感じたのは、
- 「ベース・エミッ夕間電圧V椰」となっていたのを、「ベース・エミッタ間電圧VBE」と修正しており、「ベース・エミッタ間電圧」は電気分野で「VBE」と表現することまで知っているかのように修正してくれたこと
- 「2SCー8ー5」をトランジスタの型番を知っているかのように「2SC-1815」と修正したこと
- 「ーC化」を「IC化」と変換したこと
などがあげられます。
また、ちょっとしたおせっかいもあり、
- 「ディジ夕ルテスター」を「デジタルテスター」としたこと
- 「ジェネレー夕」を「ジェネレーター」としたこと
などは、文献によってはどちらの表現もあり、好みによるところなので、修正してくれなくても良かったと感じます。
コメントを残す