デジタルツールは、ChatGPT によって生成された学術テキストを 99% の精度で検出します

ローレンス — カンザス大学で生物医学研究に機械学習を使用している化学者、ヘザー・デゼア氏は、人工知能テキスト生成ツールである ChatGPT によって生成された科学テキストを 99% の精度で検出する新しいツールを発表しました。

査読誌「Cell Reports Physical Science」は、彼女の AI 検出手法の有効性を示す研究と、他のユーザーがこのツールを複製するための十分なソースコードを発表しました。

KU のキース D. ウィルナー化学教授であるデゼール氏は、科学的完全性を守るためには正確な AI 検出ツールが緊急に必要であると述べました。

「ChatGPTや他のすべてのAIテキストジェネレーターは、それが事実を構成するのと同じです」と彼女は言いました。「学術科学の出版、つまり新しい発見や人類の知識の最先端についての著作では、信憑性のある嘘で文献を汚すわけにはいきません。AI テキストジェネレーターが一般的に使用されれば、それらが出版物に混入することは避けられません。私の知る限り、これらの「幻覚」と呼ばれるものを自動的に見つける絶対確実な方法はありません。完全に信じられそうな AI で作られたナンセンスを実際の科学的事実に埋め込み始めると、それらの出版物は役に立ちません。信頼性も価値も低下するだろう。」

彼女は、彼女の検出方法が成功するかどうかは、査読付きジャーナルで一般的に見られる種類の科学的文章に精査される文章の範囲を狭めるかどうかにかかっていると述べた。これにより、より一般的な文章で AI を検出することを目的とした RoBERTa 検出器などの既存の AI 検出ツールよりも精度が向上します。

「特定の方法で書く人間の特定のグループを考慮するというトレードオフを考慮すると、人間の書き込みと ChatGPT の書き込みを非常に正確に区別する方法を簡単に構築できます」と Desaire 氏は言います。「既存の AI 検出器は通常、あらゆる種類の書き込みに利用できる汎用ツールとして設計されています。それらは本来の目的には役立ちますが、特定の種類の書き込みでは、その目的のために構築されたツールほど正確ではありません。具体的で狭い目的。」

Desaire 氏は、大学の教員、助成金提供団体、出版社はいずれも、人間の頭からの作品として提示された AI 出力を検出する正確な方法を必要としていると述べました。

「『AIの盗作』について考え始めると、90％の精度では十分ではありません」とデゼール氏は言う。「AI を密かに使用していると人々を非難し続けることはできません。また、その非難がしばしば間違っていることもあります。正確性が重要です。しかし、正確性を得るには、一般化可能性がトレードオフになることがほとんどです。」

Desaire の共著者は全員、KU の研究グループの出身者でした。Romana Jarosova、KU 化学助教。 David Huax 氏、情報システムアナリスト。そして大学院生のアリーサ・E・チュアさんとマデリーン・イソムさん。

Desaire 氏と彼女のチームが AI テキストの検出に成功したのは、コードを考案する際に（機械学習によるパターン検出ではなく）人間の高度な洞察力があったからかもしれません。

「検出器が注目する重要な違いを特定するために、はるかに小さいデータセットとはるかに多くの人的介入を使用しました」と Desaire 氏は述べています。「正確に言うと、私たちはトレーニングデータとして人間が書いたドキュメント 64 件と AI ドキュメント 128 件だけを使用して戦略を構築しました。これはおそらく、他の検出器のトレーニングに使用されるデータセットのサイズよりも 10 万分の 1 です。人々は数字をごまかしがちです。しかし、 100,000倍 — それは一杯のコーヒーと家の値段の差ですそこで私たちはこの小さなデータセットを用意しましたこれは超高速に処理できますそしてすべての文書は実際に人間が読むことができます私たちは人間の脳を使いました文書セット内の有用な違いを見つけるために、以前に開発された人間と AI を区別する戦略には依存しませんでした。」

実際、同大学の研究者は、このグループはAI検出に対する過去のアプローチの戦略に依存せずにアプローチを構築したと述べた。その結果得られた技術には、AI テキスト検出の分野に完全にユニークな要素が含まれています。

「これを認めるのは少し恥ずかしいですが、独自の実用的なツールを手に入れるまでは、AI テキスト検出に関する文献を参照することさえしませんでした」と Desaire 氏は言いました。「私たちは、コンピュータ科学者がテキスト検出についてどのように考えているかに基づいてこれを行ったのではなく、何が機能するかについての直感を使用していました。」

もう 1 つの重要な側面では、Desaire と彼女のグループは、AI 検出方法を構築する以前のチームが使用していた方法の台本をひっくり返しました。

「主要な機能を開発する際に、AI テキストに重点を置くことはしませんでした」と彼女は言いました。「私たちは人間のテキストに焦点を当てました。AI 検出器を構築しているほとんどの研究者は、『AI が生成したテキストはどのようなものなのか?』と自問しているようです。」私たちは、「この人間の文章のユニークなグループはどのようなものでしょうか?また、AI の文章とどのように違うのでしょうか?」と尋ねました。 AI ジェネレーターは人間の文章の大規模なリポジトリをつなぎ合わせて構築されているため、最終的には AI の文章は人間の文章ですが、少なくとも ChatGPT によると、AI の文章はさまざまなソースから抽出された一般化された人間の文章です。

「科学者の文章は、一般化された人間の文章ではありません。それは科学者の文章です。そして、私たち科学者は非常に特別なグループです。」

Desaire 氏は、チームの AI 検出コードを構築することに関心のある研究者が完全にアクセスできるようにしました。彼女は、AI と AI 検出は、現在自分をコンピュータープログラマーだと思っていない人でも手の届くところにあるということを他の人が理解してくれることを望んでいます。

「ChatGPT は本当に画期的な進歩であり、非常に多くの人に急速に採用されており、これは私たちの AI への依存の転換点のように思えます」と彼女は言いました。「しかし現実には、ある程度の指導と努力があれば、私たちがやったことは高校生でもできるのです。

「コンピューターサイエンスの学位を持っていない人でも、AI に参加できる大きなチャンスがあります。私たちの原稿の著者の中に、コンピューターサイエンスの学位を持っている人はいません。私がこの研究から得たい成果の 1 つは、次のとおりです。「AI に興味がある人は、私たちのような実際に役立つ製品を開発する障壁がそれほど高くないことを知っているでしょう。少しの知識と創造力があれば、多くの人がこの分野に貢献できます。」

写真提供: Pexels

カンザス大学は、研究および教育を行う主要な総合大学です。大学の使命は、リーダーを教育し、健全なコミュニティを構築し、世界を変える発見をすることで学生と社会を向上させることです。 KU News Service は、ローレンスキャンパスの中央広報局です。

[email protected] | 1450 Jayhawk Blvd.、スイート 37、ローレンス、KS 66045

ブログ

デジタル ツールは、ChatGPT によって生成された学術テキストを 99% の精度で検出します

デジタルツールは、ChatGPT によって生成された学術テキストを 99% の精度で検出します