クロード・オーパス4.8の実地テスト:彼は以前よりもさらに優れた仕事をするが、言葉遣いはさらに辛辣だ
カテゴリー

クロード・オーパス4.8の実地テスト:彼は以前よりもさらに優れた仕事をするが、言葉遣いはさらに辛辣だ

今朝、Anthropic は正式に OpenAI を上回り、新たな評価額を発表し、過去 2 日間噂されていた主力製品ラインの最新バージョンである Claude Opus 4.8 をリリースしました。
Jun 1st,2026 4 ビュー
       今朝、Anthropic は正式に OpenAI を上回り、新たな評価額を発表し、過去 2 日間噂されていた主力製品ラインの最新バージョンである Claude Opus 4.8 をリリースしました。私たちはすぐにそれを入手し、ユーザー コミュニティから初期のフィードバックを収集しました。結論は、より機能的になったものの、「個性」が扱いにくくなったということです。APPSO テスト: 頭脳はアップグレードされましたが、口はなくなりました。私たちは Anthropic が用意したベンチマーク シナリオを使用せず、代わりに、ァ◇ライン コラボレーション プラットフォームから完全な過去の会話記録を抽出してアーカイブするという、私たち自身の実際のニーズでテストしました。データ ボリュームは 30MB を超え、フロントエンド インターフェイス全体に散らばっており、すぐに利用できるエクスポート ボタンはありませんでした。この種のタスクは、モデルがコードを書けるかどうかをテストするのではなく、非専門家の開発者と協力してタスクをゼロから理解して完了できるかどうかをテストします。始まりは偶然の発見でした。テスト担当の同僚が、プラットフォームのフロントエンドインターフェースに過去の履歴データが時折一瞬表示されることに気づきました。まるでデータがクライアントに一時的に読み込まれてすぐに削除されたかのようでした。彼はこの現象を技術的な説明を一切せずに、単に「古いメッセージが一瞬表示されてすぐに消えた」と平易な言葉で伝え、4.8の開発チームに報告しました。
  4.8 彼の意図を理解し、正しい判断を下しました。データはインターフェース要求を通じてロードされ、ブラウザのネットワーク層で傍受できる、というものです。そして、開発者ツール、ネットワークパネル、キーワードフィルタリング、ターゲット要求の特定といった手順をガイドする運用計画を提供しました。判断は正確で、思考も明快でした。しかし、4.8の矛盾はここにあります。思考力は高いのですが、表現が…冗長なのです。技術的な解決策はどれも正しいのですが、各手順の説明に2、3 文も必要になります。方法について尋ねると、まず「もちろん!手順を追って説明しましょう」と言い、箇条書きのリストを出し、最後に「補足説明」として、なぜそのようにすべきなのかを説明します。3 文で説明できることを3 画面分のテキストで説明しています。私はただコーディングができないだけで、頭がおかしくなったわけではありません。
  これは 4.8 で新たに発生した問題ではなく、Opus シリーズでは 4.7 以降ずっと存在してきた長年の問題です。度重なる批判にもかかわらず、このバージョンでは改善されておらず、むしろ悪化している可能性があります。最も時間のかかる部分はエラー修正フェーズです。最初の解決策の後、ユーザーがエラーに遭遇しました。4.8 は問題を正確に特定し、新しい解決策を提供し、失敗した手順を繰り返しませんでした。これは、エラー修正の複数回のラウンド中に、エラーが試行内容を忘れてしまうことがあった 4.6 よりは明らかに優れています。間違いを認めることは良いことですが、あまり厳格になる必要はありません。原因の分析と箇条書きリストを追加すると、技術的な問題のレビューであるはずなのに、カスタマー サービス メールのように読めてしまいます。
  最終的に、データは完全にHAR 形式でエクスポートされ、カスタムスクリプトを使用したクリーニングとレイヤリングもすべて正常に完了しました。一部のユーザーはまだClaude Codeのアップデートを受け取っていませんが、Chrome 版 Claudeはすでにバージョン4.8になっており、Notionなどの主要なァ≌ィスツールにも展開されています。私たちはClaudeを使用して、Chromeで検索やフォームへの入力などの基本的なタスクを実行するテストを行いました。
今天早上,Anthropic 正式超越 OpenAI,公布了新的估值,并发布了其旗舰产品线的最新版本 Claude Opus 4.8,此前已有两天的传闻。我们第一时间上手体验,并收集了一些来自用户社区的早期反馈。结论是:功能更强大了,但“个性”却更难驾驭。APPSO 测试:大脑升级了,但嘴巴却没了。我们没有使用 Anthropic 提供的任何基准测试场景,而是根据我们自身的实际需求进行了测试:从一个在线协作平台提取并归档完整的历史对话记录。数据量超过 30MB,分散在前端界面各处,而且没有现成的导出按钮。这类任务旨在测试模型能否在非专业开发者的协助下,从零开始理解并完成任务,而不是测试它能否编写代码。这一切都源于一次偶然的发现。一位负责测试的同事注意到,历史数据偶尔会在平台的前端界面上短暂闪现。就好像数据被临时加载到客户端后立即被删除了一样。他用浅显易懂的语言向 4.8 开发团队报告了这一现象,没有提供任何技术解释,只是简单地说:“旧消息闪了一下就消失了。” 4.8 理解了他的意图,并做出了正确的判断:数据是通过接口请求加载的,可以在浏览器的网络层进行拦截。随后,他们提供了一套操作方案,指导他使用开发者工具、网络面板、关键词过滤以及识别目标请求等步骤。他的判断准确,思路清晰。然而,问题在于 4.8:他虽然非常聪明,但他的表达方式……过于冗长。他提出的所有技术方案都是正确的,但每个步骤都需要两三句话来解释。当被问及方法时,他先是说:“当然!让我一步一步地解释”,然后列出要点,最后作为“补充说明”,解释为什么要这样做。他用三句话和三屏文字来解释的事情,其实只需要三屏文字就能说清楚。我没疯,只是不会编程。这并非 4.8 版本的新问题;自 4.7 版本以来,Opus 系列就一直存在这个问题。尽管屡遭批评,但此版本并未改进,甚至可能更糟。最耗时的部分是错误修复阶段。初次修复后,用户又会遇到同样的错误。4.8 版本准确地识别出了问题,提供了新的解决方案,并且没有重复失败的步骤。这显然比 4.6 版本好得多,在 4.6 版本中,错误信息似乎会忘记在多次错误修复过程中尝试过哪些方法。承认错误是好事,但也不必过于死板。添加根本原因分析和要点列表,会让原本应该是技术问题回顾的内容读起来更像是一封客户服务邮件。最终,数据以 HAR 格式完美导出,使用自定义脚本进行的清理和分层工作也顺利完成。部分用户尚未收到 Claude Code 的更新,但 Chrome 版 Claude 已更新至 4.8 版本,并已推广至 Notion 等主流应用工具。我们使用 Claude 测试了在 Chrome 浏览器中进行搜索和填写表单等基本操作。

関連ニュース

私たちと一緒に働く準備はできていますか?

お問い合わせ