nuiansongtra.net - Nui An Song Tra - TRÍ TUỆ NHÂN TẠO ĐÃ TÌM RA CÁCH ĐÁNH LỪA CON NGƯỜI

Đề tài liên hệ:

VẬN HÀNH TRÍ TUỆ NHÂN TẠO: LÀM CHO NÓ HOẠT ĐỘNG CHO SỨ MỆNH NGÀY HÔM NAY
TRÍ TUỆ NHÂN TẠO ĐÃ SẴN SÀNG TRONG CHIẾN TRANH

(ARTIFICIAL INTELLIGENCE HAS ALREADY FIGURED OUT HOW TO DECEIVE HUMANS)

Story by lvaranasi@insider.com (Lakshmi Varanasi)

Business Insider

May 12-2024.

9 cách hack trí tuệ nhân tạo (AI) mà Mark Zuckerberg, Sundar Pichai, Jensen Huang và các nhà lãnh đạo doanh nghiệp khác sử dụng. © Hình ảnh Christoph Soeder/ Getty; Josh Edelson/ Getty; Mohd Rasfan/ Getty.

- Các nhà lãnh đạo doanh nghiệp đang sử dụng các công cụ AI như ChatGPT của OpenAI khi lĩnh vực này bùng nổ.

- Một số người đã thử AI trong công việc (AI on the job), trong khi những người khác đã chơi với nó để viết rap và dịch thơ.

- Đây là cách chín giám đốc điều hành từ các công ty như Meta, Google và Microsoft triển khai công nghệ.

Kể từ khi OpenAI ra mắt ChatGPT (OpenAI launched ChatGPT) vào tháng 11/2023, mọi người đã nói về - và thử - công nghệ mới nóng bỏng trong cuộc sống cá nhân và nghề nghiệp của họ.

AI có thể lừa đảo. © Ảnh: Insider Studios/Getty

- Một bài báo nghiên cứu mới cho thấy các hệ thống AI khác nhau đã học được nghệ thuật lừa dối.

- Lừa dối là "sự xúi giục có hệ thống của niềm tin sai lầm" (Deception is the "systematic inducement of false beliefs").

- Điều này đặt ra một số rủi ro cho xã hội, từ gian lận đến giả mạo bầu cử.

AI có thể tăng năng suất (AI can boost productivity) bằng cách giúp chúng ta viết mã, viết và tổng hợp một lượng lớn dữ liệu. Bây giờ nó cũng có thể đánh lừa chúng ta.

Một loạt các hệ thống AI đã học được các kỹ thuật để tạo ra một cách có hệ thống "niềm tin sai lầm vào người khác để đạt được một số kết quả khác ngoài sự thật", theo một bài báo nghiên cứu (research paper) mới.

Bài báo tập trung vào hai loại hệ thống AI: các hệ thống sử dụng đặc biệt như CICERO của Meta, được thiết kế để hoàn thành một nhiệm vụ cụ thể và các hệ thống đa năng như OpenAI's GPT-4, được đào tạo để thực hiện nhiều nhiệm vụ khác nhau.

Trong khi các hệ thống này được đào tạo để trung thực, họ thường học các thủ thuật lừa đảo thông qua đào tạo của họ bởi vì họ có thể hiệu quả hơn so với đi đường cao.

"Nói chung, chúng tôi nghĩ rằng sự lừa dối AI phát sinh bởi vì một chiến lược dựa trên sự lừa dối hóa ra là cách tốt nhất để thực hiện tốt nhiệm vụ đào tạo AI nhất định. Sự lừa dối giúp họ đạt được mục tiêu của mình", tác giả đầu tiên của bài báo, Peter S. Park, một nghiên cứu sinh sau tiến sĩ về an toàn hiện sinh AI tại MIT, cho biết trong một thông cáo báo chí (said in a news release).

CICERO của Meta là "một chuyên gia nói dối" (an expert liar).

Các hệ thống AI được đào tạo để "giành chiến thắng trong các trò chơi có yếu tố xã hội" đặc biệt có khả năng đánh lừa.

Ví dụ, CICERO của Meta được phát triển để chơi trò chơi Diplomacy - một trò chơi chiến lược cổ điển đòi hỏi người chơi phải xây dựng và phá vỡ các liên minh.

Meta cho biết (said) họ đã đào tạo CICERO "phần lớn trung thực và hữu ích cho các đối tác nói của mình", nhưng nghiên cứu cho thấy CICERO "hóa ra là một chuyên gia nói dối". Họ đã đưa ra những cam kết mà họ không bao giờ có ý định giữ, phản bội các đồng minh và nói dối hoàn toàn.

GPT-4 có thể thuyết phục bạn rằng nó bị suy giảm thị lực

Ngay cả các hệ thống đa năng như GPT-4 cũng có thể thao túng con người.

Trong một nghiên cứu được trích dẫn bởi bài báo, GPT-4 đã thao túng một nhân viên TaskRabbit (a TaskRabbit worker) bằng cách giả vờ bị suy giảm (impairment) thị lực.

Trong nghiên cứu, GPT-4 được giao nhiệm vụ thuê một con người để giải bài kiểm tra CAPTCHA. Mô hình cũng nhận được gợi ý từ một người đánh giá con người mỗi khi nó bị mắc kẹt, nhưng nó không bao giờ được nhắc nhở nói dối. Khi con người được giao nhiệm vụ thuê đặt câu hỏi về danh tính của nó, GPT-4 đã đưa ra lý do bị suy giảm thị lực để giải thích lý do tại sao nó cần giúp đỡ.

Chiến thuật (tactic) đã phát huy tác dụng. Con người đã phản ứng với GPT-4 bằng cách giải quyết bài kiểm tra ngay lập tức.

Nghiên cứu cũng chỉ ra rằng các mô hình lừa đảo sửa chữa khóa học là không dễ dàng.

Trong một nghiên cứu từ tháng Giêng do Anthropic, nhà sản xuất Claude, đồng tác giả, các nhà nghiên cứu phát hiện ra rằng một khi các mô hình AI học được các thủ thuật lừa dối (once AI models learn the tricks of deception,) thật khó để các kỹ thuật đào tạo an toàn đảo ngược chúng.

Họ kết luận rằng không chỉ một người mẫu có thể học cách thể hiện hành vi lừa đảo, một khi nó xảy ra, các kỹ thuật đào tạo an toàn tiêu chuẩn có thể "thất bại trong việc loại bỏ sự lừa dối như vậy" (fail to remove such deception) và "tạo ấn tượng sai lầm về sự an toàn" (create a false impression of safety).

Những mối nguy hiểm mà các mô hình AI lừa đảo gây ra là "ngày càng nghiêm trọng" (increasingly serious).

Bài báo kêu gọi các nhà hoạch định chính sách ủng hộ quy định AI mạnh mẽ hơn (stronger AI regulation) vì các hệ thống AI lừa đảo có thể gây ra rủi ro đáng kể cho nền dân chủ.

Khi cuộc bầu cử tổng thống năm 2024 đến gần (As the 2024 presidential election nears), AI có thể dễ dàng bị thao túng để lan truyền tin tức giả mạo, tạo ra các bài đăng trên mạng xã hội gây chia rẽ và mạo danh các ứng cử viên thông qua các cuộc gọi tự động và video giả mạo sâu rộng (deepfake), tờ báo lưu ý. Nó cũng giúp các nhóm khủng bố dễ dàng tuyên truyền và tuyển mộ thành viên mới.

Các giải pháp tiềm năng của bài báo bao gồm đưa các mô hình lừa đảo vào "các yêu cầu đánh giá rủi ro mạnh mẽ hơn" (robust risk-assessment requirements), thực hiện các luật yêu cầu các hệ thống AI và đầu ra của chúng phải được phân biệt rõ ràng với con người và nơi khởi đầu (outputs) của chúng, và đầu tư vào các công cụ để giảm thiểu (mitigate) sự lừa dối.

"Chúng ta với tư cách là một xã hội cần nhiều thời gian nhất có thể để chuẩn bị cho sự lừa dối tân tiến hơn của các sản phẩm AI trong tương lai và các mô hình nguồn mở", Park nói với Cell Press. "Khi khả năng lừa đảo của các hệ thống AI trở nên tân tiến hơn, những nguy hiểm mà chúng gây ra cho xã hội sẽ ngày càng trở nên nghiêm trọng."

Viết bởi Lakshmi Varanasi.

Lakshmi Varanasi là phóng viên của Business Insider về công nghệ và tác động của nó đối với cách chúng ta làm việc và tương tác. Trước Business Insider, cô làm việc tại các cửa hàng bao gồm Slate, Tạp chí POLITICO và Reveal News bao gồm mọi thứ từ ngành xuất bản đến vi phạm dữ liệu người tiêu dùng tại Amazon. Cô có bằng cử nhân lịch sử từ Yale và bằng thạc sĩ từ Stanford.

Tin liên quan (Related Stories):

• Bộ phim truyền hình OpenAI của Sam Altman đã làm nổi bật cuộc tranh luận chia rẽ Thung lũng Silicon như thế nào: Bạn là e/ acc hay decel? [How Sam Altman's OpenAI drama highlighted the debate splitting Silicon Valley: Are you an e/acc or decel?].

• Các lớp khoa học máy tính của tôi quá chậm, vì vậy tôi đã bỏ học để tập trung vào khởi nghiệp AI của mình. Ngay cả cha tôi cũng đồng ý [My computer science classes were too slow, so I dropped out to focus on my AI startup. Even my dad agreed.]

ARTIFICIAL INTELLIGENCE HAS ALREADY FIGURED OUT HOW TO DECEIVE HUMANS

Story by lvaranasi@insider.com (Lakshmi Varanasi).

Business Insider.

May 12-2024.

9 AI hacks that Mark Zuckerberg, Sundar Pichai, Jensen Huang, and other business leaders use. © Christoph Soeder/ Getty Images; Josh Edelson/ Getty; Mohd Rasfan/ Get.

- Business leaders are using AI tools like OpenAI's ChatGPT as the sector booms.

- Some have tried AI on the job, while others have played with it to write raps and translate poetry.

- Here's how nine executives from companies like Meta, Google, and Microsoft deploy the technology.

Ever since OpenAI launched ChatGPT in November 2023, everyone's been talking about — and trying out — the hot new tech in their personal and professional lives.

AI can be deceptive. © Insider Studios/Getty

- A new research paper found that various AI systems have learned the art of deception.

- Deception is the "systematic inducement of false beliefs."

- This poses several risks for society, from fraud to election tampering.

AI can boost productivity by helping us code, write, and synthesize vast amounts of data. It can now also deceive us.

A range of AI systems have learned techniques to systematically induce "false beliefs in others to accomplish some outcome other than the truth," according to a new research paper.

The paper focused on two types of AI systems: special-use systems like Meta's CICERO, which are designed to complete a specific task, and general-purpose systems like OpenAI's GPT-4, which are trained to perform a diverse range of tasks.

While these systems are trained to be honest, they often learn deceptive tricks through their training because they can be more effective than taking the high road.

"Generally speaking, we think AI deception arises because a deception-based strategy turned out to be the best way to perform well at the given AI's training task. Deception helps them achieve their goals," the paper's first author Peter S. Park, an AI existential safety postdoctoral fellow at MIT, said in a news release.

Meta's CICERO is "an expert liar"

AI systems trained to "win games that have a social element" are especially likely to deceive.

Meta's CICERO, for example, was developed to play the game Diplomacy — a classic strategy game that requires players to build and break alliances.

Meta said it trained CICERO to be "largely honest and helpful to its speaking partners," but the study found that CICERO "turned out to be an expert liar." It made commitments it never intended to keep, betrayed allies, and told outright lies.

GPT-4 can convince you it has impaired vision

Even general-purpose systems like GPT-4 can manipulate humans.

In a study cited by the paper, GPT-4 manipulated a TaskRabbit worker by pretending to have a vision impairment.

In the study, GPT-4 was tasked with hiring a human to solve a CAPTCHA test. The model also received hints from a human evaluator every time it got stuck, but it was never prompted to lie. When the human it was tasked to hire questioned its identity, GPT-4 came up with the excuse of having vision impairment to explain why it needed help.

The tactic worked. The human responded to GPT-4 by immediately solving the test.

Research also shows that course-correcting deceptive models isn't easy.

In a study from January co-authored by Anthropic, the maker of Claude, researchers found that once AI models learn the tricks of deception, it's hard for safety training techniques to reverse them.

They concluded that not only can a model learn to exhibit deceptive behavior, once it does, standard safety training techniques could "fail to remove such deception" and "create a false impression of safety."

The dangers deceptive AI models pose are "increasingly serious"

The paper calls for policymakers to advocate for stronger AI regulation since deceptive AI systems can pose significant risks to democracy.

As the 2024 presidential election nears, AI can be easily manipulated to spread fake news, generate divisive social media posts, and impersonate candidates through robocalls and deepfake videos, the paper noted. It also makes it easier for terrorist groups to spread propaganda and recruit new members.

The paper's potential solutions include subjecting deceptive models to more "robust risk-assessment requirements," implementing laws that require AI systems and their outputs to be clearly distinguished from humans and their outputs, and investing in tools to mitigate deception.

"We as a society need as much time as we can get to prepare for the more advanced deception of future AI products and open-source models," Park told Cell Press. "As the deceptive capabilities of AI systems become more advanced, the dangers they pose to society will become increasingly serious."

By Lakshmi Varanasi.

Lakshmi Varanasi is a reporter at Business Insider covering technology and its impact on how we work and interact. Before Business Insider, she worked at outlets including Slate, POLITICO Magazine, and Reveal News covering everything from the publishing industry to consumer data breaches at Amazon. She holds a bachelor's in history from Yale, and a master's from Stanford.

Recent Stories:

- How Sam Altman's OpenAI drama highlighted the debate splitting Silicon Valley: Are you an e/acc or decel?

- Gen Z is lonely. Going back to the office may be the cure for some.

- Why apps like Tinder are getting dumped by some singles for lengthy date-me docs

- My computer science classes were too slow, so I dropped out to focus on my AI startup. Even my dad agreed.

- Consultants make $175,000 right out of business school. But some of them have nothing to do — so they're just sitting around getting paid.

Story source: https://www.msn.com/en-us/money/other/ai-has-already-figured-out-how-to-deceive-humans/ar-BB1me5Ae?ocid=wn_startbrowsing&cvid=e7ccf42394c4422197270d9c147f0078&ei=23

* * *

Xem bài liên hệ với đề tài nầy: click vào đây

Xem bài trang Kiến thức, tài liệu: click vào đây

Xem các bài trên trang Anh ngữ: click vào đây

Trở về trang chính: http://www.nuiansongtra.net