What is the Deep Web? A first trip into the abyss
By Mohit Kumar
The Hacker News
Wednesday, May 30, 2012
Internet được xem là nguồn trí thức rất lớn của nhân loại, song trên thực tế Deep Web (Web Ẩn) mới chứa đựng thông tin nhiều hơn những gì bạn có thể thấy qua… tìm kiếm Google
Liệu bạn có cảm thấy sốc khi biết được rằng ngầm bên dưới của internet là cả một thế giới nội dung rộng lớn gấp nhiều lần hơn thế giới World Wide Web (www) mà chúng ta có thể tiếp cận hiện nay? Các chuyên gia ước tính rằng các Web Ẩn mà các máy tìm kiếm hiện nay không thể chạm tới đang chứa lượng nội dung nhiều gấp 500 lần so với www.
Deep Web (tạm dịch là Web Ẩn) là các nguồn dữ liệu, thông tin dạng Web trên internet nhưng không thể tìm thấy trên các máy tìm kiếm thông thường hiện nay như Google, Bing… Có rất nhiều nghiên cứu cho thấy các bộ máy tìm kiếm hiện nay chỉ lập được chỉ mục (indexing) cho một phần rất nhỏ của tất cả các nội dung web hiện có trên internet, còn phần rất lớn của chúng thì hoàn toàn không được đại đa số người dùng biết đến.
Chuyên gia về Web Ẩn Mike Bergman – sáng lập viên của công ty BrightPlanet đã đưa ra một hình ảnh so sánh như bên dưới. Dựa trên hình ảnh mô tả này, có thể thấy các dữ liệu www hiện nay thông qua cách tìm kiếm trên các bộ máy tìm kiếm (Google, Bing…) giống như bề mặt của đại dương, rất nhiều thứ có giá trị có thể được tìm thấy trên bề mặt này, thế nhưng những mỏ dữ liệu – thông tin có kích thước lớn hơn, giá trị hơn lại nằm sâu, thậm chí rất sâu dưới bề mặt yên ả của đại dương internet, các dữ liệu này thường được ẩn khỏi các bộ máy tìm kiếm.
Thông thường các bộ máy tìm kiếm sẽ lục lọi trên internet để thu thập các dữ liệu bằng một dạng phần mềm gọi là “Crawler” (chương trình thu thập thông tin). Công nghệ này hoàn toàn không hiệu quả trong việc lục tìm các Web Ẩn. Các chuyên gia về mạng Internet đã phân các dạng Web Ẩn thành các loại sau:
- Dữ liệu web động: các trang web động có nội dung được sinh ra dựa vào các yêu cầu truy vấn nội dung đặc biệt hoặc truy cập thông qua các biểu mẫu truy vấn nội dung.
- Các nội dung không được tạo liên kết hyperlink: các trang nội dung web không được liên kết tới từ bất kỳ website nào và bản thân nó cũng không có liên kết tham chiếu nào đến trang web khác. Có thể hiểu rằng việc này giống việc bạn đưa lên internet một tờ giấy A4 chỉ chứa nội dung mà không hề có một đường liên kết nào cả.
- Các website buộc xác thực truy cập: các trang web yêu cầu muốn truy cập nội dung của nó thì thực hiện việc đăng ký và đăng nhập.
- Các website có nội dung thay đổi theo ngữ cảnh: các trang web này hiển thị nội dung thay đổi tùy thuộc vào một số điều kiện tác động, ví dụ như người dùng từ các dải IP của châu Á truy cập vào thì sẽ được xem nội dung phù hợp cho khu vực châu Á.
- Các nội dung web bị giới hạn truy cập: một số trang web giới hạn việc truy cập tới các nội dung của nó bằng một số phương pháp kỹ thuật như file Robots.txt, CAPTCHAs hoặc tham số HTTP headers để ngăn cấm các máy tìm kiếm truy cập cũng như tạo bản cache nội dung.
- Nội dung sinh từ script hoặc Flash/ Ajax: một số website chỉ có thể truy cập thông qua một liên kết được sinh ra bởi một đoạn mã JavaScript, nội dung được nhúng bên trong Flash hoặc chỉ có thể được tải về thông qua Ajax.
- Nội dung phi HTML hoặc text: tức là các nội dung văn bản nhưng được hiển thị bên trong một tấm hình, video hoặc một số định dạng tập tin mà các máy tìm kiếm không thể đọc được.
- Nội dung văn bản chỉ có thể truy cập thông qua giao thức Gopher hoặc các tập tin được lưu trữ trên các máy chủ FTP thì không được lập chỉ mục bởi hầu hết các máy tìm kiếm hiện nay: các máy tìm kiếm thông dụng như Google mặc nhiên không lập chỉ mục cho các trang không dùng giao thức HTTP hoặc HTTPS
Thế giới Web Ẩn song song này còn rộng lớn hơn nữa với rất nhiều nguồn thông tin, dữ liệu đa dạng thuộc các hệ thống mạng (có đấu nối với internet) của các doanh nghiệp, các chính phủ và cả của các tổ chức tội phạm mạng (như các nguồn dữ liệu bị đánh cắp và công bố bởi Anonymous, LulzSec…).
Khái niệm Web Ẩn thường đi kèm với ý tưởng về các nguồn dữ liệu bị đánh cắp, các nguồn dữ liệu bí mật thuộc các hệ thống bí ẩn không thể truy cập được. Thực ra đây chỉ là một sự hiểu biết sai lầm về Web Ẩn, các nội dung này vẫn có thể truy cập được theo một cách nào đó và trong một giới hạn nào đó, tuy nhiên chắc chắn rất khó để tìm thấy chúng bằng cách lục lọi trên một máy tìm kiếm phổ thông nào đó. Web Ẩn chính là giới hạn kỹ thuật mà các máy tìm kiếm hiện nay đang cố vượt qua.
Nói đơn giản, khi bạn kiểm tra email, online shopping hay vào Facebook … là bạn đang sử dụng “phần bề mặt” của Web (Surface Web / Visible Web) , hay là phần “hiện hữu” mà các công cụ tìm kiếm như Yahoo, Google có thể tìm ra. Điều đó có nghĩa là, có một phần còn lại của mạng internet bị ẩn đi, và ẩn sau đó là nhiều điều không phải ai cũng biết hoặc … không nên biết.
Trong một thế giới mạng luôn yêu cầu công bố rộng rãi danh tính cá nhân mà Facebook đang muốn như hiện nay, Web Ẩn vẫn là nơi những người chuyên về mạng yêu thích như 4chan chẳng hạn, tại đó người dùng cảm giác mình có quyền tự do hơn bởi danh tính của họ hoàn toàn được giữ kín thông qua kỹ thuật.
Sự phát triển của Web Ẩn đồng thời cũng mở ra cơ hội cho các loại hình chợ bất hợp pháp phát triển mạnh. Điển hình là trang “Con đường tơ lụa” (Silk Road) được tổ chức tương tự như Amazon, cung cấp môi trường cho người mua và bán hàng hóa sử dụng tiền tệ là Bitcoin, đồng tiền kỹ thuật số mà ở đó hầu như không thể dò ra được chủ sở hữu. Silk Road tiếp cận với khách hàng thân thiện và đảm bảo tính ẩn danh nên nhanh chóng trở thành địa chỉ cho các tay buôn lậu. Tới năm 2013 khi Silk Road bị đóng cửa, FBI cho biết thị trường này đã thu hút 14.000 nhà cung cấp, 957.059 thành viên và đã có hơn 1,2 triệu lượt giao dịch với tổng trị giá 214 triệu USD. Song rất nhiều chợ bất hợp pháp khác như Agora, AlphaBay lên thay thế và việc kinh doanh cũng thực sự phát triển. Song theo báo cáo của các nhà nghiên cứu tại Carnegie Mellon, giao dịch trên các thị trường ẩn danh không vượt quá 500.000 USD mỗi ngày.
Mohit Kumar
Mohit Kumar is Founder and Editor-in-Chief of 'The Hacker News'. Cyber Security Analyst, Information Security Researcher, Developer and Part-Time Hacker.
What is the Deep Web? A first trip into the abyss
By Mohit Kumar
The Hacker News
Wednesday, May 30, 2012
The Deep Web (or Invisible web) is the set of information resources on the World Wide Web not reported by normal search engines.
According several researches the principal search engines index only a small portion of the overall web content, the remaining part is unknown to the majority of web users.
What do you think if you were told that under our feet, there is a world larger than ours and much more crowded? We will literally be shocked, and this is the reaction of those individual who can understand the existence of the Deep Web, a network of interconnected systems, are not indexed, having a size hundreds of times higher than the current web, around 500 times.
Very exhaustive is the definition provided by the founder of BrightPlanet, Mike Bergman, that compared searching on the Internet today to dragging a net across the surface of the ocean: a great deal may be caught in the net, but there is a wealth of information that is deep and therefore missed.
Ordinary search engines to find content on the web using software called "crawlers". This Deep Web technique is ineffective for finding the hidden resources of the Web that could be classified into the following categories:
- Dynamic content: dynamic pages which are returned in response to a submitted query or accessed only through a form, especially if open-domain input elements (such as text fields) are used; such fields are hard to navigate without domain knowledge.
- Unlinked content: pages which are not linked to by other pages, which may prevent Web crawling programs from accessing the content. This content is referred to as pages without backlinks (or inlinks).
- Private Web: sites that require registration and login (password-protected resources).
- Contextual Web: pages with content varying for different access contexts (e.g., ranges of client IP addresses or previous navigation sequence).
- Limited access content: sites that limit access to their pages in a technical way (e.g., using the Robots Exclusion Standard, CAPTCHAs, or no-cache Pragma HTTP headers which prohibit search engines from browsing them and creating cached copies).
- Scripted content: pages that are only accessible through links produced by JavaScript as well as content dynamically downloaded from Web servers via Flash or Ajax solutions.
- Non-HTML/text content: textual content encoded in multimedia (image or video) files or specific file formats not handled by search engines.
- Text content using the Gopher protocol and files hosted on FTP that are not indexed by most search engines. Engines such as Google do not index pages outside of HTTP or HTTPS.
A parallel web that has a much wider number of information represents an invaluable resource for private companies, governments, and especially cybercrime. In the imagination of many persons, the Deep Web term is associated with the concept of anonymity that goes with criminal intents the cannot be pursued because submerged in an inaccessible world.
As we will see this interpretation of the Deep Web is deeply wrong, we are facing with a network definitely different from the usual web but in many ways repeats the same issues in a different sense.
What is a Tor? How to preserve the anonymity?
Tor is the acronym of "The onion router", a system implemented to enable online anonymity. Tor client software routes Internet traffic through a worldwide volunteer network of servers hiding user's information eluding any activities of monitoring.
As usually happen, the project was born in military sector, sponsored the US Naval Research Laboratory and from 2004 to 2005 it was supported by the Electronic Frontier Foundation.
Actually the software is under development and maintenance of Tor Project. A user that navigate using Tor it's difficult to trace ensuring his privacy because the data are encrypted multiple times passing through nodes, Tor relays, of the network.
Connecting to the Tor network
Imagine a typical scenario where Alice desire to be connected with Bob using the Tor network. Let’s see step by step how it is possible.
She makes an unencrypted connection to a centralized directory server containing the addresses of Tor nodes. After receiving the address list from the directory server the Tor client software will connect to a random node (the entry node), through an encrypted connection. The entry node would make an encrypted connection to a random second node which would in turn do the same to connect to a random third Tor node. The process goes on until it involves a node (exit node) connected to the destination.
Consider that during Tor routing, in each connection, the Tor node are randomly chosen and the same node cannot be used twice in the same path.
To ensure anonymity the connections have a fixed duration. Every ten minutes to avoid statistical analysis that could compromise the user’s privacy, the client software changes the entry node.
Up to now we have considered an ideal situation in which a user accesses the network only to connect to another. To further complicate the discussion, in a real scenario, the node Alice could in turn be used as a node for routing purposes with other established connections between other users.
A malevolent third party would not be able to know which connection is initiated as a user and which as node making impossible the monitoring of the communications.
After this necessary parenthesis on Tor network routing we are ready to enter the Deep Web simply using the Tor software from the official web site of the project. Tor is able to work on all the existing platforms and many add-ons make simple they integration in existing applications, including web browsers. Despite the network has been projected to protect user’s privacy, to be really anonymous it's suggested to go though a VPN.
A better mode to navigate inside the deep web is to use the Tails OS distribution which is bootable from any machine don't leaving a trace on the host. Once the Tor Bundle is installed it comes with its own portable Firefox version, ideal for anonymous navigation due an appropriate control of installed plugins, in the commercial version in fact common plugins could expose our identity.
Once inside the network, where it possible to go and what is it possible to find?
Well once inside the deep web we must understand that the navigation is quite different from ordinary web, every research is more complex due the absence of indexing of the content.
A user that start it's navigation in the Deep Web have to know that a common way to list the content is to adopt collection of Wikis and BBS-like sites which have the main purpose to aggregate links categorizing them in more suitable groups of consulting. Another difference that user has to take in mind is that instead of classic extensions (e.g. .com, .gov) the domains in the Deep Web generally end with the .onion suffix.
Following a short list of links that have made famous the Deep Web published on Pastebin.
Cleaned Hidden Wiki should be a also a good starting point for the first navigation. Be careful, some content are labeled with common used tag such as CP= child porn, PD is pedophile, stay far from them.
The Deep Web is considered the place where every thing is possible, you can find every kind of material and services for sale, most of them illegal. The hidden web offers to cybercrime great business opportunity, hacking services, malware, stolen credit cards, weapons.
We all know the potentiality of the e-commerce in ordinary web and its impressive growth in last couple of years, well now imagine the Deep Web market that is more that 500 times bigger and where there is no legal limits on the odds to sell. We are facing with amazing business controlled by ciber criminal organizations.
Speaking of dark market we cannot avoid to mention Silk Road web site, an online marketplace located in the Deep Web, the majority of its products are derived from illegal activities. Of course it's not the only one, many other markets are managed to address specify products, believe me, many of them are terrifying.
Most transactions on the Deep Web accept Bitcoin system for payments allowing the purchase of any kind of products preserving the anonymity of the transaction, encouraging the development of trade in respect to any kind of illegal activities. We are facing with a with an autonomous system that advantage the exercise of criminal activities while ensuring the anonymity of transactions and the inability to track down the criminals.
But is it really all anonymous? Is it possible to be traced in the Deep Web? What is the position of the governments towards the Deep Web?
I will provide more information on the topic in next articles ... in meantime let me thank a great expert of the Deep Web, "The gAtOmAlO" with whom I collaborate on a project which we will present you soon.
Mohit Kumar
Mohit Kumar is the Founder and Editor-in-chief at 'The Hacker News' which is an Internationally recognized as a leading news source dedicated to promoting awareness for security experts and hackers. The Hacker News was originally founded in November 2010 with the mission to make the Internet more secure and reliable. Mohit is Hard working Security Researcher & Analyst, with experience in various aspects of Information Security.
Mohit is uniquely qualified with ability to bridge the knowledge and standard platform gap between the Underground Hackers, Security Researcher and law enforcement through his various projects. His all efforts are Supported and endorsed by administrators and members of various underground hacking groups, Security Researcher and communities worldwide, he has become a global leader in information security and renowned Ethical Hacker.
He is also Editor and Designer of The Hacker News (THN) Monthly Magazine, one of the most comprehensive and informative collection of security, hacking, and innovative technological notions on the market today. His editorials always get people thinking and participating in the new and exciting world of cyber security.
He is also the Founder of India's first Blackhat hackers conference, founded in July 2012 as 'The Hackers Conference'. He was covered by Digital and Print media many times for his Security talks, analyses at 'The Hacker News' & Infosec Trainings. Other than this: He is Red Hat Certified Security Specialist (RHCSS), Web Developer, Designer, Blogger, Internet Activist.
Specialties: Cyber Security Consultant , Red Hat Certified Linux Server Security Specialist (RHCSS), Red Hat Certified Virtualization Administrator (RHCVA), Penetration Tester, Ethical Hacker, SEO Expert, Cyber Crime Investigator, Web Developer, Graphic Designer, Server Administrator
This article was originally published on 08:45:42 PM, Dec 06, 2015 and has been updated.
* * *
Xem bài liên hệ cùng chủ đề: click vào đây
Xem trang “Kiến thức & tài liệu”: click vào đây
Trở về trang chính: http://www.nuiansongtra.net