Google trình làng công cụ tìm kiếm tập dữ liệu

Theo dõi VGT trên

Google đang áp dụng thử nghiệm công cụ tìm kiếm tập dữ liệu cho cộng đồng khoa học.

Công cụ tìm kiếm tập dữ liệu (Dataset Search) mới ra mắt của Google được kỳ vọng sẽ trở thành bạn đồng hành hữu hiệu với Google Scholar – công cụ tìm kiếm nghiên cứu và báo cáo học thuật hiện tại. Các viện nghiên cứu của các trường Đại học hay các tổ chức chính phủ khi công bố dữ liệu online sẽ cần thêm các metadata tags (các tags siêu dữ liệu) ở trang web để cung cấp mô tả về dữ liệu, bao gồm các thông tin về tác giả, thời gian công bố, cách thức dữ liệu được thu thập… Những thông tin này sau đó sẽ được sắp xếp lại theo thứ tự thành mục lục trên Dataset Search.

Phát biểu trong bài phỏng vấn của The Verge, Natasha Noy – một nhà khoa học nghiên cứu tại Google AI, người đã góp phần tạo nên Dataset Search – chia sẻ về mục tiêu hợp nhất 10.000 kho dữ liệu online: “Chúng tôi muốn dữ liệu được chia sẻ nhưng không bị di chuyển mà ở nguyên tại nơi đang lưu giữ”.

Hiện tại, các tập dữ liệu công khai khá rời rạc. Mỗi lĩnh vực khoa học khác nhau lại có kho dữ liệu riêng. Điều này xảy ra tương tự với các kho dữ liệu của chính phủ hay chính quyền địa phương. Natasha Noy cho biết thêm: “Các nhà khoa học chia sẻ rằng họ biết chính xác nơi tìm kiếm dữ liệu cho lĩnh vực của họ nhưng không phải lúc nào cũng vậy. Khi bước ra khỏi lĩnh vực thế mạnh của mình, họ sẽ gặp khó khăn”.

Noy lấy ví dụ về cuộc trò chuyện mới đây với một nhà nghiên cứu khí hậu. Cô than phiền với Noy rằng mình đang tìm kiếm tập dữ liệu về nhiệt độ đại dương cho một nghiên cứu sắp tới nhưng không thể thấy. Mãi đến khi tình cờ gặp một người đồng nghiệp ở một buổi hội thảo, cô mới biết dữ liệu mình cần được lưu giữ ở đâu. Cũng chỉ đến lúc đó cô mới có thể tiếp tục nghiên cứu của mình.

“Thậm chí đó không phải là một kho dữ liệu quý hiếm đặc biệt” – Noy nhấn mạnh – “Tập dữ liệu được ghi chép và lưu giữ ở một nơi khá nổi tiếng nhưng vẫn rất khó để tìm thấy”.

Google trình làng công cụ tìm kiếm tập dữ liệu - Hình 1

Video đang HOT

Ví dụ cho kết quả tìm kiếm về báo cáo thời tiết bằng Google Dataset Search

Trong lần ra mắt đầu tiên, Dataset Search sẽ bao gồm các chủ đề khoa học môi trường, khoa học xã hôi, dữ liệu chính phủ và các tập dữ liệu từ những viện tin tức như ProPublica. Tuy nhiên, nếu ứng dụng này trở nên phổ biến, lượng dữ liệu thu thập được sẽ tăng lên nhanh chóng bởi các viện nghiên cứu và các nhà khoa học sẽ tranh nhau chia sẻ thông tin của họ.

Jeni Tennison – CEO của Viện nghiên cứu Dữ liệu mở (ODI) – cho hay: “Tìm kiếm tập dữ liệu luôn khó khăn nhưng tôi hy vọng sự tham gia của Google sẽ giúp điều này trở nên dễ dàng hơn”.

Theo Tennison, để tạo một công cụ tìm kiếm hiệu quả, cần phải nắm rõ hai điều. Thứ nhất là cần xây dựng một hệ thống thân thiện với người dùng. Thứ hai, cần tìm hiểu tâm lý hành vi hay ý định của người dùng khi họ gõ các cụm từ cụ thể để tìm kiếm. Google biết cách thực hiện cả hai điều trên.

Thật vậy, Tennison chia sẻ, lý tưởng nhất là Google sẽ công bố hướng dẫn cách vận hành của Dataset Search. Mặc dù các metadata tags sẽ công khai nguồn dữ liệu được công bố, các công cụ lấy dữ liệu tự động vẫn là một tiêu chuẩn mở, nghĩa là bất kỳ đối thủ nào, ví dụ như Bing hay Yandex, đều có thể phát triển một dịch vụ cạnh tranh. Công cụ tìm kiếm phát triển nhanh nhất chỉ khi một lượng người dùng đáng kể cùng chia sẻ dữ liệu của họ.

“Điều cơ bản và quan trọng nhất là phải hiểu cách mọi người tìm kiếm thông tin” – Tennison nói – “Nếu chúng ta muốn hiểu được cách mọi người tìm kiếm thông tin và khiến thông tin dễ dàng được tìm thấy, sẽ thật tuyệt nếu Google chia sẻ dữ liệu của chính họ về điều này”.

Theo vtv

Công cụ tìm kiếm của Google tại Trung Quốc lưu trữ cả số điện thoại người dùng

Thông tin đáng quan ngại tiếp theo về dự án Dragonfly của Google tiếp tục được The Intercept đăng tải. Một số nguồn tin cho hay, nguyên mẫu công cụ tìm kiếm mà Google xây dựng tại Trung Quốc sẽ lưu trữ cả số điện thoại của người dùng.

Công cụ tìm kiếm của Google tại Trung Quốc lưu trữ cả số điện thoại người dùng - Hình 1

Tang web 256.com ghi lại năm 2008, trang web được Google mua lại từ công ty Cai Wensheng.

Theo nguồn tin của The Intercept, Google đã hoàn thành nguyên mẫu của công cụ tìm kiếm mới cho phép chính phủ Trung Quốc kiểm duyệt. Công cụ này sẽ liên kết kết quả với số điện thoại của người dùng để giúp Bắc Kinh dễ dàng theo dõi và truy vấn bất kỳ trường hợp nào vi phạm chính sách của họ.

Công cụ tìm kiếm nói trên nằm trong dự án bí mật có tên Dragonfly cho các thiết bị sử dụng hệ điều hành Android. Hệ thống sẽ tự động xóa các nội dung mà các nhà hành pháp Trung Quốc cho là nhạy cảm, chẳng hạn thông tin chống lại chính phủ nước này, các thông tin về tự do ngôn luận, dân chủ, bình quyền và kêu gọi biểu tình.

Cùng với một số thông tin đã được tiết lộ trước đây về dự án Dragonfly, The Intercept cho rằng để xây dựng "Vạn lý trường thành" trên mạng Internet cho chính phủ Trung Quốc, Google đã biên soạn sẵn một bản danh sách đen các từ khóa bị kiểm duyệt bao gồm: "quyền con người", "sinh viên biểu tình" và "giải thưởng Nobel" bằng tiếng Trung phổ thông.

Các tổ chức hoạt động vì nhân quyền hàng đầu đã chỉ trích gay gắt dự án Dragonfly. Họ cho rằng việc tiếp tay cho Bắc Kinh là hành vi "đồng lõa, vi phạm nhân quyền". Mối quan tâm lớn nhất của các nhà hoạt động nhân quyền không chỉ là vấn đề kiểm duyệt, mà tất cả dữ liệu người dùng trên công cụ tìm kiếm này đều được Google lưu trữ trên cơ sở dự liệu tại Đại lục. Nhờ đó, chính phủ Trung Quốc có thể dễ dàng truy cập, mục tiêu bị nhắm tới thường xuyên là đối tượng hoạt động trong lĩnh vực chính trị và truyền thông.

Công cụ tìm kiếm của Google tại Trung Quốc lưu trữ cả số điện thoại người dùng - Hình 2

Ảnh minh họa: TheDailyDot

Chưa kể tới, nguyên mẫu hiện tại được xây dựng có thể liên kết công cụ tìm kiếm trên thiết bị Android với số điện thoại của người dùng. Nhà nghiên cứu Internet cấp cao Cynthia Wong của Tổ chức Theo dõi Nhân Quyền (Human Right Watchs) cho rằng: "Điều này làm nảy sinh vấn đề từ quan điểm về quyền riêng tư, bởi nó sẽ cho phép theo dõi chi tiết và xác định hành vi của mọi người". Bà Wong nói thêm: "Việc liên kết kết quả tìm kiếm với số điện thoại cụ thể khiến người dùng khó tránh khỏi phương thức giám sát thái quá của chính phủ Trung Quốc".


The Intercept cho biết nhân sự làm việc cho đối tác của Google tại Đại lục được cấp phép để cập nhật danh sách đen các từ khóa bị cấm. Ngoài ra, toàn bộ dữ liệu về thực trạng ô nhiễm không khí đã được thay thế bằng thông tin do một nguồn tin giấu tên của Bắc Kinh cung cấp.Theo bài báo đăng tải trên tạp chí Wall Street Journals, Alphabet (công ty mẹ của Google) sẽ vận hành công cụ tìm kiếm nói trên như một phần của quan hệ hợp tác "liên doanh" với công ty Cai Wensheng. Công ty sở hữu 265.com, trang web được Google mua lại hồi tháng 6/2008, trước khi chính thức tuyên bố rời thị trường tỷ dân vào năm 2010.

Cho tới nay, đã hơn 1 tháng kể từ chi tiết đầu tiên được tiết lộ, Google vẫn tìm cách né tránh các câu hỏi liên quan tới dự án Dragonfly từ các tổ chức nhân quyền, phóng viên và thượng nghị sĩ Mỹ. Đại diện Google nói: "Chúng tôi không bình luận về những suy đoán về các kế hoạch trong tương lai của công ty".

Ngày 13/2 vừa qua, 16 nhà chức trách Mỹ đã bày tỏ mối "quan ngại nghiêm trọng" thông qua bức thư gửi tới Giám đốc điều hành Sundar Pichai và yêu cầu Google công khai kế hoạch về dự án Dragonfly. Đồng thời, nhà nghiên cứu Jack Poulson cùng 4 nhân viên cao cấp của Google đã tuyên bố nghỉ việc.

Trả lời phỏng vấn của The Intercept, ông Poulson thẳng thắn đề cập tới việc công ty đặt lợi nhuận lên trên tôn chỉ hoạt động. Trong bức thư đệ trình lên ban lãnh đạo, ông viết: "Tôi coi yêu cầu khống chế kết quả tìm kiếm, đồng thời chấp nhận sự kiểm duyệt và giám sát để đánh đổi quyền hoạt động tại thị trường Trung Quốc mà ban lãnh đạo Google đã quyết là một sự suy giảm giá trị và vị thế đàm phán của Google với các chính phủ trên toàn cầu".

Theo The Intercept

Bạn thấy bài viết này có hữu ích không?
Không

Tin liên quan

Tiêu điểm

Cách Trung Quốc tạo ra chip 5nm không cần EUVCách Trung Quốc tạo ra chip 5nm không cần EUV
hôm qua
Sau Internet và iPhone, dự đoán của Kurzweil khiến chúng ta phải giật mìnhSau Internet và iPhone, dự đoán của Kurzweil khiến chúng ta phải giật mình
2 ngày trước
Bot AI Facebook nhập vai người nổi tiếng nói chuyện tình dục với trẻ emBot AI Facebook nhập vai người nổi tiếng nói chuyện tình dục với trẻ em
2 ngày trước
HyperOS 3 sẽ thổi luồng gió mới cho thiết bị XiaomiHyperOS 3 sẽ thổi luồng gió mới cho thiết bị Xiaomi
hôm qua
Giới công nghệ 'loạn nhịp' vì khái niệm AI PCGiới công nghệ 'loạn nhịp' vì khái niệm AI PC
hôm qua
Apple Maps hỗ trợ chỉ đường qua CarPlay tại Việt NamApple Maps hỗ trợ chỉ đường qua CarPlay tại Việt Nam
hôm qua
One UI 7 kìm hãm sự phổ biến của Android 15?One UI 7 kìm hãm sự phổ biến của Android 15?
hôm qua
Thêm lựa chọn sử dụng Internet vệ tinh từ đối thủ của SpaceXThêm lựa chọn sử dụng Internet vệ tinh từ đối thủ của SpaceX
13 giờ trước

Tin đang nóng

Mẹ đẻ đến nhà ở một tuần, tôi hiểu vì sao chị dâu cứ nhắc đến bà là khó chịu ra mặtMẹ đẻ đến nhà ở một tuần, tôi hiểu vì sao chị dâu cứ nhắc đến bà là khó chịu ra mặt
15 giờ trước
Nữ sinh đẹp nhất Hàn Quốc hiện tại: U50 mà trẻ như mới 20, lão hoá ngược là đây chứ đâuNữ sinh đẹp nhất Hàn Quốc hiện tại: U50 mà trẻ như mới 20, lão hoá ngược là đây chứ đâu
15 giờ trước
Con ốm, vợ cũ bất ngờ ghé thăm, thứ cô ấy để lại trên bàn khiến tôi thao thức cả đêmCon ốm, vợ cũ bất ngờ ghé thăm, thứ cô ấy để lại trên bàn khiến tôi thao thức cả đêm
15 giờ trước
Người hot nhất Vbiz là ai?Người hot nhất Vbiz là ai?
14 giờ trước
"Giáo chủ khả ái" Dương Thừa Lâm phản pháo khi bị bạn thân cũ tố trở mặt, vô lễ với người lớn"Giáo chủ khả ái" Dương Thừa Lâm phản pháo khi bị bạn thân cũ tố trở mặt, vô lễ với người lớn
14 giờ trước
Không về quê chăm mẹ chồng bệnh, vợ bị mắng là kẻ vô ơnKhông về quê chăm mẹ chồng bệnh, vợ bị mắng là kẻ vô ơn
16 giờ trước
Phát hiện 9 đoạn Vạn Lý Trường Thành 2.000 năm tuổi ở Tây Bắc Trung QuốcPhát hiện 9 đoạn Vạn Lý Trường Thành 2.000 năm tuổi ở Tây Bắc Trung Quốc
15 giờ trước
Mẹ bầu Vbiz ám ảnh sau khi làm xét nghiệm: Bị choáng váng đầu óc, nằm 2 tiếng không thở nổiMẹ bầu Vbiz ám ảnh sau khi làm xét nghiệm: Bị choáng váng đầu óc, nằm 2 tiếng không thở nổi
14 giờ trước

Tin mới nhất

Kế hoạch đầy tham vọng của Apple

Kế hoạch đầy tham vọng của Apple

13 giờ trước
Một báo cáo từ Financial Times cho biết Apple đang lên kế hoạch chuyển toàn bộ hoạt động lắp ráp iPhone xuất khẩu vào thị trường Mỹ sang Ấn Độ trong năm 2026.
Chiếc iPhone mới thú vị nhất vẫn sẽ được sản xuất tại Trung Quốc

Chiếc iPhone mới thú vị nhất vẫn sẽ được sản xuất tại Trung Quốc

hôm qua
Apple được cho là đang có kế hoạch chuyển hoạt động sản xuất iPhone cho thị trường Mỹ từ Trung Quốc sang Ấn Độ trong thời gian sớm nhất có thể.
Chuẩn USB từng thay đổi cả thế giới công nghệ vừa tròn 25 tuổi

Chuẩn USB từng thay đổi cả thế giới công nghệ vừa tròn 25 tuổi

hôm qua
TheoTom s Hardware, ngày 27.4 vừa qua đánh dấu cột mốc quan trọng, khi chuẩn kết nối Universal Serial Bus (USB) 2.0 chính thức tròn 25 tuổi.
Tính năng tìm kiếm tệ nhất của Google sắp có trên YouTube

Tính năng tìm kiếm tệ nhất của Google sắp có trên YouTube

hôm qua
Google đã triển khai AI Overview cho một số người dùng YouTube nhằm mục đích cải thiện trải nghiệm, tuy nhiên một số lo ngại đã được đưa ra.
Làm chủ chế độ PiP của YouTube với 3 thủ thuật ít người biết

Làm chủ chế độ PiP của YouTube với 3 thủ thuật ít người biết

hôm qua
Bạn đã biết cách khai thác hết khả năng của chế độ xem trên cửa sổ thu nhỏ (Picture-in-Picture - PiP) của YouTube?
Màn hình Always On là kẻ thù gây hao pin điện thoại?

Màn hình Always On là kẻ thù gây hao pin điện thoại?

2 ngày trước
Màn hình là một trong những yếu tố tiêu tốn pin điện thoại nhiều nhất, đặc biệt là trên các thiết bị có màn hình lớn, độ phân giải cao và tốc độ làm mới nhanh.
Android 16 sắp có thể 'chặn đứng' thiết bị USB độc hại

Android 16 sắp có thể 'chặn đứng' thiết bị USB độc hại

2 ngày trước
Theo HowToGeek, nỗi lo về việc dữ liệu cá nhân có thể bị đánh cắp khi cắm điện thoại vào các cổng USB không đáng tin cậy, đặc biệt là tại các trạm sạc công cộng, có thể sắp được giải quyết phần nào.
Microsoft đưa tính năng Recall gây tranh cãi trở lại PC Copilot+

Microsoft đưa tính năng Recall gây tranh cãi trở lại PC Copilot+

2 ngày trước
Đúng như các lo ngại, Microsoft cuối cùng đã đưa tính năng gây tranh cãi Recall trở lại với người dùng Windows, mặc dù chỉ dành cho PC Copilot+ mới.
Gmail cho iPhone vừa được Google 'lột xác' sau 4 năm

Gmail cho iPhone vừa được Google 'lột xác' sau 4 năm

2 ngày trước
Theo Neowin, sau gần 4 năm chờ đợi, người dùng Gmail trên iPhone cuối cùng cũng sắp được trải nghiệm giao diện hoàn toàn mới theo ngôn ngữ thiết kế Material Design 3 (còn gọi là Material You) của Google.
Gemini sắp có mặt trên các thiết bị sử dụng hằng ngày

Gemini sắp có mặt trên các thiết bị sử dụng hằng ngày

2 ngày trước
Trong một thông báo quan trọng, Google đã xác nhận trợ lý AI Gemini sẽ thay thế Google Assistant trên toàn bộ hệ sinh thái của công ty.
Xiaomi ngừng hỗ trợ 7 mẫu điện thoại phổ biến

Xiaomi ngừng hỗ trợ 7 mẫu điện thoại phổ biến

2 ngày trước
Theo GizChina, Xiaomi vừa xác nhận 7 mẫu thiết bị phổ biến đã chính thức đạt trạng thái EOL (End-of-Life - kết thúc vòng đời) ngay trong tháng 4 này.
Apple khuyên người dùng iPhone xóa trình duyệt Chrome

Apple khuyên người dùng iPhone xóa trình duyệt Chrome

2 ngày trước
Gần đây, Apple tái phát sóng một quảng cáo cho trình duyệt Safari mà công ty lần đầu tiên tung ra vào tháng 7 năm ngoái.

Có thể bạn quan tâm

Phơi bày nhan sắc quá khứ của đại mỹ nhân 2K2 bị đồn "sửa mặt để giống Jennie (BLACKPINK)"

Phơi bày nhan sắc quá khứ của đại mỹ nhân 2K2 bị đồn "sửa mặt để giống Jennie (BLACKPINK)"

Sao châu á

12 giờ trước
Hình ảnh thời quá khứ của mỹ nhân này là câu trả lời cho nghi vấn cô có phẫu thuật thẩm mỹ để trông giống Jennie (BLACKPINK) hay không?
Rosé có da có thịt rồi bạo tới cỡ này, MXH được một phen chấn động!

Rosé có da có thịt rồi bạo tới cỡ này, MXH được một phen chấn động!

Phong cách sao

12 giờ trước
Là một trong những nghệ sĩ Kpop hàng đầu hiện nay, sức ảnh hưởng của Rosé là không thể bàn cãi. Bên cạnh sự nghiệp âm nhạc, mọi nhất cử nhất động của giọng ca chính BLACKPINK đều khiến cõi mạng dậy sóng.
Ra mắt trên Steam, game sinh tồn nhận cơn mưa lời khen, 99% rating tích cực

Ra mắt trên Steam, game sinh tồn nhận cơn mưa lời khen, 99% rating tích cực

Mọt game

12 giờ trước
Sau gần một thập kỷ chờ đợi, Crashlands 2 - tựa game nhập vai sinh tồn thế giới mở - đã chính thức phát hành trên Steam và nhanh chóng ghi dấu ấn với cộng đồng game thủ bằng những đánh giá tích cực.
Việt Nam sắp có ô tô điện Volkswagen nhập khẩu từ Malaysia

Việt Nam sắp có ô tô điện Volkswagen nhập khẩu từ Malaysia

Ôtô

12 giờ trước
Mẫu xe điện đầu tiên của Volkswagen Malaysia được xuất khẩu ra các nước trong khu vực Đông Nam Á có thể nằm ở phân khúc C-SUV, hứa hẹn tạo sự quan tâm khi về Việt Nam.
Người xưa dạy, "Xây nhà để Bạch Hổ che Rồng Xanh", con cháu nghèo ba đời: Bạch Hổ, Rồng Xanh là gì?

Người xưa dạy, "Xây nhà để Bạch Hổ che Rồng Xanh", con cháu nghèo ba đời: Bạch Hổ, Rồng Xanh là gì?

Trắc nghiệm

12 giờ trước
Người xưa từng căn dặn: Xây nhà để Bạch Hổ che Rồng Xanh, con cháu nghèo ba đời , nhằm nhấn mạnh tầm quan trọng của việc cân đối âm dương và thế đất trong kiến trúc nhà ở.
Điểm danh 4 món thời trang công sở trẻ trung nhất

Điểm danh 4 món thời trang công sở trẻ trung nhất

Thời trang

12 giờ trước
Với sự phát triển của phong cách hiện đại, các món đồ như áo sơ mi oversized, áo thun tối giản, quần âu ống suông và chân váy sáng màu đã trở thành lựa chọn lý tưởng cho những cô nàng công sở muốn vừa chuyên nghiệp, vừa trẻ trung và năn...
Loạt cán bộ "dính chàm" vụ biến đất công thành tư ở Vũng Tàu

Loạt cán bộ "dính chàm" vụ biến đất công thành tư ở Vũng Tàu

Pháp luật

12 giờ trước
Viện KSND tỉnh Bà Rịa - Vũng Tàu vừa ban hành cáo trạng truy tố 17 bị can trong vụ án lừa đảo, làm giả, đưa nhận hối lộ, lợi dụng chức vụtrong chuyên án đất đai lớn tại TP Vũng Tàu. Trong đó, có nhiều cán bộ dính chàm .
Cặp đôi Hoa hậu - hot boy không một bức ảnh chung nhưng ai cũng biết đang hẹn hò

Cặp đôi Hoa hậu - hot boy không một bức ảnh chung nhưng ai cũng biết đang hẹn hò

Sao việt

12 giờ trước
Có những cặp đôi nhiều khi chẳng cần phải công khai rầm rộ, chỉ cần một vài chiếc hint nhỏ thôi đã khiến dân mạng đoán ra ngay.
iPhone 17 sắp được sản xuất hàng loạt

iPhone 17 sắp được sản xuất hàng loạt

Đồ 2-tek

12 giờ trước
Nguồn tin từ DigiTimes cho biết Apple đã hoàn tất quy trình kiểm tra xác thực kỹ thuật (Engineering Validation Testing - EVT) cho ít nhất một mẫu iPhone 17.
Sóng 5G có gây hại sức khỏe?

Sóng 5G có gây hại sức khỏe?

Sức khỏe

13 giờ trước
Trên thực tế, loại sóng này có năng lượng rất thấp, khả năng xuyên thấu kém và chưa có bằng chứng nào cho thấy ảnh hưởng tiêu cực đến sức khỏe khi sử dụng đúng cách.
1 ông lớn công khai "chọc điên" BLACKPINK?

1 ông lớn công khai "chọc điên" BLACKPINK?

Nhạc quốc tế

13 giờ trước
Vào ngày 29/4, nhóm nhạc nữ đa quốc gia KATSEYE đã tung teaser cho ca khúc mới Gnarly. Tuy nhiên rất nhanh chóng, nhóm nữ nhà HYBE Labels đã bị tố đạo nhái BLACKPINK và aespa.