Google trình làng công cụ tìm kiếm tập dữ liệu

Tạ Lê Trúc Quỳnh23:09 18/09/2018

Google đang áp dụng thử nghiệm công cụ tìm kiếm tập dữ liệu cho cộng đồng khoa học.

Công cụ tìm kiếm tập dữ liệu ( Dataset Search ) mới ra mắt của Google được kỳ vọng sẽ trở thành bạn đồng hành hữu hiệu với Google Scholar – công cụ tìm kiếm nghiên cứu và báo cáo học thuật hiện tại. Các viện nghiên cứu của các trường Đại học hay các tổ chức chính phủ khi công bố dữ liệu online sẽ cần thêm các metadata tags (các tags siêu dữ liệu) ở trang web để cung cấp mô tả về dữ liệu, bao gồm các thông tin về tác giả, thời gian công bố, cách thức dữ liệu được thu thập… Những thông tin này sau đó sẽ được sắp xếp lại theo thứ tự thành mục lục trên Dataset Search .

Phát biểu trong bài phỏng vấn của The Verge , Natasha Noy – một nhà khoa học nghiên cứu tại Google AI, người đã góp phần tạo nên Dataset Search – chia sẻ về mục tiêu hợp nhất 10.000 kho dữ liệu online: “Chúng tôi muốn dữ liệu được chia sẻ nhưng không bị di chuyển mà ở nguyên tại nơi đang lưu giữ”.

Hiện tại, các tập dữ liệu công khai khá rời rạc. Mỗi lĩnh vực khoa học khác nhau lại có kho dữ liệu riêng. Điều này xảy ra tương tự với các kho dữ liệu của chính phủ hay chính quyền địa phương. Natasha Noy cho biết thêm: “Các nhà khoa học chia sẻ rằng họ biết chính xác nơi tìm kiếm dữ liệu cho lĩnh vực của họ nhưng không phải lúc nào cũng vậy. Khi bước ra khỏi lĩnh vực thế mạnh của mình, họ sẽ gặp khó khăn”.

Noy lấy ví dụ về cuộc trò chuyện mới đây với một nhà nghiên cứu khí hậu. Cô than phiền với Noy rằng mình đang tìm kiếm tập dữ liệu về nhiệt độ đại dương cho một nghiên cứu sắp tới nhưng không thể thấy. Mãi đến khi tình cờ gặp một người đồng nghiệp ở một buổi hội thảo, cô mới biết dữ liệu mình cần được lưu giữ ở đâu. Cũng chỉ đến lúc đó cô mới có thể tiếp tục nghiên cứu của mình.

“Thậm chí đó không phải là một kho dữ liệu quý hiếm đặc biệt” – Noy nhấn mạnh – “Tập dữ liệu được ghi chép và lưu giữ ở một nơi khá nổi tiếng nhưng vẫn rất khó để tìm thấy”.

Video đang HOT

Ví dụ cho kết quả tìm kiếm về báo cáo thời tiết bằng Google Dataset Search

Trong lần ra mắt đầu tiên, Dataset Search sẽ bao gồm các chủ đề khoa học môi trường, khoa học xã hôi, dữ liệu chính phủ và các tập dữ liệu từ những viện tin tức như ProPublica. Tuy nhiên, nếu ứng dụng này trở nên phổ biến, lượng dữ liệu thu thập được sẽ tăng lên nhanh chóng bởi các viện nghiên cứu và các nhà khoa học sẽ tranh nhau chia sẻ thông tin của họ.

Jeni Tennison – CEO của Viện nghiên cứu Dữ liệu mở (ODI) – cho hay: “Tìm kiếm tập dữ liệu luôn khó khăn nhưng tôi hy vọng sự tham gia của Google sẽ giúp điều này trở nên dễ dàng hơn”.

Theo Tennison, để tạo một công cụ tìm kiếm hiệu quả, cần phải nắm rõ hai điều. Thứ nhất là cần xây dựng một hệ thống thân thiện với người dùng. Thứ hai, cần tìm hiểu tâm lý hành vi hay ý định của người dùng khi họ gõ các cụm từ cụ thể để tìm kiếm. Google biết cách thực hiện cả hai điều trên.

Thật vậy, Tennison chia sẻ, lý tưởng nhất là Google sẽ công bố hướng dẫn cách vận hành của Dataset Search. Mặc dù các metadata tags sẽ công khai nguồn dữ liệu được công bố, các công cụ lấy dữ liệu tự động vẫn là một tiêu chuẩn mở, nghĩa là bất kỳ đối thủ nào, ví dụ như Bing hay Yandex, đều có thể phát triển một dịch vụ cạnh tranh. Công cụ tìm kiếm phát triển nhanh nhất chỉ khi một lượng người dùng đáng kể cùng chia sẻ dữ liệu của họ.

“Điều cơ bản và quan trọng nhất là phải hiểu cách mọi người tìm kiếm thông tin” – Tennison nói – “Nếu chúng ta muốn hiểu được cách mọi người tìm kiếm thông tin và khiến thông tin dễ dàng được tìm thấy, sẽ thật tuyệt nếu Google chia sẻ dữ liệu của chính họ về điều này”.

Theo vtv

Công cụ tìm kiếm của Google tại Trung Quốc lưu trữ cả số điện thoại người dùng

Thông tin đáng quan ngại tiếp theo về dự án Dragonfly của Google tiếp tục được The Intercept đăng tải. Một số nguồn tin cho hay, nguyên mẫu công cụ tìm kiếm mà Google xây dựng tại Trung Quốc sẽ lưu trữ cả số điện thoại của người dùng.

Tang web 256.com ghi lại năm 2008, trang web được Google mua lại từ công ty Cai Wensheng.

Theo nguồn tin của The Intercept, Google đã hoàn thành nguyên mẫu của công cụ tìm kiếm mới cho phép chính phủ Trung Quốc kiểm duyệt. Công cụ này sẽ liên kết kết quả với số điện thoại của người dùng để giúp Bắc Kinh dễ dàng theo dõi và truy vấn bất kỳ trường hợp nào vi phạm chính sách của họ.

Công cụ tìm kiếm nói trên nằm trong dự án bí mật có tên Dragonfly cho các thiết bị sử dụng hệ điều hành Android. Hệ thống sẽ tự động xóa các nội dung mà các nhà hành pháp Trung Quốc cho là nhạy cảm, chẳng hạn thông tin chống lại chính phủ nước này, các thông tin về tự do ngôn luận, dân chủ, bình quyền và kêu gọi biểu tình.

Cùng với một số thông tin đã được tiết lộ trước đây về dự án Dragonfly, The Intercept cho rằng để xây dựng "Vạn lý trường thành" trên mạng Internet cho chính phủ Trung Quốc, Google đã biên soạn sẵn một bản danh sách đen các từ khóa bị kiểm duyệt bao gồm: "quyền con người", "sinh viên biểu tình" và "giải thưởng Nobel" bằng tiếng Trung phổ thông.

Các tổ chức hoạt động vì nhân quyền hàng đầu đã chỉ trích gay gắt dự án Dragonfly. Họ cho rằng việc tiếp tay cho Bắc Kinh là hành vi "đồng lõa, vi phạm nhân quyền". Mối quan tâm lớn nhất của các nhà hoạt động nhân quyền không chỉ là vấn đề kiểm duyệt, mà tất cả dữ liệu người dùng trên công cụ tìm kiếm này đều được Google lưu trữ trên cơ sở dự liệu tại Đại lục. Nhờ đó, chính phủ Trung Quốc có thể dễ dàng truy cập, mục tiêu bị nhắm tới thường xuyên là đối tượng hoạt động trong lĩnh vực chính trị và truyền thông.

Ảnh minh họa: TheDailyDot

Chưa kể tới, nguyên mẫu hiện tại được xây dựng có thể liên kết công cụ tìm kiếm trên thiết bị Android với số điện thoại của người dùng. Nhà nghiên cứu Internet cấp cao Cynthia Wong của Tổ chức Theo dõi Nhân Quyền (Human Right Watchs) cho rằng: "Điều này làm nảy sinh vấn đề từ quan điểm về quyền riêng tư, bởi nó sẽ cho phép theo dõi chi tiết và xác định hành vi của mọi người" . Bà Wong nói thêm: "Việc liên kết kết quả tìm kiếm với số điện thoại cụ thể khiến người dùng khó tránh khỏi phương thức giám sát thái quá của chính phủ Trung Quốc".

The Intercept cho biết nhân sự làm việc cho đối tác của Google tại Đại lục được cấp phép để cập nhật danh sách đen các từ khóa bị cấm. Ngoài ra, toàn bộ dữ liệu về thực trạng ô nhiễm không khí đã được thay thế bằng thông tin do một nguồn tin giấu tên của Bắc Kinh cung cấp.Theo bài báo đăng tải trên tạp chí Wall Street Journals, Alphabet (công ty mẹ của Google) sẽ vận hành công cụ tìm kiếm nói trên như một phần của quan hệ hợp tác "liên doanh" với công ty Cai Wensheng. Công ty sở hữu 265.com, trang web được Google mua lại hồi tháng 6/2008, trước khi chính thức tuyên bố rời thị trường tỷ dân vào năm 2010.

Cho tới nay, đã hơn 1 tháng kể từ chi tiết đầu tiên được tiết lộ, Google vẫn tìm cách né tránh các câu hỏi liên quan tới dự án Dragonfly từ các tổ chức nhân quyền, phóng viên và thượng nghị sĩ Mỹ. Đại diện Google nói: "Chúng tôi không bình luận về những suy đoán về các kế hoạch trong tương lai của công ty".

Ngày 13/2 vừa qua, 16 nhà chức trách Mỹ đã bày tỏ mối "quan ngại nghiêm trọng" thông qua bức thư gửi tới Giám đốc điều hành Sundar Pichai và yêu cầu Google công khai kế hoạch về dự án Dragonfly. Đồng thời, nhà nghiên cứu Jack Poulson cùng 4 nhân viên cao cấp của Google đã tuyên bố nghỉ việc.

Trả lời phỏng vấn của The Intercept, ông Poulson thẳng thắn đề cập tới việc công ty đặt lợi nhuận lên trên tôn chỉ hoạt động. Trong bức thư đệ trình lên ban lãnh đạo, ông viết: "Tôi coi yêu cầu khống chế kết quả tìm kiếm, đồng thời chấp nhận sự kiểm duyệt và giám sát để đánh đổi quyền hoạt động tại thị trường Trung Quốc mà ban lãnh đạo Google đã quyết là một sự suy giảm giá trị và vị thế đàm phán của Google với các chính phủ trên toàn cầu".

Theo The Intercept

Google không tiết lộ kế hoạch phát triển công cụ tìm kiếm cho Trung Quốc Google từ chối trả lời những câu hỏi do nhiều thượng nghị sĩ Mỹ đặt ra về thông tin tập đoàn này đang phát triển một công cụ tìm kiếm chịu sự kiểm duyệt tại Trung Quốc. Một nhóm thượng nghị sĩ Mỹ bao gồm các ông Tom Cotton, Marco Rubio, Robert Menendez, Cory Gardner đầu tháng 8 gửi thư truy vấn lý...

Bạn thấy bài viết này có hữu ích không?

Có

Không

Tin liên quan

Xem thêm Share

Xem nhiều

Tiếc nuối của bản nhạc phim Mưa Đỏ đang gây sốt mạng xã hội04:43

Clip bé gái nghèo "giật" đồ cúng cô hồn gây sốt mạng: Gia chủ tiết lộ câu chuyện phía sau00:23

Vụ 2 anh em làm việc tốt nghi bị đánh dã man ở Bắc Ninh: Camera ghi cảnh trước va chạm01:44

BTV Khánh Trang trở lại sau 1 tháng kể từ vụ đọc sai, netizen sốc khi biết lý do02:47

Thông tin Chính phủ chính thức "điểm mặt" Độ Mixi, nội dung bài viết gây xôn xao02:43

Ca sĩ Việt đỗ 3 trường Đại học, du học Mỹ nghề bác sĩ thì bỏ ngang bị mẹ "từ mặt" cả thập kỷ04:30

Thương hiệu kinh dị 'trăm tỷ' của Thái Lan - 'Tee Yod: Quỷ ăn tạng' trở lại với phần 3, hứa hẹn kinh dị gấp 3!01:42

Clip hot: Sao nhí đắt show nhất Việt Nam dậy thì thành đại mỹ nhân, đứng thở thôi cũng cuốn trôi mọi ánh nhìn00:32

Trang Nemo bị chồng chia hết tài sản, giờ tay trắng còn mất quyền nuôi con02:34

Sơn Tùng M-TP càng có tuổi càng hát live dở?03:03

Lại thêm 1 phim Việt cực cuốn làm khán giả hóng mòn mỏi, nữ chính ai nghe tên cũng nổi da gà00:49

Tiêu điểm

Tin đang nóng

Tin mới nhất

Ra mắt nền tảng AI hợp nhất 'Make in Viet Nam'

20:04:56 12/09/2025

Người dùng có thể dễ dàng so sánh, lựa chọn kết quả giữa nhiều mô hình AI, tận dụng khả năng tạo sinh hình ảnh và tri thức mới, qua đó nâng cao hiệu quả sáng tạo, quản trị và năng suất cho tổ chức, doanh nghiệp, hộ kinh doanh và gia đìn...

ShinyHunters và các vụ tấn công mạng đánh cắp dữ liệu gây chấn động

20:02:44 12/09/2025

Google Threat Intelligence Group là bộ phận của Google chuyên nghiên cứu, phân tích và cung cấp thông tin tình báo về các mối đe dọa an ninh mạng trên toàn cầu. Nhiệm vụ chính của Google Threat Intelligence Group:

NVIDIA và ADI bắt tay thúc đẩy kỷ nguyên robot thông minh

16:12:05 10/09/2025

Song song đó, xu hướng chuyển dịch sang sản xuất thông minh và tự động hóa trong các ngành điện tử, ô tô, logistics sẽ tạo điều kiện để robot hình người tham gia sâu hơn, hỗ trợ thao tác tinh vi và các khâu lặp đi lặp lại với độ chính x...

Cần Thơ sẽ có Trung tâm UAV - Robot phục vụ nông nghiệp thông minh

16:08:46 10/09/2025

Ông Trần Kim Chung, Chủ tịch Tập đoàn CT Group khẳng định, doanh nghiệp sẵn sàng đồng hành trong phát triển công nghệ UAV - Robot, từng bước đưa Việt Nam trở thành trung tâm nông nghiệp thông minh của thế giới.

Doanh nghiệp thương mại điện tử, bán lẻ trở thành mục tiêu ưu tiên của hacker

15:56:18 10/09/2025

Đáng chú ý, các thành phần lõi trong hệ thống CNTT của ngành Bán lẻ - Thương mại điện tử như Website, OMS, API, hệ thống thanh toán, CRM và các cổng tích hợp với bên thứ ba, chính là những điểm nóng thường xuyên bị khai thác.

Ra mắt ứng dụng hỗ trợ ra quyết định lâm sàng cho hệ thống y tế tích hợp AI

15:52:34 10/09/2025

Với sự hỗ trợ của AI, công nghệ này sẽ mang đến trải nghiệm vượt trội so với các công cụ hỗ trợ truyền thống, giúp tối ưu quy trình làm việc, rút ngắn thời gian tra cứu, từ đó thúc đẩy tương tác với bệnh nhân và nâng cao chất lượng dịch...

"Gã khổng lồ" Alibaba phát hành mô hình AI cạnh tranh với OpenAI và Google

09:05:15 10/09/2025

Mặc dù Alibaba chưa công bố báo cáo kỹ thuật chính thức, nhưng kết quả điểm chuẩn nội bộ cho thấy mô hình mới này có khả năng vượt trội trong nhiều bài kiểm tra quan trọng.

Vì sao các tập đoàn công nghệ trả hàng triệu USD để thu hút nhân tài AI?

18:54:58 09/09/2025

Ông Voica cho biết các chuyên gia AI sẽ phải lựa chọn: hoặc nhận mức lương cao nhưng vướng bộ máy cồng kềnh tại tập đoàn công nghệ lớn, hoặc tham gia công ty khởi nghiệp với mức lương thấp hơn nhưng có nhiều quyền sở hữu và tác động hơn...

Tạo đột phá thể chế, thúc đẩy khoa học công nghệ và đổi mới sáng tạo

16:45:27 09/09/2025

Bên cạnh đó, các công cụ tài chính hỗ trợ đổi mới sáng tạo chưa phát huy hiệu quả như kỳ vọng. Quỹ phát triển khoa học và công nghệ của doanh nghiệp được thành lập theo quy định pháp luật, nhưng việc sử dụng còn nhiều vướng mắc.

Khi trí tuệ nhân tạo 'bước vào' phòng phỏng vấn tuyển dụng

14:34:18 09/09/2025

Một báo cáo mới đã mang đến những góc nhìn sâu sắc hơn cho cuộc tranh luận về việc liệu đầu tư vào công nghệ trí tuệ nhân tạo (AI) có thực sự đáng giá đối với các doanh nghiệp hay không.

Ứng dụng trợ lý ảo hỗ trợ sinh viên trong trường đại học

14:30:39 09/09/2025

Các phản hồi từ công cụ AI này được xây dựng dựa trên nền tảng dữ liệu sinh viên đáng tin cậy và được hợp nhất thông qua Data Cloud, hệ thống lưu trữ dữ liệu quy mô lớn thuộc nền tảng Salesforce.

Meta đối mặt thêm 'sóng gió' từ cáo buộc sai sót trong đảm bảo an ninh mạng

14:26:40 09/09/2025

Vụ việc này có thể thúc đẩy những động thái tăng cường giám sát đối với các hoạt động bảo vệ dữ liệu của Meta trên các nền tảng mạng xã hội của họ gồm Facebook, Instagram và WhatsApp vốn phục vụ hàng tỷ người dùng trên toàn cầu.