21 Cuốn Sách Khoa Học Dữ Liệu Nên Đọc Năm 2021

Data Science, Tài nguyên - eBook

Dữ liệu và Trí tuệ nhân tạo tiếp tục thống trị trong báo cáo Báo cáo về việc làm nổi bật năm 2020 của LinkedIn – LinkedIn’s 2020 Emerging Jobs Report, cho thấy rằng Chuyên gia về trí tuệ nhân tạo và Nhà khoa học dữ liệu lần lượt là những công việc mới nổi bật hàng đầu ở Mỹ.

Với việc các công ty nhận ra giá trị to lớn của dữ liệu, chúng ta hoàn toàn có thể trông chờ vào một tương lai 2021 nơi mức lương trong ngành Khoa học Dữ liệu và AI sẽ tiếp tục tăng trưởng.

Bất kể nền tảng hay trình độ kỹ năng, các chuyên gia khoa học dữ liệu cũng như những người đam mê đều cần phải tiếp tục học tập, trau dồi và rèn luyện kỹ năng chuyên môn. Bài viết này sẽ giúp bạn gợi ý một số cuốn sách hữu ích nhất mà bạn có thể đọc để nâng cao trình độ khoa học dữ liệu của mình.

Khoa học Dữ liệu

Dưới đây là một số cuốn sách dành cho những người không có bất kỳ kiến thức nền tảng nào về Khoa học dữ liệu. Hơn nữa, đây là những cuốn sách cũng rất phù hợp cho các nhà lãnh đạo và quản lý doanh nghiệp đang tìm cách áp dụng các khái niệm về Khoa học dữ liệu tại công ty của mình. Những cuốn sách sau đây cung cấp một cái nhìn mới mẻ, đúng đắn, tiến bộ về quy trình Khoa học Dữ liệu và một số ứng dụng trong kinh doanh.

1. The Art of Data Science — A Guide for Anyone Who Works With Data

Tác giả: Roger D. Peng và Elizabeth Matsui

Cuốn sách này cung cấp một cái nhìn tổng quan tuyệt vời về quy trình phân tích dữ liệu. Hơn nữa, nó trình bày rõ ràng về cách thức mặc dù có nhiều công cụ, phân tích dữ liệu về cơ bản là một nghệ thuật, liên quan đến một quá trình lặp đi lặp lại nơi thông tin được học ở mọi bước.

2. Predictive Analytics — The Power to Predict Who Will Click, Buy, Lie, or Die

Tác giả: Eric Siegel

Cuốn sách cung cấp một nguồn tài liệu toàn diện nhưng dễ tiếp cận cho bất kỳ ai muốn tìm hiểu cách hoạt động của phân tích dự đoán, mổ xẻ nhiều ứng dụng trong đời thực từ rủi ro thế chấp, khủng bố, dự đoán tội phạm và chính trị, cho đến một vài cái tên.

3. Data Science for Business — What You Need to Know about Data Mining and Data Analytic-Thinking

Tác giả: Foster Provost and Tom Fawcett

Cuốn sách này cung cấp một cái nhìn tổng quan tuyệt vời về quy trình phân tích dữ liệu. Hơn nữa, nó trình bày rõ ràng về việc tại sao có nhiều công cụ hỗ trợ nhưng phân tích dữ liệu về cơ bản vẫn là một nghệ thuật, liên quan đến một quá trình lặp đi lặp lại nơi thông tin được học ở mọi bước.

4. Data Smart — Using Data Science to Transform Information into Insight

Tác giả: John Foreman

Điều thú vị về cuốn sách này là cách nó dạy các khái niệm khoa học dữ liệu bằng cách sử dụng Microsoft Excel. Tựu chung lại, cuốn sách cho thấy một minh họa hoàn hảo về cách khoa học dữ liệu vốn là công cụ bất khả tri.

Không quan trọng ngôn ngữ, nền tảng hoặc phần mềm mà bạn sử dụng khoa học dữ liệu của mình, các nguyên tắc cơ bản và toán học đằng sau các thuật toán vẫn giống nhau.

Toán và Thống kê

Ai nói rằng việc nắm bắt các khái niệm số không thể nhẹ nhàng và thú vị? Một số cuốn sách toán học và thống kê dưới đây nhằm cung cấp cho bạn phần giới thiệu ít đáng sợ hơn về nhiều khái niệm chính cần thiết để sử dụng khoa học dữ liệu trong kinh doanh.

5. Naked Statistics — Stripping the Dread from the Data

Tác giả: Charles Wheelan

Số liệu thống kê đôi khi có thể là một chủ đề khó khăn để tìm hiểu sâu. Không chỉ vậy, việc tập trung vào các chi tiết đôi khi che khuất trực giác đằng sau những thước đo mà chúng ta sử dụng trong công việc. Trong cuốn sách này, tác giả Charles Wheelan làm rõ các khái niệm chính như suy luận, tương quan và phân tích hồi quy một cách thú vị và ít kinh khủng hơn.

6. Practical Statistics for Data Scientist — 50+ Essential Concepts Using R and Python

Tác giả: Peter Bruce, Andrew Bruce, and Peter Gedeck

Đây là một hướng dẫn bậc cao và khá sát với thực tế để giúp bạn làm quen với các phương pháp thống kê được các Nhà khoa học dữ liệu sử dụng. Mặc dù nó không cung cấp lời giải thích chuyên sâu về các khái niệm toán học, nhưng nó vẫn là một tài liệu tham khảo tuyệt vời cho phép bạn tiếp tục học thống kê ở những nơi khác.

7. The Art of Statistics — How to Learn from Data

Tác giả: David Spiegelhalter

Được viết bởi nhà thống kê nổi tiếng David Spiegelhalter, Nghệ thuật thống kê cho thấy cách chúng ta có thể thu được những hiểu biết sâu sắc từ dữ liệu thô và cách chúng ta có thể tiếp cận nhiều vấn đề bằng cách sử dụng số liệu thống kê.

Trực quan hóa và Minh họa dữ liệu

Một khía cạnh quan trọng của quy trình khoa học dữ liệu là trực quan hóa dữ liệu. Nhiều người có thể thích thú với matplotlib nhạt nhẽo và có thể thỉnh thoảng lại yêu thích một số giả thiết thú vị, nhưng những cuốn sách này sẽ cho bạn biết thực sự có một cách thích hợp để thực hiện trực quan hóa dữ liệu. Bắt đúng các tập lệnh thực thi là một chuyện, nhưng thiết kế biểu đồ và trang tổng quan để có được những thông tin chi tiết phù hợp lại là một chuyện khác.

8. Storytelling with Data — A Data Visualization Guide for Business Professionals

Tác giả: Cole Nussbaumer Knaflic

Đây là một cuốn sách phải đọc cho những ai muốn trình bày thông tin một cách rõ ràng, ngắn gọn và dễ hiểu hơn. Cuốn sách này dạy bạn những kiến thức cơ bản về trực quan hóa dữ liệu và cách giao tiếp hiệu quả với dữ liệu, hoàn chỉnh với nhiều ví dụ trong thế giới thực.

9. Fundamentals of Data Visualization — A Primer on Making Informative and Compelling Figures

Tác giả: Claus O. Wilke

Cuốn sách này trình bày các nguyên tắc cơ bản cùng với các ví dụ tương phản tốt – xấu về trực quan hóa dữ liệu. Đây là một cuốn sách có thể giúp bạn hiểu cơ sở lý luận đằng sau một minh họa hiệu quả và có thể dạy bạn thiết kế các nội dung có ý nghĩa hơn để truyền tải đúng thông điệp.

10. Good Charts — The HBR Guide to Making Smarter, More Persuasive Data Visualizations

Tác giả: Scott Berinato

Cuốn sách này đưa ra những hiểu biết sâu sắc từ nghiên cứu về nhận thức thị giác và khoa học thần kinh để khám phá cách mọi người nhìn nhận các biểu đồ tốt và xấu khác nhau. Nó dạy các frameworks về cách tạo ra những minh họa thuyết phục cùng với các nghiên cứu điển hình để minh họa chúng.

11. MakeoverMonday — Improving How We Visualize and Analyze Data, One Chart at a Time

Tác giả: Andy Kriebel

Cuốn sách này là một phần mở rộng của dự án #MakeOverMonday, nơi các thành viên của cộng đồng trực quan hóa dữ liệu chia sẻ những cải tiến của họ đối với các biểu đồ và dữ liệu hiện có. Nó nhấn mạnh rằng mặc dù có sự thay đổi trong việc thiết kế hình ảnh trực quan, nhưng có những kỹ thuật chính mà bạn có thể làm theo để đảm bảo biểu đồ của bạn tạo ra hiệu quả.

Machine Learning

Nếu bạn đã sẵn sàng để dấn thân sâu hơn và thế giới của dữ liệu, những cuốn sách dưới đây sẽ cung cấp cho bạn kiến thức chuyên sâu về các khái niệm học máy với ứng dụng thực tế và các ví dụ thực hành.

12. Introduction to Machine Learning with Python

Tác giả: Andreas C Muller and Sarah Guido

Cuốn sách này là một nguồn tài nguyên tuyệt vời có thể giúp bạn bắt kịp kiến thức cơ bản về các thuật toán học máy được sử dụng rộng rãi nhất, bao gồm các kỹ thuật về cách xử lý dữ liệu, các phương pháp nâng cao để đánh giá mô hình và điều chỉnh tham số cũng như các nguyên tắc tạo quy trình làm mô hình của bạn. Nó thân thiện với người mới bắt đầu mà không đòi hỏi người đọc có một nền tảng lập trình quá chuyên sâu. Chưa kể, không thể phủ nhận kho GitHub đi kèm rất hữu ích cho việc học.

13. The Hundred Page Machine Learning Book

Tác giả: Andriy Burkov

Đây là một cuốn sách khá cô đọng về các khái niệm học máy, hoàn hảo như một cẩm nang dành cho các nhà quản lý hoặc nhà phát triển phần mềm đang tìm cách tích hợp các công nghệ ML vào các dự án của họ.

14. Hands-On Machine Learning with Scikit Learn, Keras, and TensorFlow

Tác giả: Aurelien Geron

Một trong những cuốn sách khác của O’Reilly cung cấp hướng dẫn thực tế để học ML cùng với giải thích khái niệm rõ ràng và triển khai code. Nó giúp bạn xây dựng sự hiểu biết vững chắc về học máy thông qua một loạt các bài tập thực hành được triển khai với Scikit-Learn và TensorFlow.

15. AI and Machine Learning for Coders — A Programmer’s Guide to Artificial Intelligence

Tác giả: Laurence Moroney

Một cuốn sách cần có cho các lập trình viên mới bước vào lĩnh vực Trí tuệ nhân tạo hoặc cho bất kỳ ai có nền tảng kỹ thuật vững chắc đang tìm cách áp dụng AI trong các dự án. Chủ yếu dựa trên TensorFlow, tác giả Laurence Moroney hướng dẫn bạn qua các khái niệm AI và ML phổ biến như được áp dụng trong thị giác máy tính, xử lý ngôn ngữ tự nhiên, mô hình trình tự, cho đến một vài khái niệm.

16. The Elements of Statistical Learning — Data Mining, Inference, and Prediction

Tác giả: Trevor Hastie, Robert Tibshirani.

Đây có lẽ là một trong những cuốn sách học thuật hơn trong danh sách. Tuy nhiên, chúng ta không thể phủ nhận những kiến thức vô cùng phong phú có trong cuốn sách này. Đây là một nguồn tài nguyên có giá trị cho các nhà thống kê hoặc bất kỳ ai quan tâm đến việc khai thác dữ liệu, đủ kỹ thuật và có thể là một tài liệu tham khảo lâu dài tốt mà bạn chắc chắn nên giữ trên giá sách của mình.

Deep Learning

DL có lẽ là khía cạnh nóng nhất của khoa học dữ liệu hiện nay. Tập hợp con của công nghệ máy học này chịu trách nhiệm cho nhiều ứng dụng cao cấp mà chúng ta thấy ngày nay từ ô tô tự lái, hàng deep fake cho đến nhận dạng hình ảnh. Những cuốn sách sau đây là nguồn tài liệu tuyệt vời để giúp bạn bắt đầu với chủ đề này.

17. Deep Learning with Python

Tác giả: Francois Chollet

Được viết bởi người tạo ra Keras, DL với Python giúp bạn xây dựng hiểu biết về DL ngay từ đầu. Nó chứa các ví dụ chi tiết với các khuyến nghị thực tế và giải thích chi tiết để cho phép bất kỳ người mới bắt đầu nào bắt đầu DL học sâu của họ.

18. Foundations of Deep Reinforcement Learning — Theory and Practice in Python

Tác giả: Laura Graesser và Wah Loon Keng

Một cuốn sách giáo khoa khá nâng cao về DRL, nơi các tác nhân nhân tạo học cách giải quyết việc ra quyết định theo trình tự. Một cuốn sách khá hay dành cho bất kỳ ai có kiến thức làm việc về máy học và muốn giải quyết các vấn đề bằng cách sử dụng Deep RL.

19. Deep Learning Illustrated — A Visual, Interactive Guide to Artificial Intelligence

Tác giả: John Krohn, Grant Beyleveld, và Aglae Bassens

Đây là tài liệu tham khảo thực tế có thể giúp bạn xây dựng hiểu biết của mình về các thuật toán học sâu. Trong cuốn sách với những ví dụ trự quan và tương tác này, bạn sẽ học lý thuyết cùng với các ví dụ mà bạn có thể xem qua trên sổ ghi chép đi kèm.

Lập trình

Phần này là một ngoại lệ so với tiêu đề. Mặc dù những cuốn sách này ban đầu đến từ lĩnh vực kỹ thuật phần mềm và được viết với các ví dụ từ các ngôn ngữ khác ngoài Python và R, các khái niệm ở đây là phổ biến và có thể được sử dụng để nâng cao trình độ lập trình của bạn.

Nhiều nhà khoa học dữ liệu đến từ các nền tảng không phải là công nghệ. Do đó, không có gì lạ khi bạn thấy codelộn xộn khi xem lại sổ ghi chép ML. Hai cuốn sách còn lại để hoàn thành danh sách này là tài liệu tham khảo cổ điển được nhiều lập trình viên sử dụng để suy nghĩ lại và cải thiện cách họ viết code.

20. The Pragmatic Programmer — Your Journey To Mastery

Tác giả: David Thomas and Andrew Hunt

Đây là một cuốn sách vượt thời gian “xem xét bản chất của phát triển phần mềm, không phụ thuộc vào bất kỳ ngôn ngữ, khuôn khổ hoặc phương pháp luận cụ thể nào”. Nó không chỉ thảo luận về các kỹ thuật để giữ cho code của bạn có thể thích nghi và dễ dàng sử dụng lại, mà còn khám phá các chủ đề về trách nhiệm cá nhân và phát triển nghề nghiệp.

21. Clean Code — A Handbook of Agile Software Craftsmanship

Tác giả: Robert C. Martin

Cuốn sách này giải thích các nguyên tắc và các phương pháp hay nhất để viết code sạch được minh họa bằng cách sử dụng một số nghiên cứu điển hình. Quan trọng đối với các chuyên gia dữ liệu làm việc trong môi trường cộng tác, viết code sạch là một kỹ năng có thể chuẩn bị cho bạn và nhóm của bạn để tạo ra các sản phẩm dữ liệu tốt hơn.

Một số cuốn sách hữu ích khác bạn có thể sẽ quan tâm:

(Nguồn codelearn.io)

Hits: 21