Bài viết sẽ hướng dẫn cách nối (kết hợp) các data.frame bằng cách sử dụng package dplyr qua các nhóm câu lệnh join như:
left_join(x, y): kết hợp tất cả các cột trong data frame x với cột tương ứng trong data frame y nhưng chỉ giữ lại các quan sát của x.
right_join(x, y): tương tự cách kết hợp của left_join(x,y) nhưng giữ lại các quan sát từ data frame y.
full_join(x, y): kết hợp tất cả các cột của x và tất cả các cột của y và giữ lại tất cả các quan sát ở cả hai data frame.
inner_join(x, y): kết hợp tất cả các cột có trong x hoặc y nhưng chỉ giữ lại những dòng (quan sát) mà hiện diện ở cả hai data frame.
semi_join(x, y): trả về các cột tư data frame x và chỉ giữ lại những dòng của x mà có trong y.
anti_join(x, y): trả về các cột từ data frame x và chỉ giữ lại những dòng của x mà không có ở y.
Hoặc tóm tắt qua biểu đồ Venn với các câu lệnh như sau:
Tham khảo chi tiết tại:
- https://r4ds.had.co.nz/relational-data.html
- https://craig.rbind.io/post/2020-03-29-asgr-2-2-joining-data/
- https://www.r-bloggers.com/2022/01/how-to-join-tables-in-r/