Jookata: Xây Dựng Máy Tính AI tạo ảnh

Mỗi thể loại ảnh (Chân dung người thật, Anime/Manga, hay Tranh nghệ thuật/Concept Art) sẽ có những yêu cầu hoàn toàn khác nhau về cách chuẩn bị dữ liệu (Dataset) và cài đặt thông số khi cho máy học.

Dưới đây là hướng dẫn chi tiết cho từng loại ảnh để bạn đạt được kết quả giống ý muốn nhất:

1. Thể loại: Chân dung người thật (Photorealistic Portrait)

Mục đích là huấn luyện AI nhận diện chính xác gương mặt của bạn, bạn bè, hoặc một nhân vật cụ thể để ghép vào các bối cảnh khác nhau.

Cách chuẩn bị ảnh đầu vào (Dataset):
- Số lượng: Khoảng 25 – 40 tấm ảnh chất lượng cao, rõ nét, không bị nhòe.
- Góc chụp: Rất quan trọng. Cần có 50% ảnh cận cảnh (closeup mặt), 30% ảnh bán thân (từ ngực trở lên), và 20% ảnh toàn thân. Chụp ở nhiều góc (thẳng mặt, nghiêng $45^\circ$ , ngước lên, cúi xuống).
- Ánh sáng & Phông nền: Đa dạng phong phú. Không chụp toàn bộ ảnh trong cùng một căn phòng hoặc cùng một bộ quần áo, nếu không AI sẽ học luôn cả cái phòng và bộ quần áo đó vào gương mặt của bạn.
Cách dán nhãn (Tagging):
- Dùng bộ gắn thẻ BLIP (viết thành câu tự nhiên).
- Nguyên tắc vàng: Muốn giữ lại cái gì thì KHÔNG viết tên cái đó vào tag. Muốn AI lược bỏ/thay đổi cái gì thì PHẢI viết cái đó vào tag.
- Ví dụ: Nếu bạn mặc áo đỏ trong ảnh, bạn phải ghi rõ trong tag là wearing a red t-shirt. Khi AI đọc tag, nó hiểu "à, cái màu đỏ này là cái áo, không phải là một phần của khuôn mặt nhân vật", sau này bạn mới đổi màu áo sang màu khác được.
Mô hình nền khuyên dùng (Base Model): Sử dụng các Model chuyên thực tế như Realistic Vision, CyberRealistic, hoặc bản gốc SDXL 1.0.

2. Thể loại: Phong cách Anime / Manga / Hoạt hình

Mục đích là bắt AI học một nét vẽ, cách đi nét, đổ bóng, vẽ mắt của một bộ truyện tranh hoặc một họa sĩ cụ thể.

Cách chuẩn bị ảnh đầu vào (Dataset):
- Số lượng: Cần nhiều hơn người thật, khoảng 40 – 80 tấm ảnh.
- Độ nhất quán: Các bức ảnh phải thể hiện rõ nét vẽ đặc trưng (ví dụ: cách vẽ mắt long lanh, nét Lineart thanh mảnh, hay cách tô màu nước). Nếu lẫn lộn quá nhiều phong cách khác nhau, sản phẩm lỗi ra đời sẽ bị lem nhem.
- Độ phân giải: Do ảnh vẽ dễ bị vỡ nét, hãy cố gắng tìm ảnh có độ phân giải gốc cao và khử nhiễu trước khi cho máy học.
Cách dán nhãn (Tagging):
- Dùng bộ gắn thẻ WD14 (Danbooru). Hệ sinh thái Anime của AI không dùng câu tự nhiên mà dùng các từ khóa cách nhau bằng dấu phẩy.
- Ví dụ: 1girl, solo, long hair, blue eyes, sailor uniform, looking at viewer, anime style.
- Nếu bạn muốn học một Nhân vật Anime cố định: Giữ nguyên các tag đặc trưng của nhân vật đó.
- Nếu bạn chỉ muốn học Phong cách vẽ (Style): Hãy gắn thẻ thật chi tiết tất cả trang phục, màu tóc, màu mắt trong ảnh để AI tách biệt được giữa "nội dung trong ảnh" và "nét vẽ".
Mô hình nền khuyên dùng (Base Model): Animagine XL, Pony Diffusion, hoặc Anything V5.

3. Thể loại: Tranh nghệ thuật / Concept Art / Game Asset

Mục đích là học phong cách vẽ tranh sơn dầu, tranh thủy mặc, trường phái ấn tượng, hoặc tạo ra các vật phẩm game (bối cảnh 3D, vũ khí, biểu tượng bùa chú).

Cách chuẩn bị ảnh đầu vào (Dataset):
- Số lượng: Từ 30 – 60 tấm.
- Tính tập trung: Nếu học về bối cảnh (Background/Landscape), chỉ nạp ảnh phong cảnh. Nếu học về vật phẩm (Item/Weapon), hãy dùng ảnh vật phẩm nằm trên một phông nền trơn (nền trắng hoặc đen) để AI dễ bóc tách hình khối.
Cách dán nhãn (Tagging):
- Kết hợp cả BLIP và WD14. Cần mô tả sâu về chất liệu và trường phái nghệ thuật.
- Từ khóa quan trọng cần đưa vào tag: oil painting (tranh sơn dầu), watercolor (màu nước), 3D render, isometric view (góc nhìn từ trên xuống cho game), concept art, digital painting.
Mô hình nền khuyên dùng (Base Model): Các mô hình đa dụng có độ sáng tạo cao như DreamShaper, Rev Animated, hoặc các model SDXL đa năng.

💡 Bảng tóm tắt thiết lập thông số (Lưu ý khi chạy phần mềm Kohya_ss)

Thể loại ảnh	Network Rank (Dim) / Alpha	Tổng số Steps khuyên dùng	Lưu ý khi Train
Người thật	Đặt thấp: `Rank 16 / Alpha 8` hoặc `32 / 16`	1,500 - 2,500 steps	Đặt Rank thấp giúp AI không học quá đà (Overfitting) gây lỗi da bị cháy hoặc đơ cứng.
Anime	Đặt trung bình: `Rank 32 / Alpha 16` hoặc `64 / 32`	2,000 - 3,500 steps	Cần Rank cao hơn một chút để bắt được các chi tiết mắt và tóc phức tạp.
Concept Art / Đồ họa	Đặt cao: `Rank 64 / Alpha 32` hoặc `128 / 64`	3,000 - 5,000 steps	Phong cách nghệ thuật phức tạp cần dung lượng file lớn hơn để lưu trữ các chi tiết về chất liệu vẽ.

Jookata

Thứ Ba, 9 tháng 6, 2026

Xây Dựng Máy Tính AI tạo ảnh

1. Thể loại: Chân dung người thật (Photorealistic Portrait)

2. Thể loại: Phong cách Anime / Manga / Hoạt hình

3. Thể loại: Tranh nghệ thuật / Concept Art / Game Asset

💡 Bảng tóm tắt thiết lập thông số (Lưu ý khi chạy phần mềm Kohya_ss)

Không có nhận xét nào:

Đăng nhận xét

Người theo dõi

Người đóng góp cho blog