ViTPose/tools/webcam/webcam_apis/nodes/faceswap_node.py


								# Copyright (c) OpenMMLab. All rights reserved.

								from enum import IntEnum

								from typing import List, Union


								import cv2

								import numpy as np


								from mmpose.datasets import DatasetInfo

								from .builder import NODES

								from .frame_drawing_node import FrameDrawingNode


								class Mode(IntEnum):

								    NONE = 0,

								    SHUFFLE = 1,

								    CLONE = 2


								@NODES.register_module()

								class FaceSwapNode(FrameDrawingNode):


								    def __init__(

								        self,

								        name: str,

								        frame_buffer: str,

								        output_buffer: Union[str, List[str]],

								        mode_key: Union[str, int],

								    ):

								        super().__init__(name, frame_buffer, output_buffer, enable=True)


								        self.mode_key = mode_key

								        self.mode_index = 0

								        self.register_event(

								            self.mode_key, is_keyboard=True, handler_func=self.switch_mode)

								        self.history = dict(mode=None)

								        self._mode = Mode.SHUFFLE


								    @property

								    def mode(self):

								        return self._mode


								    def switch_mode(self):

								        """Switch modes by updating mode index."""

								        self._mode = Mode((self._mode + 1) % len(Mode))


								    def draw(self, frame_msg):


								        if self.mode == Mode.NONE:

								            self.history = {'mode': Mode.NONE}

								            return frame_msg.get_image()


								        # Init history

								        if self.history['mode'] != self.mode:

								            self.history = {'mode': self.mode, 'target_map': {}}


								        # Merge pose results

								        pose_preds = self._merge_pose_results(frame_msg.get_pose_results())

								        num_target = len(pose_preds)


								        # Show mode

								        img = frame_msg.get_image()

								        canvas = img.copy()

								        if self.mode == Mode.SHUFFLE:

								            mode_txt = 'Shuffle'

								        else:

								            mode_txt = 'Clone'


								        cv2.putText(canvas, mode_txt, (10, 50), cv2.FONT_HERSHEY_DUPLEX, 0.8,

								                    (255, 126, 0), 1)


								        # Skip if target number is less than 2

								        if num_target >= 2:

								            # Generate new mapping if target number changes

								            if num_target != len(self.history['target_map']):

								                if self.mode == Mode.SHUFFLE:

								                    self.history['target_map'] = self._get_swap_map(num_target)

								                else:

								                    self.history['target_map'] = np.repeat(

								                        np.random.choice(num_target), num_target)


								            # # Draw on canvas

								            for tar_idx, src_idx in enumerate(self.history['target_map']):

								                face_src = self._get_face_info(pose_preds[src_idx])

								                face_tar = self._get_face_info(pose_preds[tar_idx])

								                canvas = self._swap_face(img, canvas, face_src, face_tar)


								        return canvas


								    def _crop_face_by_contour(self, img, contour):

								        mask = np.zeros(img.shape[:2], dtype=np.uint8)

								        cv2.fillPoly(mask, [contour.astype(np.int32)], 1)

								        mask = cv2.dilate(

								            mask, kernel=np.ones((9, 9), dtype=np.uint8), anchor=(4, 0))

								        x1, y1, w, h = cv2.boundingRect(mask)

								        x2 = x1 + w

								        y2 = y1 + h

								        bbox = np.array([x1, y1, x2, y2], dtype=np.int64)

								        patch = img[y1:y2, x1:x2]

								        mask = mask[y1:y2, x1:x2]


								        return bbox, patch, mask


								    def _swap_face(self, img_src, img_tar, face_src, face_tar):


								        if face_src['dataset'] == face_tar['dataset']:

								            # Use full keypoints for face alignment

								            kpts_src = face_src['contour']

								            kpts_tar = face_tar['contour']

								        else:

								            # Use only common landmarks (eyes and nose) for face alignment if

								            # source and target have differenet data type

								            # (e.g. human vs animal)

								            kpts_src = face_src['landmarks']

								            kpts_tar = face_tar['landmarks']


								        # Get everything local

								        bbox_src, patch_src, mask_src = self._crop_face_by_contour(

								            img_src, face_src['contour'])


								        bbox_tar, _, mask_tar = self._crop_face_by_contour(

								            img_tar, face_tar['contour'])


								        kpts_src = kpts_src - bbox_src[:2]

								        kpts_tar = kpts_tar - bbox_tar[:2]


								        # Compute affine transformation matrix

								        trans_mat, _ = cv2.estimateAffine2D(

								            kpts_src.astype(np.float32), kpts_tar.astype(np.float32))

								        patch_warp = cv2.warpAffine(

								            patch_src,

								            trans_mat,

								            dsize=tuple(bbox_tar[2:] - bbox_tar[:2]),

								            borderValue=(0, 0, 0))

								        mask_warp = cv2.warpAffine(

								            mask_src,

								            trans_mat,

								            dsize=tuple(bbox_tar[2:] - bbox_tar[:2]),

								            borderValue=(0, 0, 0))


								        # Target mask

								        mask_tar = mask_tar & mask_warp

								        mask_tar_soft = cv2.GaussianBlur(mask_tar * 255, (3, 3), 3)


								        # Blending

								        center = tuple((0.5 * (bbox_tar[:2] + bbox_tar[2:])).astype(np.int64))

								        img_tar = cv2.seamlessClone(patch_warp, img_tar, mask_tar_soft, center,

								                                    cv2.NORMAL_CLONE)

								        return img_tar


								    @staticmethod

								    def _get_face_info(pose_pred):

								        keypoints = pose_pred['keypoints'][:, :2]

								        model_cfg = pose_pred['model_cfg']

								        dataset_info = DatasetInfo(model_cfg.data.test.dataset_info)


								        face_info = {

								            'dataset': dataset_info.dataset_name,

								            'landmarks': None,  # For alignment

								            'contour': None,  # For mask generation

								            'bbox': None  # For image warping

								        }


								        # Fall back to hard coded keypoint id


								        if face_info['dataset'] == 'coco':

								            face_info['landmarks'] = np.stack([

								                keypoints[1],  # left eye

								                keypoints[2],  # right eye

								                keypoints[0],  # nose

								                0.5 * (keypoints[5] + keypoints[6]),  # neck (shoulder center)

								            ])

								        elif face_info['dataset'] == 'coco_wholebody':

								            face_info['landmarks'] = np.stack([

								                keypoints[1],  # left eye

								                keypoints[2],  # right eye

								                keypoints[0],  # nose

								                keypoints[32],  # chin

								            ])

								            contour_ids = list(range(23, 40)) + list(range(40, 50))[::-1]

								            face_info['contour'] = keypoints[contour_ids]

								        elif face_info['dataset'] == 'ap10k':

								            face_info['landmarks'] = np.stack([

								                keypoints[0],  # left eye

								                keypoints[1],  # right eye

								                keypoints[2],  # nose

								                keypoints[3],  # neck

								            ])

								        elif face_info['dataset'] == 'animalpose':

								            face_info['landmarks'] = np.stack([

								                keypoints[0],  # left eye

								                keypoints[1],  # right eye

								                keypoints[4],  # nose

								                keypoints[5],  # throat

								            ])

								        elif face_info['dataset'] == 'wflw':

								            face_info['landmarks'] = np.stack([

								                keypoints[97],  # left eye

								                keypoints[96],  # right eye

								                keypoints[54],  # nose

								                keypoints[16],  # chine

								            ])

								            contour_ids = list(range(33))[::-1] + list(range(33, 38)) + list(

								                range(42, 47))

								            face_info['contour'] = keypoints[contour_ids]

								        else:

								            raise ValueError('Can not obtain face landmark information'

								                             f'from dataset: {face_info["type"]}')


								        # Face region

								        if face_info['contour'] is None:

								            # Manually defined counter of face region

								            left_eye, right_eye, nose = face_info['landmarks'][:3]

								            eye_center = 0.5 * (left_eye + right_eye)

								            w_vec = right_eye - left_eye

								            eye_dist = np.linalg.norm(w_vec) + 1e-6

								            w_vec = w_vec / eye_dist

								            h_vec = np.array([w_vec[1], -w_vec[0]], dtype=w_vec.dtype)

								            w = max(0.5 * eye_dist, np.abs(np.dot(nose - eye_center, w_vec)))

								            h = np.abs(np.dot(nose - eye_center, h_vec))


								            left_top = eye_center + 1.5 * w * w_vec - 0.5 * h * h_vec

								            right_top = eye_center - 1.5 * w * w_vec - 0.5 * h * h_vec

								            left_bottom = eye_center + 1.5 * w * w_vec + 4 * h * h_vec

								            right_bottom = eye_center - 1.5 * w * w_vec + 4 * h * h_vec


								            face_info['contour'] = np.stack(

								                [left_top, right_top, right_bottom, left_bottom])


								        # Get tight bbox of face region

								        face_info['bbox'] = np.array([

								            face_info['contour'][:, 0].min(), face_info['contour'][:, 1].min(),

								            face_info['contour'][:, 0].max(), face_info['contour'][:, 1].max()

								        ]).astype(np.int64)


								        return face_info


								    @staticmethod

								    def _merge_pose_results(pose_results):

								        preds = []

								        if pose_results is not None:

								            for prefix, pose_result in enumerate(pose_results):

								                model_cfg = pose_result['model_cfg']

								                for idx, _pred in enumerate(pose_result['preds']):

								                    pred = _pred.copy()

								                    pred['id'] = f'{prefix}.{_pred.get("track_id", str(idx))}'

								                    pred['model_cfg'] = model_cfg

								                    preds.append(pred)

								        return preds


								    @staticmethod

								    def _get_swap_map(num_target):

								        ids = np.random.choice(num_target, num_target, replace=False)

								        target_map = ids[(ids + 1) % num_target]

								        return target_map