1 |
1
각 컬럼의 명칭에 대한 컬럼헤딩 및 상기 각 컬럼의 셀들의 데이터 집합인 레코드를 포함하는 관계형 테이블과, 상기 관계형 테이블의 메타 데이터에 대한 임베딩 장치에 있어서,상기 메타 데이터에 대한 임베딩을 수행하여 메타 데이터 임베딩 벡터를 생성하고, 상기 컬럼헤딩에 대한 임베딩을 수행하여 컬럼헤딩 임베딩 벡터를 생성하는 제1 임베딩부;상기 레코드에 포함된 복수의 행(row) 중 어느 하나의 행의 셀 값들을 서로 연결하여, 토큰화된 자연어 문장으로 변형하는 전처리부;상기 전처리부의 전처리 결과를 기초로 상기 레코드에 대한 임베딩을 수행하여 레코드 임베딩 벡터를 생성하는 제2 임베딩부;상기 메타 데이터 임베딩 벡터, 컬럼헤딩 임베딩 벡터 및 상기 레코드 임베딩 벡터를 기초로 최종 임베딩 벡터를 생성하는 최종 임베딩 벡터 생성부;복수의 상기 관계형 테이블에 대하여 생성된 각각의 상기 최종 임베딩 벡터 간 코사인 유사도에 기초하여, 상기 복수의 관계형 테이블 중에서 데이터셋 융합 후보를 결정하는 융합 데이터 결정부; 및상기 결정된 데이터셋 융합 후보를 기초로 최종 융합 데이터셋을 결정하고, 상기 결정된 융합 데이터셋에 포함된 데이터셋 간의 공통 특징을 추출하고, 추출된 공통 특징을 기초로 추천 데이터를 생성하는 융합 데이터 활용부를 포함하되,상기 제1 임베딩부는 제1 모델을 이용하여 상기 메타 데이터와 상기 컬럼헤딩에 대한 임베딩을 수행하고, 상기 제2 임베딩부는 상기 제1 모델과는 상이한 제2 모델을 이용하여 상기 레코드에 대한 임베딩을 수행하되,상기 메타 데이터는 상기 관계형 테이블에 대한 키워드 태그 데이터를 포함하고, 상기 키워드 태그 데이터는 상기 관계형 테이블에 태깅된 키워드에 관한 정보를 포함하며,상기 최종 임베딩 벡터 생성부는, 상기 메타 데이터 임베딩 벡터에 대하여 제1 가중치를 부여하고, 상기 컬럼헤딩 임베딩 벡터에 대하여 제2 가중치를 부여하고, 상기 레코드 임베딩 벡터에 대하여 제3 가중치를 부여하고, 상기 메타 데이터 임베딩 벡터, 상기 컬럼헤딩 임베딩 벡터 및 상기 레코드 임베딩 벡터의 가중합에 기초하여 상기 최종 임베딩 벡터를 생성하되, 상기 제1 가중치와 상기 제2 가중치는 서로 동일한 값을 갖고, 상기 제1 가중치와 상기 제2 가중치는 상기 제3 가중치보다 작은 값을 갖는 임베딩 장치
|
2 |
2
제1 항에 있어서, 상기 메타 데이터는, 상기 관계형 테이블의 데이터 출처, 카테고리, 용량 및 작성 일자 중 적어도 하나를 더 포함하는 임베딩 장치
|
3 |
3
제1 항에 있어서, 상기 제1 모델은 Word2Vec 모델이고, 상기 제2 모델은 BERT 모델인 임베딩 장치
|
4 |
4
삭제
|
5 |
5
제3 항에 있어서, 상기 BERT 모델은, 멀티헤드 셀프어텐션 모델(multi-head self-attention model)을 포함하고,상기 제2 임베딩부는, 상기 멀티헤드 셀프어텐션 모델을 이용하여 상기 레코드에 대한 임베딩을 수행하는 임베딩 장치
|
6 |
6
제5 항에 있어서, 상기 멀티헤드 셀프어텐션 모델은, 단어 조각 임베딩 벡터(Word Piece Embedding Vector)를 입력값으로 하여 상기 레코드에 대한 임베딩을 수행하는 임베딩 장치
|
7 |
7
삭제
|
8 |
8
삭제
|
9 |
9
각 컬럼의 명칭에 대한 컬럼헤딩 및 상기 각 컬럼의 셀들의 데이터 집합인 레코드를 포함하는 관계형 테이블에 대한 임베딩과, 상기 관계형 테이블의 메타 데이터에 대한 임베딩을 수행하는 임베딩 장치에 의해 수행되는 임베딩 방법에 있어서,상기 메타 데이터에 대한 임베딩을 수행하여 메타 데이터 임베딩 벡터를 생성하고, 상기 컬럼헤딩에 대한 임베딩을 수행하여 컬럼헤딩 임베딩 벡터를 생성하는 단계;상기 레코드에 포함된 복수의 행(row) 중 어느 하나의 행의 셀 값들을 서로 연결하여, 토큰화된 자연어 문장으로 변형하는 전처리 단계;상기 전처리 단계의 전처리 결과를 기초로 상기 레코드에 대한 임베딩을 수행하여 레코드 임베딩 벡터를 생성하는 단계; 상기 메타 데이터 임베딩 벡터, 컬럼헤딩 임베딩 벡터 및 상기 레코드 임베딩 벡터를 기초로 최종 임베딩 벡터를 생성하는 단계;복수의 상기 관계형 테이블에 대하여 생성된 각각의 상기 최종 임베딩 벡터 간 코사인 유사도에 기초하여, 상기 복수의 관계형 테이블 중에서 데이터셋 융합 후보를 결정하는 단계; 및상기 결정된 데이터셋 융합 후보를 기초로 최종 융합 데이터셋을 결정하고, 상기 결정된 융합 데이터셋에 포함된 데이터셋 간의 공통 특징을 추출하고, 추출된 공통 특징을 기초로 추천 데이터를 생성하는 단계를 포함하되,상기 메타 데이터 임베딩 벡터와 컬럼헤딩 임베딩 벡터를 생성하는 단계는, 제1 모델을 이용하여 상기 메타 데이터와 상기 컬럼헤딩에 대한 임베딩을 수행하고, 상기 레코드 임베딩 벡터를 생성하는 단계는, 상기 제1 모델과는 상이한 제2 모델을 이용하여 상기 레코드에 대한 임베딩을 수행하며,상기 메타 데이터는 상기 관계형 테이블에 대한 키워드 태그 데이터를 포함하고, 상기 키워드 태그 데이터는 상기 관계형 테이블에 태깅된 키워드에 관한 정보를 포함하며,상기 최종 임베딩 벡터를 생성하는 단계는, 상기 메타 데이터 임베딩 벡터에 대하여 제1 가중치를 부여하고, 상기 컬럼헤딩 임베딩 벡터에 대하여 제2 가중치를 부여하고, 상기 레코드 임베딩 벡터에 대하여 제3 가중치를 부여하고, 상기 메타 데이터 임베딩 벡터, 상기 컬럼헤딩 임베딩 벡터 및 상기 레코드 임베딩 벡터의 가중합에 기초하여 상기 최종 임베딩 벡터를 생성하되, 상기 제1 가중치와 상기 제2 가중치는 서로 동일한 값을 갖고, 상기 제1 가중치와 상기 제2 가중치는 상기 제3 가중치보다 작은 값을 갖는 임베딩 방법
|
10 |
10
제9 항에 있어서, 상기 제1 모델은 Word2Vec 모델이고, 상기 제2 모델은 BERT 모델인 임베딩 방법
|