dtm-hoinv's picture
Add new SentenceTransformer model
b505e15 verified
metadata
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - generated_from_trainer
  - dataset_size:193915
  - loss:CategoricalContrastiveLoss
widget:
  - source_sentence: 科目:コンクリート。名称:均しコンクリート。
    sentences:
      - 科目:コンクリート。名称:設備基礎コンクリート。摘要:FC21N/mm2 スランプ18。備考:代価表    0036
      - 科目:コンクリート。名称:機械基礎コンクリート。摘要:FC21N/mm2 スランプ15。備考:代価表    0045
      - >-
        科目:コンクリート。名称:コンクリート打設手間。摘要:防水保護コン     人力打設工作物の基礎等     S15~S18-      
        -。備考:代価表    0013。
  - source_sentence: 科目:コンクリート。名称:均しコンクリート。
    sentences:
      - >-
        科目:コンクリート。名称:普通コンクリート。摘要:JIS A5308   FC=21      S15粗骨材20膨張剤
        デンカパワーCSA20㎏/m2。備考:代価表    0061屋内土間コンクリート。
      - 科目:コンクリート。名称:普通コンクリート。摘要:FC=24 S15粗骨材基礎部。備考:代価表    0065
      - 科目:タイル。名称:段床タイル張り。
  - source_sentence: 科目:コンクリート。名称:普通コンクリート。
    sentences:
      - >-
        科目:コンクリート。名称:コンクリート打設手間。摘要:捨てコンクリート     ポンプ打設30m3/回程度       
        S15~S18-       圧送費、基本料別途。備考:B0-434215 No.1        市場。
      - >-
        科目:コンクリート。名称:コンクリート打設手間。摘要:躯体           ポンプ打設50m3/回未満       
        S15~S18標準階高 圧送費、基本料別途。備考:B0-434215 3101新営地上部コンクリート。
      - >-
        科目:コンクリート。名称:普通コンクリート。摘要:JIS A5308   FC=21      S15粗骨材20。備考:B0-114112
        No.1         参資基礎部コンクリート。
  - source_sentence: 科目:コンクリート。名称:擁壁部コンクリート。
    sentences:
      - >-
        科目:コンクリート。名称:擁壁部コンクリート。摘要:FC36 S15粗骨材20 高性能AE減水剤躯体防水材
        ベストンA同等品以上。備考:代価表    0105。
      - >-
        科目:コンクリート。名称:コンクリート打設手間。摘要:躯体           ポンプ打設50m3/回未満       
        S15~S18標準階高 圧送費、基本料別途。備考:B0-434215 3101新営高流動コンクリート(免震下部基礎)。
      - >-
        科目:コンクリート。名称:免震下部コンクリート打設手間。摘要:基礎部         ポンプ打設100m3/回以上      
        S15~S18-        圧送費、基本料別途。備考:代価表    0115。
  - source_sentence: 科目:タイル。名称:階段蹴上タイル。
    sentences:
      - >-
        科目:コンクリート。名称:コンクリート(個別)。摘要:F0=24N/mm2   S=15 徳島1。備考:B1-111111
        H2906BD     個別基礎部躯体コンクリート。
      - 科目:コンクリート。名称:免震EXP_J用充填コンクリート。摘要:FC18N/mm2 スランプ18。備考:代価表    0064
      - 科目:タイル。名称:屋外階段A段床床タイルA。
pipeline_tag: sentence-similarity
library_name: sentence-transformers

SentenceTransformer

This is a sentence-transformers model trained. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("Detomo/cl-nagoya-sup-simcse-ja-nss-v_1_0_7_13")
# Run inference
sentences = [
    '科目:タイル。名称:階段蹴上タイル。',
    '科目:タイル。名称:屋外階段A段床床タイルA。',
    '科目:コンクリート。名称:免震EXP_J用充填コンクリート。摘要:FC18N/mm2 スランプ18。備考:代価表    0064。',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Training Details

Training Dataset

Unnamed Dataset

  • Size: 193,915 training samples
  • Columns: sentence1, sentence2, and label
  • Approximate statistics based on the first 1000 samples:
    sentence1 sentence2 label
    type string string int
    details
    • min: 11 tokens
    • mean: 13.74 tokens
    • max: 19 tokens
    • min: 11 tokens
    • mean: 34.76 tokens
    • max: 72 tokens
    • 0: ~57.20%
    • 1: ~5.00%
    • 2: ~37.80%
  • Samples:
    sentence1 sentence2 label
    科目:コンクリート。名称:コンクリートポンプ圧送。 科目:コンクリート。名称:ポンプ圧送。 1
    科目:コンクリート。名称:コンクリートポンプ圧送。 科目:コンクリート。名称:コンクリートポンプ圧送。摘要:30m3以上 50m3/回未満基本料金別途加算。備考:B0-434226 No.1 市場免震装置下部コン。 2
    科目:コンクリート。名称:コンクリートポンプ圧送。 科目:コンクリート。名称:コンクリートポンプ圧送基本料金。 0
  • Loss: sentence_transformer_lib.categorical_constrastive_loss.CategoricalContrastiveLoss

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 256
  • per_device_eval_batch_size: 256
  • learning_rate: 1e-05
  • weight_decay: 0.01
  • num_train_epochs: 1
  • warmup_ratio: 0.2
  • fp16: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 256
  • per_device_eval_batch_size: 256
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 1e-05
  • weight_decay: 0.01
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.2
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss
0.0660 50 0.0048
0.1319 100 0.0049
0.1979 150 0.0042
0.2639 200 0.0062
0.3298 250 0.0056
0.3958 300 0.005
0.4617 350 0.0048
0.5277 400 0.0049
0.5937 450 0.0043
0.6596 500 0.0051
0.7256 550 0.0046
0.7916 600 0.0045
0.8575 650 0.0043
0.9235 700 0.0049
0.9894 750 0.0038

Framework Versions

  • Python: 3.11.12
  • Sentence Transformers: 4.1.0
  • Transformers: 4.52.2
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.7.0
  • Datasets: 2.14.4
  • Tokenizers: 0.21.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}