Перейти к содержимому

File Upload -- загрузка и обработка файлов

Процессор File Upload позволяет загрузить файл (CSV, Excel XLSX) и автоматически преобразовать его строки в отдельные DataPackets для дальнейшей обработки в воронке. Это основной способ загрузки собственных данных в систему: списков компаний, ИНН, контактов или любых других табличных данных.

Процессор всегда является первым в цепочке. Он поддерживает настройку маппинга колонок, типизацию полей, пропуск пустых строк, обработку дубликатов и батчевую загрузку для больших файлов.

  • Загрузка списка ИНН компаний для последующего обогащения через Registry Search или INN Search
  • Импорт базы контактов из CRM для поиска дополнительных данных
  • Загрузка списка URL сайтов для парсинга через Site Crawl
  • Импорт прайс-листа поставщика для анализа
  • Загрузка выгрузки из внешней системы для обработки и передачи в CRM
  • Импорт списка ключевых слов для массового поиска
ПараметрТипОбязательныйПо умолчаниюОписание
fileNamestringДаИмя загруженного файла (заполняется автоматически при загрузке)
columnsarrayДаМассив настроек колонок (настраивается в визуальном интерфейсе после загрузки файла)
columns[].originalNamestringДаИсходное название колонки в файле (например, “Full Name”)
columns[].fieldNamestringДаНазвание поля в выходном DataPacket (например, “full_name”)
columns[].dataType"string" / "number" / "boolean" / "date"ДаТип данных колонки
columns[].format"uri" / "html" / "email"НетДополнительный формат для строковых полей
columns[].enabledbooleanДаtrueВключить колонку в обработку
columns[].columnIndexnumberДаИндекс колонки в файле (0-based)
skipEmptyRowsbooleanНетtrueПропускать пустые строки
headerRownumberНет1Номер строки с заголовками (1-based)
dataStartRownumberНет2Номер строки, с которой начинаются данные (1-based)
duplicateHandling"skip" / "upload"Нет"skip"Обработка дубликатов: skip — пропускать, upload — загружать все строки

File Upload не принимает данных от других процессоров — он всегда является первым процессором в цепочке.

Данные поступают из загруженных файлов. Поддерживаемые форматы:

  • XLSX (Microsoft Excel) — основной формат, обрабатывается библиотекой xlsx
  • CSV — текстовые таблицы с разделителями

Файлы загружаются через интерфейс и хранятся в Object Storage. При запуске процессор находит все необработанные файлы и последовательно обрабатывает их.

Каждая строка файла создает отдельный DataPacket. Структура пакета определяется настроенным маппингом колонок.

Пример для файла со списком компаний:

{
"company_name": "ООО Рога и Копыта",
"inn": "7707083893",
"website": "https://example.com",
"contact_email": "info@example.com"
}

Пример для файла со списком ИНН:

{
"inn": "7707083893",
"comment": "Целевая компания"
}

После обработки каждого файла доступна статистика:

{
"filesProcessed": 1,
"totalRowsProcessed": 150,
"totalRowsSkipped": 3,
"totalDataPacketsCreated": 147,
"processingTimeMs": 2500
}

Процессор File Upload является бесплатным — загрузка и обработка файлов не расходуют токены платформы.

  1. Загрузите Excel-файл с колонкой “ИНН”
  2. Настройте маппинг колонок:
{
"columns": [
{
"originalName": "ИНН",
"fieldName": "inn",
"dataType": "string",
"enabled": true,
"columnIndex": 0
},
{
"originalName": "Комментарий",
"fieldName": "comment",
"dataType": "string",
"enabled": true,
"columnIndex": 1
}
],
"skipEmptyRows": true,
"headerRow": 1,
"dataStartRow": 2,
"duplicateHandling": "skip"
}
{
"columns": [
{
"originalName": "Название",
"fieldName": "company_name",
"dataType": "string",
"enabled": true,
"columnIndex": 0
},
{
"originalName": "Сайт",
"fieldName": "website",
"dataType": "string",
"format": "uri",
"enabled": true,
"columnIndex": 1
},
{
"originalName": "ИНН",
"fieldName": "inn",
"dataType": "string",
"enabled": true,
"columnIndex": 2
}
],
"skipEmptyRows": true,
"dataStartRow": 2,
"duplicateHandling": "skip"
}

Чтобы исключить колонку из обработки, установите enabled: false:

{
"columns": [
{
"originalName": "ИНН",
"fieldName": "inn",
"dataType": "string",
"enabled": true,
"columnIndex": 0
},
{
"originalName": "Внутренний код",
"fieldName": "internal_code",
"dataType": "string",
"enabled": false,
"columnIndex": 1
}
]
}
  • Registry Search — часто используется сразу после File Upload для обогащения загруженных ИНН данными из государственных реестров
  • INN Search — ищет ИНН компаний по названию, когда в файле нет ИНН
  • GPT Filter — фильтрует загруженные данные по сложным критериям через ИИ
  • Contact Search — находит контакты ЛПР в компаниях из загруженного списка
  • Site Crawl — парсит сайты компаний по URL из загруженного файла
  • CRM Update — передает обогащенные данные из файла в CRM-систему